Волна ИИПодписаться
← Назад
Исследования

Сбер перевёл GigaChat на диффузию: как GFusion дообучили 10B-модель без затрат с нуля

02.07.2026 · habr.com ↗

Специалисты GigaChat Pretrain поделились результатами стажировки: они взяли базовую авторегрессионную модель GigaChat3-10B-A1.8B-base и перевели её в диффузионный режим. Цель — не обучать огромную модель с нуля, а адаптировать существующую под новый принцип работы.

Так появились экспериментальные чекпоинты GFusion-10B-A1.8B-base и GFusion-10B-A1.8B. Диффузионные LLM (dLLM) — относительно молодое направление: вместо последовательной генерации токенов они восстанавливают текст из шума, что потенциально даёт больше контроля над процессом.

Пока это исследовательский эксперимент, но он показывает, как можно апсайклить обученные веса для новых архитектур. Полный рассказ — на Хабре.

Источник: habr.com
← Все новости AI Wave