ByteDance и Renmin University представили iLLaDA — диффузионную языковую модель на 8B параметров, которая догоняет Qwen2.5
Команда из Renmin University и ByteDance представила iLLaDA — языковую модель на 8 миллиардов параметров, которая генерирует текст принципиально иначе, чем ChatGPT. Вместо авторегрессионного предсказания следующего токена она использует диффузионный подход, распространённый в генерации изображений.
На базовом уровне iLLaDA показывает результаты, сопоставимые с Qwen2.5, однако после fine-tuning отстаёт от неё. Пока модель доступна как исследовательский проект, и её практическое применение ограничено.
Это не первый случай, когда диффузионные методы применяются к тексту — ранее подобные эксперименты ставили Google и Meta, но iLLaDA выделяется размером и открытостью. Пока рано говорить о конкуренции с GPT или Claude, но направление выглядит перспективным для задач, где важна плавность генерации.