Interfaze открыла diffusion-gemma-asr-small: диффузионное распознавание речи на 6 языках с 42M параметров
Interfaze, стартап из акселератора Y Combinator, выложил в открытый доступ модель diffusion-gemma-asr-small — первую мультиязычную ASR-модель на основе диффузионного декодера. В отличие от классических авторегрессионных моделей (генерируют токен за токеном), диффузионный подход уточняет все токены параллельно. Модель поддерживает шесть языков одним адаптером, а обучаемые веса составляют всего 42 млн параметров — это 0,16% от замороженного бэкбона DiffusionGemma (26B, из которых активно 4B благодаря MoE).
Архитектура: аудио кодируется замороженным whisper-small (извлекает 1500 фреймов по 768 признаков), затем проектор из свёрточных слоёв сжимает их до 188 «аудиотокенов» размерности 2816. Эти токены вставляются в слоты промпта DiffusionGemma, а LoRA-адаптеры позволяют бэкбону обрабатывать новую модальность. Декодер за 16 шагов денойзит холст из 192 токенов, работая двунаправленно. Первые попытки обучения провалились — модель игнорировала шумный проектор. Проблему решили прямым CTC-лоссом на выходе lm_head, что заставило градиенты доходить до проектора.
На LibriSpeech модель достигла 6,6% WER — это лучший результат среди диффузионных ASR (WhisFusion — 8,3%), но уступает авторегрессионному Whisper. Адаптер распространяется под лицензией Apache-2.0, а DiffusionGemma и whisper-small загружаются отдельно по своим лицензиям. Ключевое преимущество: стоимость транскрипции зависит от числа шагов денойзинга, а не от длины текста.