Исследования

Ускорение диффузионного декодера TTS: опыт Яндекса на реальном пайплайне

25.06.2026 · habr.com ↗

В пайплайне перевода видео в Яндекс Браузере скорость синтеза речи долго была узким местом — одно видео генерирует сотни фраз, и любая миллисекунда на счету. TTS работает каскадом из трёх компонентов: языковая модель предсказывает аудиотокены по тексту, диффузионный декодер восстанавливает мел-спектрограмму из латентов, а вокодер превращает её в звук.

После оптимизации языковой модели самым тяжёлым этапом стал декодер латентов — его forward pass запускается на каждом из десятков шагов семплинга диффузии. Именно его и взялись ускорять, что должно заметно улучшить производительность всего сервиса.

Источник: habr.com

Темы: Исследования Yandex