Исследования
Ускорение диффузионного декодера TTS: опыт Яндекса на реальном пайплайне
В пайплайне перевода видео в Яндекс Браузере скорость синтеза речи долго была узким местом — одно видео генерирует сотни фраз, и любая миллисекунда на счету. TTS работает каскадом из трёх компонентов: языковая модель предсказывает аудиотокены по тексту, диффузионный декодер восстанавливает мел-спектрограмму из латентов, а вокодер превращает её в звук.
После оптимизации языковой модели самым тяжёлым этапом стал декодер латентов — его forward pass запускается на каждом из десятков шагов семплинга диффузии. Именно его и взялись ускорять, что должно заметно улучшить производительность всего сервиса.
Источник: habr.com