Модели и агенты

Сбер открыл аудиотокенизатор KVAE-Audio: качество text-to-audio выше, параметров меньше

29.06.2026 · habr.com ↗

Сбер закрыл третью модальность: после токенизаторов для изображений и видео компания представила KVAE-Audio — вариационный автоэнкодер для звука, работающий на частоте 48 кГц. По тестам модель показывает лучшее качество генерации звука по текстовому описанию (text-to-audio) в общем домене, не уступая конкурентам по качеству реконструкций.

Ключевое преимущество — архитектура VAE требует заметно меньше параметров и каналов в латентном пространстве при сопоставимом или лучшем результате. Это снижает вычислительные затраты. Код, инференс и веса опубликованы на GitHub и Hugging Face под свободной лицензией MIT.

Источник: habr.com

Темы: Модели и агенты Sberbank