Модели и агенты
Сбер открыл аудиотокенизатор KVAE-Audio: качество text-to-audio выше, параметров меньше
Сбер закрыл третью модальность: после токенизаторов для изображений и видео компания представила KVAE-Audio — вариационный автоэнкодер для звука, работающий на частоте 48 кГц. По тестам модель показывает лучшее качество генерации звука по текстовому описанию (text-to-audio) в общем домене, не уступая конкурентам по качеству реконструкций.
Ключевое преимущество — архитектура VAE требует заметно меньше параметров и каналов в латентном пространстве при сопоставимом или лучшем результате. Это снижает вычислительные затраты. Код, инференс и веса опубликованы на GitHub и Hugging Face под свободной лицензией MIT.
Источник: habr.com