Инструменты
Пошаговый гайд: NVIDIA Canary-1B-v2 для ASR, перевода и генерации субтитров на Python
Вышло подробное руководство по использованию NVIDIA Canary-1B-v2 — модели для автоматического распознавания речи и перевода. В туториале показан полный пайплайн: от установки зависимостей (NeMo, librosa, soundfile) и подготовки 16 кГц моноаудио до транскрибации, генерации таймкодов и выгрузки переведённых субтитров в формате SRT.
Модель работает на GPU и поддерживает 25 языков, включая русский. Скрипты включают пакетную обработку, тесты на длинных аудио и замеры скорости инференса. Гайд ориентирован на тех, кто хочет быстро собрать мультиязычную систему ASR + перевод для реальных файлов, субтитров или экспериментов с большими объёмами речи.
Источник: marktechpost.com