Инструменты

Конвейер для TTS-датасетов: как разметить миллионы аудио без падений на «длинном хвосте»

01.07.2026 · habr.com ↗

Инженеры опубликовали аудио-конвейер audiogear на Python + Hydra, который автоматизирует разметку аудиозаписей для TTS. Входящая папка с файлами превращается в датасет с десятками признаков: оценка качества речи, просодические характеристики, разборчивость, идентификация спикера и текстовая транскрипция — каждая колонка соответствует одной записи.

Ключевая особенность — устойчивость к «длинному хвосту»: редкие или шумные записи, на которых обычно ломаются простые скрипты, обрабатываются корректно. Инструмент масштабируется от одной видеокарты до кластера, умеет строить карты нагрузки и не падает при пиковых нагрузках.

Источник: habr.com

Темы: Инструменты