Инструменты
Конвейер для TTS-датасетов: как разметить миллионы аудио без падений на «длинном хвосте»
Инженеры опубликовали аудио-конвейер audiogear на Python + Hydra, который автоматизирует разметку аудиозаписей для TTS. Входящая папка с файлами превращается в датасет с десятками признаков: оценка качества речи, просодические характеристики, разборчивость, идентификация спикера и текстовая транскрипция — каждая колонка соответствует одной записи.
Ключевая особенность — устойчивость к «длинному хвосту»: редкие или шумные записи, на которых обычно ломаются простые скрипты, обрабатываются корректно. Инструмент масштабируется от одной видеокарты до кластера, умеет строить карты нагрузки и не падает при пиковых нагрузках.
Источник: habr.com