The Atlantic выложила поисковую базу 21 миллиона треков, на которых обучали ИИ-модели
Атлантик-репортёр Алекс Рейснер обнаружил четыре набора музыкальных данных, на которых обучали ИИ-модели, и сделал их полностью доступными для поиска. Два из наборов огромны: 12 и 9 миллионов треков. Два других меньше, но всё равно содержат более 100 000 композиций каждый.
По словам Рейснера, эти датасеты скачивали тысячи раз. Google и Stability AI в своих научных работах подтвердили, что использовали их. Некоторые источники, например Free Music Archive, распространяются бесплатно только для личного использования — перепродажа и публичная трансляция без лицензии запрещены.
Созданная база позволяет вбить название песни или исполнителя и узнать, входила ли композиция в тренировочные датасеты ИИ. Это важный шаг к прозрачности в индустрии: раньше разработчики моделей часто не раскрывали состав обучающих данных.