Коллапс моделей: почему ИИ может убить собственное разнообразие
Проблема коллапса моделей (model collapse) известна: если новую генеративную модель обучать на текстах, сгенерированных предыдущей, распределение данных сужается от поколения к поколению. Сначала исчезают редкие случаи — необычные обороты, маловероятные сочетания, локальные знания. Затем беднеет и сама норма. Каждая отдельная генерация при этом выглядит убедительно: грамматически правильной и логичной. Ошибка проявляется не как немедленный бред, а как постепенное сокращение пространства возможного — как последовательность копий, где сотая теряет детали, которые никто не считал важными, пока они не исчезли.
Коллапс не считается неизбежным: эксперименты показывают, что сохранение исходного человеческого корпуса и контролируемое добавление синтетических данных могут стабилизировать обучение. Но это скорее способ сдерживать деградацию, чем окончательное решение. Система по-прежнему требует постоянного внешнего якоря, а редкие части распределения могут исчезать первыми.
Для AI-компаний это инженерная задача: корпус можно очистить, пересобрать, заново взвесить и повторить обучение. У людей такой возможности нет — если модели станут основным источником контента, мы рискуем потерять культурное и языковое разнообразие, которое нечем заменить.