Исследования
Катастрофическое забывание в трансформерах: метафора мясорубки и новый подход
Проблема катастрофического забывания (catastrophic forgetting) в нейросетях известна уже три десятилетия: когда модель обучают на разных задачах, знания о предыдущих стираются. В статье на Habr это сравнивают с мясорубкой, где ингредиенты смешиваются в общий фарш, вместо того чтобы обрабатывать каждый отдельным инструментом.
Авторы отмечают, что стандартные методы вроде регуляризации, replay или elastic weight consolidation — лишь временные костыли. Решение, по их мнению, лежит на поверхности: шаг от единого трансформера к роевой архитектуре, где каждый компонент отвечает за свою задачу, избегая смешивания весов.
Источник: habr.com