Исследователи OpenAI нашли способ делать ИИ-модели безопаснее и устойчивее к взлому, просто подмешивая «полезные черты»
Исследователи OpenAI пришли к неожиданному выводу: если обучить ИИ-модель небольшой дозе «полезных черт» вроде правдивости (truthfulness) и готовности исправлять ошибки (corrigibility), она становится безопаснее и устойчивее к манипуляциям сразу в широком спектре задач. Эффект оказался кросс-доменным — например, тренировка на медицинских данных улучшила способность модели распознавать обман.
В ходе экспериментов модель, прошедшая такое обучение, показала прирост качества на 44 из 53 тестовых бенчмарков. Причём подход OpenAI принципиально отличается от метода Anthropic, основанного на конституции — наборе фиксированных правил. Вместо этого исследователи использовали reinforcement learning с подкреплением за проявление заданных черт.
Результаты говорят о том, что «прививка» желательных качеств может стать универсальным методом повышения безопасности ИИ, не требующим ручного прописывания всех возможных сценариев. Пока это исследование, но его последствия для практического выравнивания моделей могут быть значительными.