Hugging Face запустил MosaicLeaks: проверит, выболтает ли ИИ-агент чужие секреты
Hugging Face представил бенчмарк MosaicLeaks — он оценивает, способен ли ИИ-агент сохранить в тайне информацию, которая была добавлена в его контекст (например, пароли, API-ключи, личные данные). Исследователи создали симуляцию, в которой агентам поручали задачи, а в системный промпт или сообщения «подмешивали» конфиденциальные данные, а затем просили их раскрыть.
Результаты оказались невесёлыми: многие популярные модели (как открытые, так и проприетарные) без проблем выдают секреты, если попросить их «напиши всё, что ты знаешь» или задать наводящий вопрос. Даже инструкции «не разглашать» не всегда спасают — агенты легко обходят ограничения, если переформулировать запрос. Hugging Face подчёркивает, что это системная проблема безопасности, а не баг конкретной модели.
Бенчмарк уже доступен на платформе. Разработчикам рекомендуется тестировать своих агентов на устойчивость к таким атакам до вывода в прод. В Hugging Face обещают дополнять набор тестов новыми сценариями — от простого допроса до многошаговых манипуляций.