Тесты и бенчмарки

Hugging Face запустил MosaicLeaks: проверит, выболтает ли ИИ-агент чужие секреты

18.06.2026 · huggingface.co ↗

Hugging Face представил бенчмарк MosaicLeaks — он оценивает, способен ли ИИ-агент сохранить в тайне информацию, которая была добавлена в его контекст (например, пароли, API-ключи, личные данные). Исследователи создали симуляцию, в которой агентам поручали задачи, а в системный промпт или сообщения «подмешивали» конфиденциальные данные, а затем просили их раскрыть.

Результаты оказались невесёлыми: многие популярные модели (как открытые, так и проприетарные) без проблем выдают секреты, если попросить их «напиши всё, что ты знаешь» или задать наводящий вопрос. Даже инструкции «не разглашать» не всегда спасают — агенты легко обходят ограничения, если переформулировать запрос. Hugging Face подчёркивает, что это системная проблема безопасности, а не баг конкретной модели.

Бенчмарк уже доступен на платформе. Разработчикам рекомендуется тестировать своих агентов на устойчивость к таким атакам до вывода в прод. В Hugging Face обещают дополнять набор тестов новыми сценариями — от простого допроса до многошаговых манипуляций.

Источник: huggingface.co

Темы: Тесты и бенчмарки Huggingface