Исследования

Почему промпты не защищают ИИ-агентов: разбор Permission Boundary Bypass

23.06.2026 · habr.com ↗

Инструкция «не отправляй конфиденциальные данные наружу» в промпте — иллюзия защиты. Злоумышленники обходят её через Permission Boundary Bypass, используя техники scope creep (постепенное расширение полномочий) и capability chaining (объединение легитимных действий в атаку). Проблема в том, что проверки на уровне промпта не имеют математической строгости.

Авторы статьи предлагают заменить текстовые ограничения на формальные политики, например, на основе языка Дика — это даёт доказуемую изоляцию. Главный вывод: безопасность должна жить в runtime, а не в инструкции. Приведены 7 принципов защиты агентов и чеклист для аудита системы.

Источник: habr.com

Темы: Исследования