Исследования
Почему промпты не защищают ИИ-агентов: разбор Permission Boundary Bypass
Инструкция «не отправляй конфиденциальные данные наружу» в промпте — иллюзия защиты. Злоумышленники обходят её через Permission Boundary Bypass, используя техники scope creep (постепенное расширение полномочий) и capability chaining (объединение легитимных действий в атаку). Проблема в том, что проверки на уровне промпта не имеют математической строгости.
Авторы статьи предлагают заменить текстовые ограничения на формальные политики, например, на основе языка Дика — это даёт доказуемую изоляцию. Главный вывод: безопасность должна жить в runtime, а не в инструкции. Приведены 7 принципов защиты агентов и чеклист для аудита системы.
Источник: habr.com