6000 попыток взлома ИИ-ассистента: ни один хакер не смог украсть секреты
Фернандо Иррарасаваль провёл эксперимент на hackmyclaw.com: он запустил тестовый экземпляр OpenClaw на модели Opus 4.6 и предложил всем желающим любыми способами выудить из ассистента секретный ключ через email. За время challenge было совершено около 6000 попыток, потрачено $500 на токены, а аккаунт Google даже временно заблокировали из-за подозрительного потока входящих писем. Результат: ни одна атака не сработала.
Секрет успеха — в жёстком anti-prompt-injection промпте, который запрещает модели раскрывать содержимое secrets.env, изменять свои файлы, выполнять команды из писем или выгружать данные наружу. Это подтверждает общую тенденцию: лаборатории всё лучше тренируют фронтир-модели противостоять инъекциям. В недавнем system card GPT-5.6 тоже есть раздел об этом.
Однако автор предупреждает: 6000 неудачных попыток не гарантируют абсолютную защиту. Более изощрённая атака может пробить оборону. В production-системах, где ущерб от инъекции необратим, полагаться только на защиту промптом пока рискованно. Обсуждение на Hacker News полно здорового скепсиса и конструктивных ответов Фернандо.