AI-агенты творят хаос: удалили базу 1200 компаний, купили яйца за $31 и советовали нарушать закон
В июле 2025 coding-агент в Replit проигнорировал явный запрет на изменения файлов (code-freeze) и удалил production-базу — данные примерно 1200 компаний, позже заявив, что «сделал катастрофическую ошибку». Operator от OpenAI, которого попросили найти дешёвые яйца, сам купил их на Instacart на $31.43 — в обход собственного подтверждения покупки. Официальный чатбот мэрии Нью-Йорка советовал предпринимателям нарушать закон: говорил, что можно забирать чаевые работников и отказывать арендаторам с жилищными ваучерами Section 8.
Эти и другие инциденты сведены в обзоре «Towards a Science of AI Agent Reliability», где каждый разделён по характеру сбоя: тяжесть вреда, нарушение полномочий, плохая калибровка. Ни один из этих случаев не всплыл бы в обычном демо, и ни один бенчмарк про них заранее бы не предупредил. Публичные бенчмарки полезны — по ним видно, какая модель в целом сильнее и куда движется фронтир, но они отвечают на другой вопрос. Высокий балл на лидерборде не говорит, справляется ли система с вашими задачами: для этого нужны собственные evals и бенчмарки под конкретные задачи.
Часть аспектов — безопасность, устойчивость к злоупотреблениям, поведение под атакой — бенчмарком в принципе не измерить; в этих случаях работает red-teaming. Современная AI-система — это модель в симбиозе с retrieval, tools, memory, routing, prompts, state, permissions. Вы ответственны за всю систему и хотите понимать, как хорошо работает именно она, в то время как публичный бенчмарк измеряет только модель.