OpenAI придумала, как проверять безопасность ИИ-агентов до релиза: метод Deployment Simulation
OpenAI опубликовала новый метод предварительной оценки безопасности — Deployment Simulation. Идея проста: перед тем как выпустить модель, её развёртывание симулируют. Для этого берут реальные диалоги из предыдущих развёртываний, удаляют ответы старой модели и подставляют ответы новой модели-кандидата. Затем анализируют, не появились ли новые сбои или опасное поведение.
Метод уже применяется внутри OpenAI: он помог выявить слепые зоны в традиционных тестах и повлиял на решения о выпуске моделей. Особенно актуально это для агентного кодирования — когда модель может вызывать внешние инструменты. Симуляция позволяет оценить частоту нежелательных действий до того, как модель попадёт к пользователям.
Ограничение: метод не ловит события, которые случаются реже одного раза на 200 000 сообщений. Он нацелен на «не-хвостовые» риски, а не на самые редкие аномалии. Тем не менее, это шаг к более прозрачной и проверяемой безопасности — прогнозы, сделанные до релиза, можно будет сверить с реальными данными после.