Исследования

OpenAI придумала, как проверять безопасность ИИ-агентов до релиза: метод Deployment Simulation

17.06.2026 · marktechpost.com ↗

OpenAI опубликовала новый метод предварительной оценки безопасности — Deployment Simulation. Идея проста: перед тем как выпустить модель, её развёртывание симулируют. Для этого берут реальные диалоги из предыдущих развёртываний, удаляют ответы старой модели и подставляют ответы новой модели-кандидата. Затем анализируют, не появились ли новые сбои или опасное поведение.

Метод уже применяется внутри OpenAI: он помог выявить слепые зоны в традиционных тестах и повлиял на решения о выпуске моделей. Особенно актуально это для агентного кодирования — когда модель может вызывать внешние инструменты. Симуляция позволяет оценить частоту нежелательных действий до того, как модель попадёт к пользователям.

Ограничение: метод не ловит события, которые случаются реже одного раза на 200 000 сообщений. Он нацелен на «не-хвостовые» риски, а не на самые редкие аномалии. Тем не менее, это шаг к более прозрачной и проверяемой безопасности — прогнозы, сделанные до релиза, можно будет сверить с реальными данными после.

Источник: marktechpost.com

Темы: Исследования Openai