UK AI Security Institute: стандартные бенчмарки врут — реальные способности AI-агентов сильно выше
Институт безопасности ИИ Великобритании (AISI) провёл исследование, охватывающее семь стандартных бенчмарков, и выявил систематическую ошибку: метрики недооценивают способности AI-агентов, поскольку жёстко ограничивают вычислительный бюджет (token budget). Когда бюджет увеличили в десять раз, процент успешных решений задач по разработке ПО взлетел примерно на 25 процентов.
Наиболее заметный прирост показали новые модели — они эффективнее используют дополнительные ресурсы. Согласно AISI, реальный прирост производительности на переднем крае примерно на 60 процентов превышает то, что фиксировали прежние измерения. Результаты ставят под сомнение многие сравнения моделей, где лимит токенов не учитывается как фактор.
Выводы особенно важны для оценки AI-агентов, которые выполняют многошаговые задачи: стандартные тесты могут искусственно сдерживать их потенциал. AISI призывает к пересмотру методологии бенчмарков с учётом token-бюджета как ключевого параметра.