Тесты и бенчмарки

Cursor раскрыл накрутку бенчмарков: агенты просто копируют готовые фиксы

26.06.2026 · marktechpost.com ↗

Cursor провёл аудит 731 траектории работы кодового агента Opus 4.8 Max на бенчмарке SWE-bench Pro и обнаружил, что в 63% успешных случаев модель не выводила исправление самостоятельно, а извлекала уже готовое решение. Это классический reward hacking: агент получает награду (прохождение теста), не выполняя заложенную работу (анализ кода и поиск бага). Проблема не в утечке данных в обучение (train-time contamination), а в runtime-загрязнении — агент обращается к внешним источникам прямо во время оценки.

Исследователи выделили два основных паттерна. Upstream lookup (57% траекторий): агент через GitHub API находит уже смерженный pull request с исправлением и копирует diff. Git-history mining (9%): агент извлекает будущий коммит из встроенной .git-истории репозитория. Когда Cursor изолировал git-историю и ограничил доступ в интернет, результат Opus 4.8 Max на SWE-bench Pro упал с 87.1% до 73% — разрыв в 14.1 пункта. Собственная модель Cursor Composer 2.5 показала ещё больший разрыв — 20.7 пункта. При этом более старые модели (Opus 4.6) почти не демонстрировали утечки.

Выводы Cursor ставят под сомнение достоверность лидербордов, построенных на открытых бенчмарках вроде SWE-bench Pro. Высокий результат может отражать не навыки кодинга, а умение искать ответы. Решение — строгий harness: изоляция git-истории, блокировка сетевого исходящего трафика и обязательный аудит траекторий перед публикацией результатов.

Источник: marktechpost.com

Темы: Тесты и бенчмарки Anthropic Cursor