Волна ИИПодписаться
← Назад
Исследования

Золото на MLE-bench: как победитель не смог найти код, который взял первую строчку

22.06.2026 · habr.com ↗
Золото на MLE-bench: как победитель не смог найти код, который взял первую строчку

В апреле на агентских соревнованиях Berkeley RDI участник под ником Георгий сумел преодолеть золотой порог на бенчмарке MLE-bench. Однако когда он решил показать тот самый код, который принёс победу, выяснилось, что файлы попросту пропали — они остались где-то в /tmp и не сохранились.

В своей статье на Хабре Георгий детально разбирает, что на самом деле происходило во время соревнования: как именно агент преодолел планку, почему результат нельзя воспроизвести и сколько на самом деле стоит это «золото». История превращается в цифровой детектив — расследование собственной «победы», где главный подозреваемый — непрозрачность агентного тестирования.

Источник: habr.com
← Все новости AI Wave