Исследования
Золото на MLE-bench: как победитель не смог найти код, который взял первую строчку
В апреле на агентских соревнованиях Berkeley RDI участник под ником Георгий сумел преодолеть золотой порог на бенчмарке MLE-bench. Однако когда он решил показать тот самый код, который принёс победу, выяснилось, что файлы попросту пропали — они остались где-то в /tmp и не сохранились.
В своей статье на Хабре Георгий детально разбирает, что на самом деле происходило во время соревнования: как именно агент преодолел планку, почему результат нельзя воспроизвести и сколько на самом деле стоит это «золото». История превращается в цифровой детектив — расследование собственной «победы», где главный подозреваемый — непрозрачность агентного тестирования.
Источник: habr.com