ИИ 19 суток без остановки решал одну задачу за $2600: новый бенчмарк MirrorCode показал потолок кодовых моделей
Epoch AI запустила бенчмарк MirrorCode, который проверяет способность ИИ-моделей реконструировать полный код программы, не видя оригинал. Задача принципиально новая: модель получает только выполняемый файл или результат работы программы и должна воссоздать её исходный код.
Лидером стал Claude Opus 4.7 с 56% решённых задач. В одном из тестов он за 14 часов восстановил набор инструментов из 16 000 строк кода. При этом одна из моделей провела за единственной задачей 19 суток непрерывной работы — и общий счёт за вычислительные ресурсы составил $2600.
Несмотря на впечатляющие результаты отдельных моделей, все участники провалились на самых сложных примерах. MirrorCode впервые замерил предел современных LLM в задаче обратного восстановления кода — и он оказался довольно низким. Бенчмарк обещает стать новым стандартом для оценки кодовых моделей.