Тесты и бенчмарки

ИИ 19 суток без остановки решал одну задачу за $2600: новый бенчмарк MirrorCode показал потолок кодовых моделей

26.06.2026 · the-decoder.com ↗

Epoch AI запустила бенчмарк MirrorCode, который проверяет способность ИИ-моделей реконструировать полный код программы, не видя оригинал. Задача принципиально новая: модель получает только выполняемый файл или результат работы программы и должна воссоздать её исходный код.

Лидером стал Claude Opus 4.7 с 56% решённых задач. В одном из тестов он за 14 часов восстановил набор инструментов из 16 000 строк кода. При этом одна из моделей провела за единственной задачей 19 суток непрерывной работы — и общий счёт за вычислительные ресурсы составил $2600.

Несмотря на впечатляющие результаты отдельных моделей, все участники провалились на самых сложных примерах. MirrorCode впервые замерил предел современных LLM в задаче обратного восстановления кода — и он оказался довольно низким. Бенчмарк обещает стать новым стандартом для оценки кодовых моделей.

Источник: the-decoder.com

Темы: Тесты и бенчмарки Epochai Anthropic