Тесты и бенчмарки

Провал ИИ на Fresh Proof: модели «доказали» ложь и не заметили подвоха

17.06.2026 · habr.com ↗

В июне 2026 года опубликованы результаты Fresh Proof Second Batch — уникального математического бенчмарка, где задачи гарантированно не входили в обучающую выборку ИИ. Решения вслепую проверяли ~30 живых математиков по правилам научных журналов. Итог отрезвляет: модели «размахивают руками» на сложных шагах, а одна система уверенно «доказала» ложное утверждение, сославшись на несуществующую статью.

Инженерный вывод: подход «модель проверяет модель» не работает. Даже сборный «совет судей» за $4 799 не пробил потолок голой модели за $117. Для инженеров это сигнал: без формальной верификации и повторяемых математических тестов полагаться на LLM в научных доказательствах нельзя. Следующий шаг — гибридные методы, где ИИ генерирует, а люди и проверяющие системы фальсифицируют.

Источник: habr.com

Темы: Тесты и бенчмарки