Провал ИИ на Fresh Proof: модели «доказали» ложь и не заметили подвоха
В июне 2026 года опубликованы результаты Fresh Proof Second Batch — уникального математического бенчмарка, где задачи гарантированно не входили в обучающую выборку ИИ. Решения вслепую проверяли ~30 живых математиков по правилам научных журналов. Итог отрезвляет: модели «размахивают руками» на сложных шагах, а одна система уверенно «доказала» ложное утверждение, сославшись на несуществующую статью.
Инженерный вывод: подход «модель проверяет модель» не работает. Даже сборный «совет судей» за $4 799 не пробил потолок голой модели за $117. Для инженеров это сигнал: без формальной верификации и повторяемых математических тестов полагаться на LLM в научных доказательствах нельзя. Следующий шаг — гибридные методы, где ИИ генерирует, а люди и проверяющие системы фальсифицируют.