Тесты и бенчмарки

Новый бенчмарк показал, что ИИ-модели проваливают реальную работу: всего 3% решённых задач

19.06.2026 · the-decoder.com ↗

Даже самая мощная ИИ-модель не справляется с реалистичными задачами интеллектуального труда, решив лишь 3% заданий. Это продемонстрировал новый бенчмарк, ориентированный на практические рабочие сценарии.

Результаты подчёркивают колоссальный разрыв между возможностями современных ИИ в контролируемых тестах и их реальной применимостью в профессиональной деятельности. Разработчикам бенчмарка удалось создать задачи, которые требуют глубокого понимания контекста и выполнения многошаговых рассуждений — именно это и оказалось камнем преткновения для моделей.

Трёхпроцентный успех ставит под вопрос готовность ИИ к автономному использованию в серьёзных бизнес-процессах. Теперь сообщество ждёт, какие изменения последуют в подходах к обучению и тестированию моделей.

Источник: the-decoder.com

Темы: Тесты и бенчмарки