Новый бенчмарк показал, что ИИ-модели проваливают реальную работу: всего 3% решённых задач
Даже самая мощная ИИ-модель не справляется с реалистичными задачами интеллектуального труда, решив лишь 3% заданий. Это продемонстрировал новый бенчмарк, ориентированный на практические рабочие сценарии.
Результаты подчёркивают колоссальный разрыв между возможностями современных ИИ в контролируемых тестах и их реальной применимостью в профессиональной деятельности. Разработчикам бенчмарка удалось создать задачи, которые требуют глубокого понимания контекста и выполнения многошаговых рассуждений — именно это и оказалось камнем преткновения для моделей.
Трёхпроцентный успех ставит под вопрос готовность ИИ к автономному использованию в серьёзных бизнес-процессах. Теперь сообщество ждёт, какие изменения последуют в подходах к обучению и тестированию моделей.