Тесты и бенчмарки

DiscoBench показал: AI-агенты не умеют задавать уточняющие вопросы, когда запросы неоднозначны

05.07.2026 · the-decoder.com ↗

AI-агенты редко проваливают многошаговые исследования из-за самого поиска — их настоящая проблема в том, что они не задают уточняющих вопросов, когда запрос пользователя неоднозначен. Новый бенчмарк DiscoBench наглядно это демонстрирует.

Согласно результатам, модели, которые многократно переискивают вместо того, чтобы попросить уточнения, показывают результат 51,9% — это хуже, чем просто угадать ответ. Даже самая лучшая протестированная модель достигает лишь 43% общей точности.

Когда же из запросов убрали неоднозначность, точность выросла на целых 40 процентных пунктов. Это доказывает: ключевая проблема не в поисковых способностях агентов, а в их неумении распознать неопределённость и вовремя задать пользователю правильный вопрос.

Источник: the-decoder.com

Темы: Тесты и бенчмарки