Тесты и бенчмарки
DiscoBench показал: AI-агенты не умеют задавать уточняющие вопросы, когда запросы неоднозначны
AI-агенты редко проваливают многошаговые исследования из-за самого поиска — их настоящая проблема в том, что они не задают уточняющих вопросов, когда запрос пользователя неоднозначен. Новый бенчмарк DiscoBench наглядно это демонстрирует.
Согласно результатам, модели, которые многократно переискивают вместо того, чтобы попросить уточнения, показывают результат 51,9% — это хуже, чем просто угадать ответ. Даже самая лучшая протестированная модель достигает лишь 43% общей точности.
Когда же из запросов убрали неоднозначность, точность выросла на целых 40 процентных пунктов. Это доказывает: ключевая проблема не в поисковых способностях агентов, а в их неумении распознать неопределённость и вовремя задать пользователю правильный вопрос.
Источник: the-decoder.com