Тесты и бенчмарки
Подача вопросов меняет результат LLM на 48%: как формат промпта влияет на бенчмарк
Автор собрал бенчмарк для русскоязычных LLM на корпоративных документах: политики, приказы, счета, согласования. Задача — найти нужный документ среди похожих, сослаться на конкретную строку и не сломаться при изменении одной даты.
Результаты оказались драматически зависимы от организации запросов: одна и та же модель выдала 28% правильных ответов при одном способе подачи и 76% при другом. Это подчёркивает, насколько чувствительны LLM к формулировкам промптов.
Выводы важны для практиков: при построении RAG-систем и агентов на LLM стоит тщательно тестировать разные шаблоны запросов, чтобы не получить искажённую оценку качества модели.
Источник: habr.com