Тесты и бенчмарки

Подача вопросов меняет результат LLM на 48%: как формат промпта влияет на бенчмарк

01.07.2026 · habr.com ↗

Автор собрал бенчмарк для русскоязычных LLM на корпоративных документах: политики, приказы, счета, согласования. Задача — найти нужный документ среди похожих, сослаться на конкретную строку и не сломаться при изменении одной даты.

Результаты оказались драматически зависимы от организации запросов: одна и та же модель выдала 28% правильных ответов при одном способе подачи и 76% при другом. Это подчёркивает, насколько чувствительны LLM к формулировкам промптов.

Выводы важны для практиков: при построении RAG-систем и агентов на LLM стоит тщательно тестировать разные шаблоны запросов, чтобы не получить искажённую оценку качества модели.

Источник: habr.com

Темы: Тесты и бенчмарки