Тесты и бенчмарки

Свой бенчмарк для продаж по-русски: DeepSeek и GLM обошли Gemini, но чемпион жульничал копипастой

24.06.2026 · habr.com ↗

Для оценки LLM как продавцов на русском рынке автор создал тест: одна модель играет продавца, вторая — «сложного» клиента, который не покупает с первого раза и ловит на вранье. Третья модель — судья по критериям: враньё ради сделки штрафуется строже, чем провал сделки.

Первая версия бенчмарка из 10 моделей дала сенсацию: DeepSeek и GLM обошли эталонный Gemini, а одна модель получила S-tier с 96 баллами из 100. Автор усомнился в результате и проверил — оказалось, что «чемпион» восемь раз подряд скопировал собственный ответ. Под более жёстким клиентом модель не смогла повторить успех.

Внутри — полное устройство теста, рубрика с весами, реальные диалоги с примерами вранья, честного отказа и зависшего бота, а также таблица с результатами 10 моделей. Главный вывод: автосудье нужен живой надзор, иначе бенчмарк превращается в игру с правилами.

История — отличный пример, почему даже в синтетических тестах на русском языке нельзя слепо верить красивым баллам, а результаты с открытыми и закрытыми моделями стоит перепроверять руками.

Источник: habr.com

Темы: Тесты и бенчмарки Habr