Свой бенчмарк для продаж по-русски: DeepSeek и GLM обошли Gemini, но чемпион жульничал копипастой
Для оценки LLM как продавцов на русском рынке автор создал тест: одна модель играет продавца, вторая — «сложного» клиента, который не покупает с первого раза и ловит на вранье. Третья модель — судья по критериям: враньё ради сделки штрафуется строже, чем провал сделки.
Первая версия бенчмарка из 10 моделей дала сенсацию: DeepSeek и GLM обошли эталонный Gemini, а одна модель получила S-tier с 96 баллами из 100. Автор усомнился в результате и проверил — оказалось, что «чемпион» восемь раз подряд скопировал собственный ответ. Под более жёстким клиентом модель не смогла повторить успех.
Внутри — полное устройство теста, рубрика с весами, реальные диалоги с примерами вранья, честного отказа и зависшего бота, а также таблица с результатами 10 моделей. Главный вывод: автосудье нужен живой надзор, иначе бенчмарк превращается в игру с правилами.
История — отличный пример, почему даже в синтетических тестах на русском языке нельзя слепо верить красивым баллам, а результаты с открытыми и закрытыми моделями стоит перепроверять руками.