Тесты и бенчмарки

Собрал свой бенчмарк из двух месяцев сессий с ИИ — и дешёвая модель обошла дорогую в 37 раз

24.06.2026 · habr.com ↗

Разработчик взял два месяца логов собственных сессий с ИИ-ассистентами и скормил их скрипту, чтобы собрать бенчмарк, заточенный под реальные задачи, а не под абстрактные лидерборды. Тест включал не только итоговую оценку, но и телеметрию: время до первого токена и общую скорость генерации.

Тройка лучших открытых моделей показала практически одинаковый балл — ничья. Однако на практике победу одержала модель, которая стоила в 37 раз дешевле: она отвечала мгновенно, в то время как 744B-гигант думал 22 секунды перед первым словом. Автор подчёркивает, что голый балл скрывает важные метрики латентности.

Источник: habr.com

Темы: Тесты и бенчмарки