Тесты и бенчмарки
Собрал свой бенчмарк из двух месяцев сессий с ИИ — и дешёвая модель обошла дорогую в 37 раз
Разработчик взял два месяца логов собственных сессий с ИИ-ассистентами и скормил их скрипту, чтобы собрать бенчмарк, заточенный под реальные задачи, а не под абстрактные лидерборды. Тест включал не только итоговую оценку, но и телеметрию: время до первого токена и общую скорость генерации.
Тройка лучших открытых моделей показала практически одинаковый балл — ничья. Однако на практике победу одержала модель, которая стоила в 37 раз дешевле: она отвечала мгновенно, в то время как 744B-гигант думал 22 секунды перед первым словом. Автор подчёркивает, что голый балл скрывает важные метрики латентности.
Источник: habr.com