Инструменты
Olmo-eval: рабочая среда для оценки моделей прямо в цикле разработки
На Hugging Face появился olmo-eval — специализированная среда для оценки моделей, встроенная прямо в цикл разработки. Это не очередной бенчмарк, а рабочий инструмент, который позволяет гонять тесты на лету, не прерывая итерации.
Судя по описанию, olmo-eval заточена под быструю обратную связь: вы меняете модель — сразу видите, как изменились метрики. Это экономит время и помогает не упустить регрессию. Пока проект свежий, но уже доступен для изучения и интеграции.
Источник: huggingface.co