Надоело вручную подбирать конфиги для LLM — Open Pareto-Harness сам строит Pareto-фронт и сравнивает бэкенды
Автор Open Pareto-Harness устал писать одноразовые скрипты для бенчмарков LLM и собрал инструмент, который сам гоняет модель на разных бэкендах (vLLM, llama.cpp, TensorRT-LLM и др.), подбирает конфигурации (квантование, batch size, число потоков) и строит Pareto-фронт по метрикам VRAM и p95 latency. Результат — график, на котором сразу видно, какие настройки влезают в бюджет и не роняют задержку.
Харнесс честно сравнивает бэкенды между собой: можно прогнать одну и ту же модель на локальной машине (с ограничением по видеопамяти) и в проде под нагрузкой, а потом наложить Pareto-фронты друг на друга. Это избавляет от ручного перебора вариантов и даёт объективную картинку, какая конфигурация действительно оптимальна для конкретного сценария.
Инструмент уже выложен в открытый доступ. Подходит как для локального эксперементирования (вписать Llama-3 в 4 ГБ), так и для продакшн-настройки. Автор разбирает реальные грабли: почему на одном бэкенде модель ест меньше VRAM, но падает latency, и как Pareto-фронт помогает не «переплачивать» качеством.
Эта новость не про очередной бенчмарк, а про инструмент, который автоматизирует рутинную подгонку конфигов — то, с чем сталкивается любой, кто работает с LLM. Полезно для инженеров, MLOps и исследователей.