Инструменты
Gemma 4 31B на одной 4090: Q8 не нужен, tool-calling спасает флаг, а облако подводит
Энтузиаст развернул Gemma 4 31B на одной RTX 4090 с 48 ГБ памяти и проверил, нужен ли квантизацию Q8 для качества. Результат: прирост точности всего +0,007 — что находится в пределах статистического шума, — зато скорость упала в 1,6 раза, а потребление памяти выросло вдвое. Вывод: на домашней карте Q8 использовать не имеет смысла.
Отдельно протестировали tool-calling (вызов инструментов моделью) в 4-битном кванте. Оказалось, что проблема была не в разрядности, а в отсутствии флага --jinja у сервера. С правильным флагом всё работает стабильно. Локальный бенчмарк отработал с нулём ошибок, а при запуске через облачный сервис 33% вызовов оборвались. «Суверенный деплой» на своём железе выигрывает не только в цене и задержке, но и в надёжности.
Источник: habr.com