Модели и агенты

Как сжать 8B-эмбеддер до продакшена без потери качества: разбор всех техник с реальными метриками

02.07.2026 · habr.com ↗

Декодерные эмбеддеры размером 7–8B дают высокое качество, но «съедают» память, увеличивают задержку и бьют по бюджету. Автор статьи разобрал все основные оси сжатия: int8 и int4 квантование, бинарное представление с rescoring, product quantization (PQ) и усечение через MRL. Для каждого метода приведены реальные замеры recall@10 на задачах retrieval.

Результаты наглядно показывают, где деградация качества мягкая (и можно смело жать), а где происходит обрыв recall — например, при агрессивном бинарном квантовании без rescoring. Статья содержит воспроизводимый код и Colab-ноутбук, адаптированный под Qwen3, так что можно сразу попробовать на своих данных.

Материал будет полезен инженерам, которые хотят запустить эмбеддеры в продакшен без потери в качестве, но с существенной экономией ресурсов. Все техники разобраны на практике — без воды и маркетинга.

Источник: habr.com

Темы: Модели и агенты