Как сжать 8B-эмбеддер до продакшена без потери качества: разбор всех техник с реальными метриками
Декодерные эмбеддеры размером 7–8B дают высокое качество, но «съедают» память, увеличивают задержку и бьют по бюджету. Автор статьи разобрал все основные оси сжатия: int8 и int4 квантование, бинарное представление с rescoring, product quantization (PQ) и усечение через MRL. Для каждого метода приведены реальные замеры recall@10 на задачах retrieval.
Результаты наглядно показывают, где деградация качества мягкая (и можно смело жать), а где происходит обрыв recall — например, при агрессивном бинарном квантовании без rescoring. Статья содержит воспроизводимый код и Colab-ноутбук, адаптированный под Qwen3, так что можно сразу попробовать на своих данных.
Материал будет полезен инженерам, которые хотят запустить эмбеддеры в продакшен без потери в качестве, но с существенной экономией ресурсов. Все техники разобраны на практике — без воды и маркетинга.