Гонка сжатия KV-кэша: TurboQuant, OSCAR и EpiCache — кто сожмет память LLM без потери качества?
Длинный контекст — главный пожиратель памяти в современных LLM. Например, у Llama-3.1-70B KV-кэш на 128K токенов занимает ~40 ГБ, а на 1M — уже под 300 ГБ, что превышает вес самих весов (140 ГБ). Сжатие этого кэша — прямой путь к снижению затрат и задержек. Три недавних работы (2026 год) предлагают разные решения: TurboQuant (Google + NYU), OSCAR (Together AI) и EpiCache (Apple).
TurboQuant использует случайное вращение векторов и оптимальный скалярный квантователь Ллойда–Макса без калибровки на данных. Он достигает почти без потерь при 3–4 битах на канал и теоретически гарантирует искажение в пределах 2.7× от нижней границы. OSCAR, напротив, делает ставку на attention-aware ротацию: он вычисляет собственное базис запросов и значений на одном калибровочном проходе, что позволяет работать даже при 2 битах. EpiCache решает проблему, которую не затрагивают первые два метода — он фокусируется на эпистемической неопределённости и адаптивном сжатии.
На практике TurboQuant показывает полное восстановление recall на Needle-in-a-Haystack при 4× сжатии, OSCAR — конкурентные результаты при INT2, а EpiCache обещает устойчивость к выбросам. Выбор между ними зависит от сценария: нужна ли калибровка (OSCAR), теоретические гарантии (TurboQuant) или работа с неопределённостью (EpiCache). Все три метода — шаг к тому, чтобы длинноконтекстные модели стали практичными для продакшена.