Модели и агенты

DeepSeek ускорила инференс V4 на 60–85%: открытый DSpark режет задержки без потери качества

27.06.2026 · marktechpost.com ↗

DeepSeek представила DSpark — open-source фреймворк спекулятивного декодирования, который ускоряет генерацию DeepSeek-V4 на 60–85% на пользователя. Это именно оптимизация инференса, а не новая модель: чекпоинты V4-Pro-DSpark и V4-Flash-DSpark используют существующие веса V4 плюс лёгкий модуль-драфтер. Исходники и код обучения DeepSpec (лицензия MIT) тоже открыты.

Ключевая идея DSpark — полуавторегрессионная генерация. Тяжёлый параллельный бэкбон (DFlash) выдаёт базовые логиты для всех позиций блока, а лёгкая последовательная голова (Markov head с разложением ранга 256) добавляет зависимость от предыдущего токена перед сэмплингом. Это сохраняет высокую точность первого токена и удерживает acceptance rate на всём блоке — принятая длина растёт на 26–31% относительно Eagle3 и на 16–18% относительно DFlash.

Второй компонент — confidence-планировщик. Голова уверенности оценивает шанс каждого токена пройти верификацию, калибровка Sequential Temperature Scaling снижает ошибку с 3–8% до ~1%. Аппаратно-осведомлённый планировщик адаптивно меняет длину верификации под загрузку GPU: простаивающие — проверяет больше, занятые — меньше. Результат: ускорение 60–85% в продакшне DeepSeek-V4 при полном сохранении качества выходных данных.

Источник: marktechpost.com

Темы: Модели и агенты Deepseek