Фичи и апдейты

NVIDIA за месяц снизила стоимость токенов DeepSeek V4 в 5 раз на Blackwell за счёт софта

30.06.2026 · blogs.nvidia.com ↗

NVIDIA показала, как её программный стек для инференса (TensorRT-LLM, Dynamo и др.) в связке с Blackwell снижает стоимость одного токена. Всего за месяц на DeepSeek V4 падение составило до 5x — результат совместной работы оптимизаций на уровне планировщика, ядер, коммуникаций и аппаратного ускорения. SemiAnalysis в бенчмарке InferenceX подтвердил выигрыш на системах GB300 NVL72.

Клиенты уже получают эффект: Baseten на TensorRT-LLM выдаёт до 50% больше токенов в секунду на DeepSeek V4 Pro; Cognition использует Dynamo для управления GPU в RL-нагрузках; Together AI помог Cursor ускорить развёртывание. По оценке NVIDIA, комбинация disaggregated serving, expert parallelism по NVLink, NVFP4 и multi-token prediction даёт до 20-кратного роста пропускной способности.

Секрет — в трёхуровневой архитектуре стека: Production Operation (координация распределённого инференса), Application Acceleration (высокопроизводительный рантайм с настраиваемыми оптимизациями) и Infrastructure Access (доступ к аппаратным возможностям без низкоуровневого программирования). Вместе они превращают точечные ускорения в системный выигрыш по стоимости токена.

Источник: blogs.nvidia.com

Темы: Фичи и апдейты Nvidia