NVIDIA за месяц снизила стоимость токенов DeepSeek V4 в 5 раз на Blackwell за счёт софта
NVIDIA показала, как её программный стек для инференса (TensorRT-LLM, Dynamo и др.) в связке с Blackwell снижает стоимость одного токена. Всего за месяц на DeepSeek V4 падение составило до 5x — результат совместной работы оптимизаций на уровне планировщика, ядер, коммуникаций и аппаратного ускорения. SemiAnalysis в бенчмарке InferenceX подтвердил выигрыш на системах GB300 NVL72.
Клиенты уже получают эффект: Baseten на TensorRT-LLM выдаёт до 50% больше токенов в секунду на DeepSeek V4 Pro; Cognition использует Dynamo для управления GPU в RL-нагрузках; Together AI помог Cursor ускорить развёртывание. По оценке NVIDIA, комбинация disaggregated serving, expert parallelism по NVLink, NVFP4 и multi-token prediction даёт до 20-кратного роста пропускной способности.
Секрет — в трёхуровневой архитектуре стека: Production Operation (координация распределённого инференса), Application Acceleration (высокопроизводительный рантайм с настраиваемыми оптимизациями) и Infrastructure Access (доступ к аппаратным возможностям без низкоуровневого программирования). Вместе они превращают точечные ускорения в системный выигрыш по стоимости токена.