Модели и агенты

DFlash ускоряет вывод LLM до 15 раз на NVIDIA Blackwell: блоки токенов генерируются за один проход

24.06.2026 · marktechpost.com ↗

Авторегрессионные LLM генерируют текст по одному токену за раз, что недогружает современные GPU и замедляет инференс, особенно для длинных цепочек рассуждений (Chain-of-Thought). Стандартное решение — спекулятивное декодирование: маленькая модель-драфтер предлагает будущие токены, а большая целевая модель проверяет их параллельно. Но существующие методы, включая EAGLE-3, всё ещё драфтят авторегрессивно, что ограничивает ускорение до 2–3×.

DFlash меняет подход: вместо генерации токенов по одному, он предлагает целый блок за один прямой проход (forward pass). Целевая модель затем проверяет блок параллельно. Ключевая идея — «целевая модель знает лучше»: DFlash извлекает скрытые состояния из нескольких слоёв целевой модели, объединяет их в компактный контекстный признак и внедряет его в проекции Key и Value каждого слоя драфтера. Это позволяет масштабировать длину принятия с глубиной драфтера — пятислойный DFlash с 16 токенами превосходит EAGLE-3 с 8 токенами по скорости и качеству.

В тестах DFlash показал более 6× ускорения на различных моделях и задачах (например, 6,08× на MATH-500 для Qwen3-8B). На NVIDIA Blackwell инженеры NVIDIA зафиксировали до 15× повышения пропускной способности для gpt-oss-120b при сохранении интерактивности. При этом драфтер остаётся лёгким (5 слоёв, 8 для Qwen3-Coder), а затраты на драфтинг почти не растут с увеличением блока — в отличие от авторегрессивных методов.

Источник: marktechpost.com

Темы: Модели и агенты Ucsd Nvidia