Модели и агенты

NVIDIA открыла TwoTower — диффузионную модель, генерирующую текст в 2,4 раза быстрее AR-аналогов

01.07.2026 · marktechpost.com ↗

TwoTower решает главное узкое место генерации текста — последовательное декодирование токенов в авторегрессионных моделях. Вместо этого модель использует дискретную диффузию: параллельно генерирует блоки токенов и итеративно их уточняет. Архитектура разделена на две «башни»: замороженную контекстную (AR) и обучаемую башню-денойзер. Это позволило сохранить качество базового Nemotron-3-Nano на уровне 98,7% (по агрегированным бенчмаркам), увеличив скорость генерации в 2,42 раза.

Башня контекста работает причинно-следственно над промптом и зафиксированными токенами, используя KV-кэш и Mamba-2. Башня денойзера улучшает зашумлённые блоки с помощью двунаправленного внимания внутри блока и перекрёстного внимания к контекстной башне послойно. Дополнительно состояния Mamba-2 инициализируются из контекстной башни, а шаг диффузии модулируется через adaLN с добавлением всего ~1,5 млн параметров.

Модель обучена на ~2,1 трлн токенов (бэкбон — на 25 трлн). Параметры: около 60B суммарно в двух башнях, активных — ~3B на токен на башню. В бенчмарках TwoTower практически не уступает AR-базовому варианту: MMLU — 78,24 против 78,56, ARC-Challenge — 92,66 против 91,72, WinoGrande и RACE — те же значения. Код и математика показали небольшое снижение, но общее качество — 98,7%.

Веса доступны под лицензией NVIDIA Nemotron Open Model License. Разработчики могут использовать модель в трёх режимах: диффузионном, мок-AR и обычном AR. Релиз ориентирован на сценарии, где критична пропускная способность генерации при минимальной потере качества.

Источник: marktechpost.com

Темы: Модели и агенты Nvidia