Модели и агенты

VibeThinker-3B: крошечная модель на 3 млрд параметров догоняет гигантов на математике и коде

19.06.2026 · marktechpost.com ↗

VibeThinker-3B — это не очередной гигант, а доказательство, что эффективность может бить выше веса. Построенная на базе Qwen2.5-Coder-3B, модель прошла пост-тренинг по методике Spectrum-to-Signal (SSP): сначала SFT создаёт широкий спектр корректных путей рассуждения, затем RL усиливает правильные сигналы. В результате на AIME26 модель набирает 94,3 балла — почти столько же, сколько DeepSeek V3.2 (94,2) и Kimi K2.5 (93,3). На LiveCodeBench v6 — 80,2 Pass@1, на HMMT25 — 89,3, на IMO-AnswerBench — 76,4.

Секрет — в четырёхэтапном пайплайне пост-тренинга. Сначала двухстадийный SFT с куррикулумом (от общих задач к сложным), затем multi-domain RL с MaxEnt-Guided Policy Optimization (MGPO), где модель тренируется на задачах у границы своих возможностей. Интересная деталь: авторы отказались от progressive context expansion и использовали единое 64K окно — это улучшило длинные рассуждения. На свежих LeetCode-контестах (апрель-май 2026) модель прошла 123 из 128 задач с первой попытки — 96,1% acceptance rate.

Модель весит всего 6 ГБ в BF16, работает на одной GPU и требует transformers>=4.54.0. Для быстрого инференса рекомендованы vLLM==0.10.1 или SGLang>=0.4.9.post6. VibeThinker-3B — специалист по верифицируемым задачам; для открытых знаний авторы советуют более крупные модели. Код и веса доступны на GitHub под MIT-лицензией.

Источник: marktechpost.com

Темы: Модели и агенты Sina