Модели и агенты

Бывший глава Qwen объяснил, почему гибридное мышление — сложная задача, и почему он теперь ставит на агентов

05.07.2026 · marktechpost.com ↗

Junyang Lin, бывший технический руководитель проекта Qwen от Alibaba, ушёл с поста 3 марта 2026 года и теперь позиционирует себя как независимый исследователь. В докладе «Qwen: Towards a Generalist Model / Agent» он провёл обзор семейства Qwen — от QwQ-32B до Qwen2.5-Omni, сравнивая их с DeepSeek-R1, Grok 3, Gemini 2.5 Pro и o-серией OpenAI. Ключевой слайд будущих работ заканчивается фразой: «Training models -> training agents».

Особое внимание Lin уделил Qwen3 и его гибридному мышлению: модель умеет переключаться между режимом рассуждений (step-by-step) и режимом быстрых ответов. Он добавил динамические бюджеты на размышления — можно ограничить, сколько токенов модель тратит на логику. Однако в посте Lin признал: совместить два режима оказалось сложно. Сильная instruct-модель стремится к краткости, сильная thinking-модель — к длинным рассуждениям. Неаккуратное слияние портит оба поведения. Qwen3 использовал четырёхэтапный пайплайн пост-тренировки, но позже в 2025 году вышли отдельные варианты Instruct и Thinking.

Lin считает, что проблема скорее в данных, чем в архитектуре. Он отмечает, что Anthropic пошла другим путём — Claude 3.7 Sonnet и Claude 4 уже работают как гибриды с задаваемым пользователем бюджетом на размышления. Но его главный вывод: длинный след рассуждений не делает модель умнее. Мышление должно определяться целевой нагрузкой, а не бенчмарком. Именно поэтому он теперь делает ставку на агентов — обучение моделей уступает место обучению агентов, способных взаимодействовать со средой и инструментами.

Источник: marktechpost.com

Темы: Модели и агенты Alibaba Anthropic