Модели и агенты

Qwen выпустила три робо-модели: манипуляция, мир в видео и навигация

16.06.2026 · marktechpost.com ↗

Qwen-RobotSuite — это не одна модель, а три независимых. RobotManip (на Qwen3.5-4B) предсказывает непрерывные действия робота, используя унифицированное представление состояний и действий. RobotWorld (с 60-слойным MMDiT и замороженным Qwen2.5-VL) генерирует будущее видео по текстовой инструкции. RobotNav (на Qwen3-VL, размеры 2B/4B/8B) выдаёт траектории для мобильной навигации.

Главная проблема, которую решает набор, — гетерогенность данных в робототехнике: разные роботы используют несовместимые форматы наблюдений и действий. RobotManip предлагает фреймворк выравнивания: каноническое 80-мерное представление с маскированием, дельты в кадре камеры и адаптацию политики по контексту выполнения.

Для обучения RobotManip собрали около 38 100 часов данных манипуляций — только из открытых источников и человеческих видео. Пайплайн синтеза «человек-робот» преобразует 1 933 часа эгоцентрических записей рук в 24 808 часов демонстраций на 15 платформах. Ещё 11 000+ часов дали открытые робот-датасеты. Весь корпус прошёл пятиэтапную фильтрацию.

Две из трёх моделей — RobotManip и RobotNav — уже доступны на GitHub с открытым кодом. RobotWorld пока публикуется как исследовательский отчёт.

Источник: marktechpost.com

Темы: Модели и агенты Qwen