Волна ИИПодписаться
← Назад
Модели и агенты

NVIDIA представила SpatialClaw: ИИ-агент для пространственного мышления без дообучения — код как новый интерфейс действий

19.06.2026 · marktechpost.com ↗
NVIDIA представила SpatialClaw: ИИ-агент для пространственного мышления без дообучения — код как новый интерфейс действий

NVIDIA Research выпустила SpatialClaw — фреймворк для пространственного мышления, который не требует дообучения модели. Проблема в том, что современные VLM всё ещё плохо определяют положение объектов в 3D и их взаимосвязи. SpatialClaw решает это, меняя интерфейс действий агента: вместо JSON-схем или однопроходного кода используется полноценный Python-код, который можно запускать поэтапно и корректировать на лету.

Фреймворк работает как агент вокруг ядра Python с предзагруженными кадрами и примитивами. В основе — шесть публичных точек входа, включая InputImages, Metadata, tools (перцепционные и геометрические примитивы), show() для встраивания изображений в контекст, vlm для запросов к отдельной VLM-сессии и ReturnAnswer() для финального ответа. Ключевые инструменты: tools.Reconstruct (оборачивает Depth Anything 3 для глубины и геометрии камеры) и tools.SAM3 (оборачивает SAM 3 для масок).

SpatialClaw протестирован на 20 бенчмарках в пяти категориях — от одиночных изображений до видео и 4D. На всех шести тестируемых бекбонах (от 26B до 397B параметров из семейств Qwen3.5/3.6 и Gemma4) он превзошёл baseline без инструментов. В контролируемом сравнении с теми же инструментами и промптами SpatialClaw дал 59,9% против 56,7% у structured tool-call и 55,2% у single-pass code. На динамических задачах (DSI-Bench, MindCube) прирост составил до 17,6 пунктов.

Ключевой вывод: интерфейс действий — узкое место. Возможность писать код, видеть промежуточные результаты и пересматривать стратегию позволила агенту, например, правильно измерить расстояние между обогревателем и дверью, переключившись с центроидного расстояния на scipy.spatial.KDTree, тогда как альтернативные интерфейсы ошиблись. Проект опубликован на GitHub.

Источник: marktechpost.com
← Все новости AI Wave