Исследования

Робот научился находить любые предметы по текстовому описанию: лёгкая модель OVSegDT от AIRI и МФТИ

01.07.2026 · habr.com ↗

Команда учёных из лаборатории Cognitive AI Systems AIRI и МФТИ разработала метод OVSegDT — Segmenting Transformer для навигации робота к объектам, заданным произвольным текстом. Модель весит всего 130 миллионов параметров и способна работать с минимальным набором сенсоров, быстро принимая решения на борту.

В основе подхода — объединение текстовых запросов, изображений и сегментационных масок для понимания сцены. Исходный код и предобученные веса открыты, что позволяет запустить модель как в симуляторе, так и на реальном роботе. Работа описана в статье OVSegDT: Segmenting Transformer for Open-Vocabulary Object Goal Navigation.

Авторы: Татьяна Земскова (аспирантка МФТИ), Алексей Староверов, Дмитрий Юдин и Александр Панов. Веб-страница проекта содержит ссылки на код и инструкции для воспроизведения экспериментов.

Источник: habr.com

Темы: Исследования Airi