Робот научился находить любые предметы по текстовому описанию: лёгкая модель OVSegDT от AIRI и МФТИ
Команда учёных из лаборатории Cognitive AI Systems AIRI и МФТИ разработала метод OVSegDT — Segmenting Transformer для навигации робота к объектам, заданным произвольным текстом. Модель весит всего 130 миллионов параметров и способна работать с минимальным набором сенсоров, быстро принимая решения на борту.
В основе подхода — объединение текстовых запросов, изображений и сегментационных масок для понимания сцены. Исходный код и предобученные веса открыты, что позволяет запустить модель как в симуляторе, так и на реальном роботе. Работа описана в статье OVSegDT: Segmenting Transformer for Open-Vocabulary Object Goal Navigation.
Авторы: Татьяна Земскова (аспирантка МФТИ), Алексей Староверов, Дмитрий Юдин и Александр Панов. Веб-страница проекта содержит ссылки на код и инструкции для воспроизведения экспериментов.