GENNAV: Polygon Mask Generation for Generalized Referring Navigable Regions

2508.21102v1 cs.CV, cs.RO 2025-09-02
Авторы:

Kei Katsumata, Yui Iioka, Naoki Hosomi, Teruhisa Misu, Kentaro Yamada, Komei Sugiura

Резюме на русском

#### Контекст Проблема идентификации назначенных областей на основе спецификаций в естественном языке изображения, захваченного мобильным устройством, широко распространена в области автономного вождения и робототехники. Особенно вызовы возникают при работе с "ступенчатыми" областями, такими как здания и дороги, которые отсутствуют в традиционных аннотациях. Эти сложности могут привести к ошибкам в определении целей, что требует развития более точных методов для идентификации таких областей. Мы предлагаем GENNAV, подход, который адресует эти проблемы, предсказывая существование целей и генерируя маски их сегментации для многообразных областей. #### Метод GENNAV реализует полностью собственный подход к обработке задач сегментации для множества областей, включая те, которые отсутствуют в обучающих данных. Мы используем глубокое нейронное сетевое устройство, которое принимает как входные данные натуральное языковое описание, так и изображение. Генератор масок целевых областей использует контекстно-свободные трансформеры для построения маски по множеству областей и множеству инструкций на естественном языке. Эта архитектура обеспечивает высокую точность и эффективность при работе с несколькими целями. #### Результаты Мы провели эксперименты на нашем новом бенчмарке GRiN-Drive, который включает три типа тестовых семплов: без целей, одной целью и множеством целей. GENNAV показал значительное превосходство по сравнению со стандартными методами по метрикам классификации и сегментации. Кроме того, в реальных экспериментах, проведенных с использованием четырех автомобилей в пяти различных городских районах, GENNAV продемонстрировал высокую стабильность и точность в нулевой тренировке. Эти результаты подтверждают способность GENNAV широко применяться в различных средах. #### Значимость GENNAV может применяться в различных сценариях, включая мобильные программы и робототехнические системы, требующие точного распознавания целей в естественной среде. Он предлагает высокую гибкость и точность, предоставляя значительное преимущество по сравнению с традиционными подходами. Благодаря своей универсальности, GENNAV может привести к значительным улучшениям в области автоматизации и робототехники. #### Выводы Мы представили GENNAV, новый подход к идентификации целей на основе естественного языка и их сегментации в множестве областей. Наши эксперименты показали, что GENNAV превосходит существующие методы, обеспечивая высокую точность и стабильность в различных сценариях. В будущем мы планируем расширить сист

Abstract

We focus on the task of identifying the location of target regions from a natural language instruction and a front camera image captured by a mobility. This task is challenging because it requires both existence prediction and segmentation, particularly for stuff-type target regions with ambiguous boundaries. Existing methods often underperform in handling stuff-type target regions, in addition to absent or multiple targets. To overcome these limitations, we propose GENNAV, which predicts target existence and generates segmentation masks for multiple stuff-type target regions. To evaluate GENNAV, we constructed a novel benchmark called GRiN-Drive, which includes three distinct types of samples: no-target, single-target, and multi-target. GENNAV achieved superior performance over baseline methods on standard evaluation metrics. Furthermore, we conducted real-world experiments with four automobiles operated in five geographically distinct urban areas to validate its zero-shot transfer performance. In these experiments, GENNAV outperformed baseline methods and demonstrated its robustness across diverse real-world environments. The project page is available at https://gennav.vercel.app/.

Ссылки и действия