GENNAV: Polygon Mask Generation for Generalized Referring Navigable Regions
2508.21102v1
cs.CV, cs.RO
2025-09-02
Авторы:
Kei Katsumata, Yui Iioka, Naoki Hosomi, Teruhisa Misu, Kentaro Yamada, Komei Sugiura
Резюме на русском
#### Контекст
Проблема идентификации назначенных областей на основе спецификаций в естественном языке изображения, захваченного мобильным устройством, широко распространена в области автономного вождения и робототехники. Особенно вызовы возникают при работе с "ступенчатыми" областями, такими как здания и дороги, которые отсутствуют в традиционных аннотациях. Эти сложности могут привести к ошибкам в определении целей, что требует развития более точных методов для идентификации таких областей. Мы предлагаем GENNAV, подход, который адресует эти проблемы, предсказывая существование целей и генерируя маски их сегментации для многообразных областей.
#### Метод
GENNAV реализует полностью собственный подход к обработке задач сегментации для множества областей, включая те, которые отсутствуют в обучающих данных. Мы используем глубокое нейронное сетевое устройство, которое принимает как входные данные натуральное языковое описание, так и изображение. Генератор масок целевых областей использует контекстно-свободные трансформеры для построения маски по множеству областей и множеству инструкций на естественном языке. Эта архитектура обеспечивает высокую точность и эффективность при работе с несколькими целями.
#### Результаты
Мы провели эксперименты на нашем новом бенчмарке GRiN-Drive, который включает три типа тестовых семплов: без целей, одной целью и множеством целей. GENNAV показал значительное превосходство по сравнению со стандартными методами по метрикам классификации и сегментации. Кроме того, в реальных экспериментах, проведенных с использованием четырех автомобилей в пяти различных городских районах, GENNAV продемонстрировал высокую стабильность и точность в нулевой тренировке. Эти результаты подтверждают способность GENNAV широко применяться в различных средах.
#### Значимость
GENNAV может применяться в различных сценариях, включая мобильные программы и робототехнические системы, требующие точного распознавания целей в естественной среде. Он предлагает высокую гибкость и точность, предоставляя значительное преимущество по сравнению с традиционными подходами. Благодаря своей универсальности, GENNAV может привести к значительным улучшениям в области автоматизации и робототехники.
#### Выводы
Мы представили GENNAV, новый подход к идентификации целей на основе естественного языка и их сегментации в множестве областей. Наши эксперименты показали, что GENNAV превосходит существующие методы, обеспечивая высокую точность и стабильность в различных сценариях. В будущем мы планируем расширить сист
Abstract
We focus on the task of identifying the location of target regions from a
natural language instruction and a front camera image captured by a mobility.
This task is challenging because it requires both existence prediction and
segmentation, particularly for stuff-type target regions with ambiguous
boundaries. Existing methods often underperform in handling stuff-type target
regions, in addition to absent or multiple targets. To overcome these
limitations, we propose GENNAV, which predicts target existence and generates
segmentation masks for multiple stuff-type target regions. To evaluate GENNAV,
we constructed a novel benchmark called GRiN-Drive, which includes three
distinct types of samples: no-target, single-target, and multi-target. GENNAV
achieved superior performance over baseline methods on standard evaluation
metrics. Furthermore, we conducted real-world experiments with four automobiles
operated in five geographically distinct urban areas to validate its zero-shot
transfer performance. In these experiments, GENNAV outperformed baseline
methods and demonstrated its robustness across diverse real-world environments.
The project page is available at https://gennav.vercel.app/.
Ссылки и действия
Дополнительные ресурсы: