See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation

2509.22653v1 cs.RO, cs.AI, cs.CL, cs.CV, cs.LG 2025-09-30
Авторы:

Chih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu

Резюме на русском

#### Контекст В последние годы возникло значительное интерес к видным-языковым моделям (VLMs) в различных областях, включая управление непилотируемыми летательными аппаратами (UAV). Однако существующие VLM-подобные подходы для авиационной визуальной лингвистики (AVLN) часто требуют кастомизации и сложности в обучении, что ограничивает их универсальность и применимость. Кроме того, нетрудно заметить, что большинство текущих систем требуют значительного обучения для адаптации к различным средам и задачам, что снижает их эффективность. Таким образом, возникает потребность в разработке универсального, без обучения фреймворка для AVLN, который мог бы преодолеть эти ограничения и обеспечивать более гибкое управление UAV. #### Метод Мы предлагаем See, Point, Fly (SPF) — универсальный фреймворк для AVLN, основанный на VLMs, который не требует значительного обучения. Фреймворк SPF использует визуально-языковую модель для разбиения неоднозначных текстовых инструкций на последовательность команд навигации. В частности, SPF преобразует текстовые команды навигации в 2D-способность, позволяя UAV представить целевую точку в пространстве в виде последовательных 2D-waypoints. Далее, SPF преобразует эти 2D-waypoints в 3D-дисплесности и трансформирует их в команды для UAVs. Этот подход обеспечивает универсальную навигацию, включая динамическую среду и dynamic target tracking. Также SPF использует adaptive distance control, чтобы сделать навигацию более эффективной. Эта архитектура может быть применена к различным VLMs без потери эффективности. #### Результаты Мы провели различные эксперименты, чтобы продемонстрировать эффективность SPF. Использовались данные из DRL-симулятора и реального мира для оценки производительности. На DRL-бенчмарке SPF показал существенное улучшение по сравнению с предыдущим лучшим методом, повысив до 63% в абсолютных числах. В реальном мире SPF также показал значительные выигрыши по сравнению с другими сильными базисами. Мы также провели аблационные исследования, чтобы подтвердить эффективность нашего подхода. Дополнительно, SPF показал надежную общность с различными VLMs, что демонстрирует его универсальность. #### Значимость SPF представляет собой значительный прорыв в области AVLN, обеспечивая универсальную, без обучения систему, которая может работать в различных средах и задачах. Он может быть применен в сферах, таких как поиск и спасательные операции, разведка, доставка и другие. SPF обеспечивает более эффективное и универсальное управление UAV, в том числе в динамических средах. Благодаря своей гибкости

Abstract

We present See, Point, Fly (SPF), a training-free aerial vision-and-language navigation (AVLN) framework built atop vision-language models (VLMs). SPF is capable of navigating to any goal based on any type of free-form instructions in any kind of environment. In contrast to existing VLM-based approaches that treat action prediction as a text generation task, our key insight is to consider action prediction for AVLN as a 2D spatial grounding task. SPF harnesses VLMs to decompose vague language instructions into iterative annotation of 2D waypoints on the input image. Along with the predicted traveling distance, SPF transforms predicted 2D waypoints into 3D displacement vectors as action commands for UAVs. Moreover, SPF also adaptively adjusts the traveling distance to facilitate more efficient navigation. Notably, SPF performs navigation in a closed-loop control manner, enabling UAVs to follow dynamic targets in dynamic environments. SPF sets a new state of the art in DRL simulation benchmark, outperforming the previous best method by an absolute margin of 63%. In extensive real-world evaluations, SPF outperforms strong baselines by a large margin. We also conduct comprehensive ablation studies to highlight the effectiveness of our design choice. Lastly, SPF shows remarkable generalization to different VLMs. Project page: https://spf-web.pages.dev

Ссылки и действия