AgriVLN: Vision-and-Language Navigation for Agricultural Robots
2508.07406v1
cs.RO, cs.AI, cs.CV
2025-08-13
Авторы:
Xiaobei Zhao, Xingqi Lyu, Xiang Li
Резюме на русском
## Контекст
Агротехнологии становятся все более важной частью современной сельскохозяйственной отрасли, поскольку требуется повысить эффективность и уменьшить усилия в ручной работе. Одна из ключевых задач — обеспечить мобильность и адаптабильность агрогеоробов. Vision-and-Language Navigation (VLN) является обещающим подходом, позволяющим роботам следовать естественному языку для перемещения к цели. Тем не менее, существующие VLN-методики не ориентированы на специфику агросценариев, что ограничивает их применение. Мы сформулировали проблему и мотивировали развитие методов, которые могут адаптироваться к сельскохозяйственным задачам.
## Метод
Мы предложили б BENCHMARK A2A (Agriculture to Agriculture), содержащий 1,560 эпизодов, записанных во время съемок в реальных сельскохозяйственных условиях. Эти съемки выполнены с помощью камеры, размещенной на квадрупедном роботе. Мы также предложили AgriVLN — базовую модель, основанную на Vision-Language Model (VLM), которая подсказывается специальными шаблонами для точного понимания инструкций и среды. Модель может сопоставлять инструкции с существующим сенсорным входом и генерировать низкоуровневые действия для управления роботом.
## Результаты
В ходе экспериментов AgriVLN показала значительные достижения на A2A-бенчмарке, особенно при работе с короткими инструкциями. Однако модель столкнулась с проблемами при обработке длинных инструкций, когда не удается отслеживать текущий участок выполнения. Чтобы исправить этот недостаток, мы предложили Subtask List (STL), модуль разбиения на подзадачи, который повысил Success Rate (SR) с 0.33 до 0.47. Сравнение с другими VLN-методами подтвердило, что AgriVLN является ведущей в своем классе в сельскохозяйственной области.
## Значимость
Метод AgriVLN может быть использован в сельскохозяйственных процессах, таких как сбор урожая, подкормка растений и мониторинг полей. Он предлагает значительные преимущества, такие как увеличение автономности роботов, повышение точности выполнения задач и снижение времени, потраченного на ручную работу. Это может привести к повышению эффективности сельского хозяйства и сокращению затрат.
## Выводы
Мы успешно разработали AgriVLN, первый метод, ориентированный на визуально-языковую навигацию в сельскохозяйственных сценариях. Наши результаты показали существенное улучшение в сравнении с другими методами. Мы планируем продолжить расширять AgriVLN, улучшая его возможности для более сложных инструкций и расширяя его применимость к другим сельскохозяйственным задачам.
Abstract
Agricultural robots have emerged as powerful members in agricultural tasks,
nevertheless, still heavily rely on manual operation or untransportable railway
for movement, resulting in limited mobility and poor adaptability.
Vision-and-Language Navigation (VLN) enables robots to navigate to the target
destinations following natural language instructions, demonstrating strong
performance on several domains. However, none of the existing benchmarks or
methods is specifically designed for agricultural scenes. To bridge this gap,
we propose Agriculture to Agriculture (A2A) benchmark, containing 1,560
episodes across six diverse agricultural scenes, in which all realistic RGB
videos are captured by front-facing camera on a quadruped robot at a height of
0.38 meters, aligning with the practical deployment conditions. Meanwhile, we
propose Vision-and-Language Navigation for Agricultural Robots (AgriVLN)
baseline based on Vision-Language Model (VLM) prompted with carefully crafted
templates, which can understand both given instructions and agricultural
environments to generate appropriate low-level actions for robot control. When
evaluated on A2A, AgriVLN performs well on short instructions but struggles
with long instructions, because it often fails to track which part of the
instruction is currently being executed. To address this, we further propose
Subtask List (STL) instruction decomposition module and integrate it into
AgriVLN, improving Success Rate (SR) from 0.33 to 0.47. We additionally compare
AgriVLN with several existing VLN methods, demonstrating the state-of-the-art
performance in the agricultural domain.
Ссылки и действия
Дополнительные ресурсы: