AgriVLN: Vision-and-Language Navigation for Agricultural Robots

2508.07406v1 cs.RO, cs.AI, cs.CV 2025-08-13
Авторы:

Xiaobei Zhao, Xingqi Lyu, Xiang Li

Резюме на русском

## Контекст Агротехнологии становятся все более важной частью современной сельскохозяйственной отрасли, поскольку требуется повысить эффективность и уменьшить усилия в ручной работе. Одна из ключевых задач — обеспечить мобильность и адаптабильность агрогеоробов. Vision-and-Language Navigation (VLN) является обещающим подходом, позволяющим роботам следовать естественному языку для перемещения к цели. Тем не менее, существующие VLN-методики не ориентированы на специфику агросценариев, что ограничивает их применение. Мы сформулировали проблему и мотивировали развитие методов, которые могут адаптироваться к сельскохозяйственным задачам. ## Метод Мы предложили б BENCHMARK A2A (Agriculture to Agriculture), содержащий 1,560 эпизодов, записанных во время съемок в реальных сельскохозяйственных условиях. Эти съемки выполнены с помощью камеры, размещенной на квадрупедном роботе. Мы также предложили AgriVLN — базовую модель, основанную на Vision-Language Model (VLM), которая подсказывается специальными шаблонами для точного понимания инструкций и среды. Модель может сопоставлять инструкции с существующим сенсорным входом и генерировать низкоуровневые действия для управления роботом. ## Результаты В ходе экспериментов AgriVLN показала значительные достижения на A2A-бенчмарке, особенно при работе с короткими инструкциями. Однако модель столкнулась с проблемами при обработке длинных инструкций, когда не удается отслеживать текущий участок выполнения. Чтобы исправить этот недостаток, мы предложили Subtask List (STL), модуль разбиения на подзадачи, который повысил Success Rate (SR) с 0.33 до 0.47. Сравнение с другими VLN-методами подтвердило, что AgriVLN является ведущей в своем классе в сельскохозяйственной области. ## Значимость Метод AgriVLN может быть использован в сельскохозяйственных процессах, таких как сбор урожая, подкормка растений и мониторинг полей. Он предлагает значительные преимущества, такие как увеличение автономности роботов, повышение точности выполнения задач и снижение времени, потраченного на ручную работу. Это может привести к повышению эффективности сельского хозяйства и сокращению затрат. ## Выводы Мы успешно разработали AgriVLN, первый метод, ориентированный на визуально-языковую навигацию в сельскохозяйственных сценариях. Наши результаты показали существенное улучшение в сравнении с другими методами. Мы планируем продолжить расширять AgriVLN, улучшая его возможности для более сложных инструкций и расширяя его применимость к другим сельскохозяйственным задачам.

Abstract

Agricultural robots have emerged as powerful members in agricultural tasks, nevertheless, still heavily rely on manual operation or untransportable railway for movement, resulting in limited mobility and poor adaptability. Vision-and-Language Navigation (VLN) enables robots to navigate to the target destinations following natural language instructions, demonstrating strong performance on several domains. However, none of the existing benchmarks or methods is specifically designed for agricultural scenes. To bridge this gap, we propose Agriculture to Agriculture (A2A) benchmark, containing 1,560 episodes across six diverse agricultural scenes, in which all realistic RGB videos are captured by front-facing camera on a quadruped robot at a height of 0.38 meters, aligning with the practical deployment conditions. Meanwhile, we propose Vision-and-Language Navigation for Agricultural Robots (AgriVLN) baseline based on Vision-Language Model (VLM) prompted with carefully crafted templates, which can understand both given instructions and agricultural environments to generate appropriate low-level actions for robot control. When evaluated on A2A, AgriVLN performs well on short instructions but struggles with long instructions, because it often fails to track which part of the instruction is currently being executed. To address this, we further propose Subtask List (STL) instruction decomposition module and integrate it into AgriVLN, improving Success Rate (SR) from 0.33 to 0.47. We additionally compare AgriVLN with several existing VLN methods, demonstrating the state-of-the-art performance in the agricultural domain.

Ссылки и действия