📚 Саммари научных статей из arXiv

Найдено 93 результатов по запросу 'cs.RO, cs.AI, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 GWM: Towards Scalable Gaussian World Models for Robotic Manipulation

2025-08-27

Авторы:

Guanxing Lu, Baoxiong Jia, Puhao Li, Yixin Chen, Ziwei Wang, Yansong Tang, Siyuan Huang

#### Контекст Улучшение производительности роботов в задачах робототехнического манипулирования является ключевым подходом для решения широкого круга задач, от производственной автоматизации до помощи роботам в домашних условиях. Однако традиционные подходы, основанные на наблюдениях и действиях в реальном мире, требуют больших объемов данных и долгого обучения, что делает их неэффективными. Одним из продвинутых подходов является обучение роботов в мире моделей, где среда окружающего мира представляется в виде мировой модели. Однако существующие мировые модели часто используют мозговые хаки или генерируют недостаточно точные представления. Наша модель, Gaussian World Model (GWM), предлагает развитие этого подхода, используя принципы гауссовых процессов для точного предсказания будущих сцен. #### Метод GWM использует **diffusion transformer**, который основывается на принципах гауссовых процессов для предсказания будущих сцен. Модель 3D-вариационного автокодировщика позволяет визуально представить сцены, а трансформер обеспечивает точное представление. Была предложена концепция **Gaussian Splatting**, которая позволяет генерировать 3D-сцены с большой контрастностью и оптимальным использованием ресурсов. Таким образом, GWM может генерировать точные представления трехмерной среды, что необходимо для улучшения стратегии робота. #### Результаты Мы провели эксперименты в симуляции и реальном мире, используя различные сцены и действия. Результаты показали, что GWM может предсказывать точные сцены с учетом различных действий робота. Эти предсказания имеют низкую ошибку и повторяемость. Мы также провели сравнение с другими моделями, и результаты показали, что GWM превосходит их в предсказании точности и времени обработки. Наша модель предоставила значительное улучшение в параметрах качества и эффективности. #### Значимость GWM может быть применена в различных областях, включая имитационное обучение, моделирование визуальных сцен, прогнозирование дальнейшего поведения робота. Она предоставляет высокую точность и эффективность, что делает ее полезной в развитии моделей манипулирования. Кроме того, GWM может быть использована в качестве робототехнического симулятора, что повышает производительность. Это открывает новые возможности для решения задач в связи с роботом, что делает GWM ключевым инструментом в этой области. #### Выводы Мы представили новую модель, GWM, которая значительно улучшила точность предсказания будущих сцен в робототехническом манипулировании. Мы также продемонстрировали значительные преимущества GWM по сравнению с другими моделями.

Annotation:

Training robot policies within a learned world model is trending due to the inefficiency of real-world interactions. The established image-based world models and policies have shown prior success, but lack robust geometric information that requires consistent spatial and physical understanding of the three-dimensional world, even pre-trained on internet-scale video sources. To this end, we propose a novel branch of world model named Gaussian World Model (GWM) for robotic manipulation, which reco...

ID: 2508.17600v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Spatial Policy: Guiding Visuomotor Robotic Manipulation with Spatial-Aware Modeling and Reasoning

2025-08-26

Авторы:

Yijun Liu, Yuwei Liu, Yuan Meng, Jieheng Zhang, Yuwei Zhou, Ye Li, Jiacheng Jiang, Kangye Ji, Shijia Ge, Zhi Wang, Wenwu Zhu

## Контекст В последние годы роботизированная манипуляция стала одной из ключевых областей исследований в области искусственного интеллекта и робототехники. Однако существующие методы часто сталкиваются с проблемами в управлении в долгосрочных задачах, особенно в сложных средах. Основной причиной этого является нехватка способности этих моделей достаточно эффективно использовать пространственную структуру среды при выборе действий. Такая недостаточность приводит к ошибкам в планировании и выполнении задач. Для решения этой проблемы было предложено Spatial Policy (SP) — новый фреймворк для спациально ориентированного визуально-моторного управления роботами. SP предлагает расширенную модель пространственной ориентации для повышения эффективности в контроле роботами в различных сложных сценариях. ## Метод Spatial Policy (SP) представляет собой инновационный подход к проблеме визуально-моторного управления, используя пространственную модель, которая работает на основе экспериментальной архитектуры. Основными модулями SP являются: 1) модуль спациально условного получения видео, который позволяет генерировать видео в соответствии с пространственной планой; 2) модуль прогнозирования пространственных действий, который использует пространственную модель для выбора наиболее подходящих действий; 3) модуль пространственного рассуждения, который учитывает два этапа перепланирования для достижения более точных результатов. Эти модули взаимодействуют в единой структуре, обеспечивая пространственно ориентированное планирование и выполнение задач. ## Результаты Работа была проверена на 11 различных задачах, в которых Spatial Policy (SP) демонстрировал отличные результаты. Использовались разнообразные данные, включая видео с действиями и пространственные планы. Эксперименты показали, что SP значительно превосходит другие модели, показывая среднюю улучшение эффективности на 33.0%. Благодаря своей способности учитывать пространственную структуру, SP достигает средней успешности 86.7%, что существенно повышает практическую применимость моделей визуально-моторного управления. Эти результаты демонстрируют мощь SP в решении проблем, связанных с пространственной ориентацией в роботизированной манипуляции. ## Значимость Предложенный Spatial Policy (SP) имеет широкие области применения, в том числе в области роботизированных систем, искусственного интеллекта, а также в сферах, где требуется пространственно ориентированное планирование. Этот подход предлагает значительные преимущества, включая более точное планирование, увеличенную эффективность и улучшенную надежность в контроле робо

Annotation:

Vision-centric hierarchical embodied models have demonstrated strong potential for long-horizon robotic control. However, existing methods lack spatial awareness capabilities, limiting their effectiveness in bridging visual plans to actionable control in complex environments. To address this problem, we propose Spatial Policy (SP), a unified spatial-aware visuomotor robotic manipulation framework via explicit spatial modeling and reasoning. Specifically, we first design a spatial-conditioned emb...

ID: 2508.15874v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 Decentralized Vision-Based Autonomous Aerial Wildlife Monitoring

2025-08-23

Авторы:

Makram Chahine, William Yang, Alaa Maalouf, Justin Siriska, Ninad Jadhav, Daniel Vogt, Stephanie Gil, Robert Wood, Daniela Rus

## Контекст Охрана и мониторинг диких животных является важной задачей для сохранения биоразнообразия и эффективного управления природой. Несмотря на прогресс в робототехнике и искусственном интеллекте, существуют значительные вызовы в области эффективного мониторинга и идентификации индивидуальных животных в своих натуральных условиях. Наиболее распространенные подходы заключаются либо в обработке данных с ограниченного набора датчиков, либо в использовании централизованных систем, требующих значительной пропускной способности и высокой надежности связи. Однако эти подходы часто ограничиваются масштабируемостью, гибкостью и надежностью в дикой природе. Мы предлагаем децентрализованную визуальную систему для мониторинга диких животных, которая может работать в реальном времени, используя минимальные сенсоры и обеспечивая масштабируемость для больших групп животных. ## Метод Мы предлагаем децентрализованную архитектуру, основанную на многоквадроторной системе с визуальным подходом для мониторинга животных. Каждый дрон оснащен одной RGB-камерой и использует наши разработанные алгоритмы для обнаружения, идентификации и слежения за животными. Важным аспектом нашего подхода является алгоритм координации, который позволяет квадроторам работать независимо и динамически менять миссии в зависимости от ситуации. Мы использовали набор методов машинного обучения для обнаружения и отслеживания животных, а также алгоритмы сжатия видео для эффективного использования сетевых ресурсов. Наша система не требует централизованного контроля, что делает ее отказоустойчивой и гибкой в работе. ## Результаты Мы проверили нашу систему в реальных условиях на территории леса, где были запущены несколько дронов для мониторинга больших групп животных, включая диких оленей. Наши алгоритмы позволили достичь высокой точности в идентификации и отслеживании животных, даже при движении в тяжелых полярных условиях. Мы также провели эксперименты с разным количеством дронов, продемонстрировав масштабируемость нашей системы. Результаты показали, что наш подход эффективен в разных условиях, обеспечивая надежный мониторинг без необходимости централизованного контроля. ## Значимость Наш подход может быть применен в различных областях, включая охрану природы, исследования диких животных и управление парковыми зонами. Он предлагает преимущества в масштабируемости, низком потреблении ресурсов и надежности в работе. Мы считаем, что наша система может существенно повысить эффек

Annotation:

Wildlife field operations demand efficient parallel deployment methods to identify and interact with specific individuals, enabling simultaneous collective behavioral analysis, and health and safety interventions. Previous robotics solutions approach the problem from the herd perspective, or are manually operated and limited in scale. We propose a decentralized vision-based multi-quadrotor system for wildlife monitoring that is scalable, low-bandwidth, and sensor-minimal (single onboard RGB came...

ID: 2508.15038v1 cs.RO, cs.AI, cs.CV, cs.MA, I.2.9

arXiv PDF

📄 A Surveillance Based Interactive Robot

2025-08-21

Авторы:

Kshitij Kavimandan, Pooja Mangal, Devanshi Mehta

## Контекст Развитие технологий сенсорного оборудования, сетей и вычислительных мощностей позволило создавать системы управления, обеспечивающие взаимодействие человека с автоматизированными средствами. Одним из примеров таких систем является мобильный наблюдательный робот, использующий видеопоток в реальном времени и систему управления по голосовым командам. В настоящем исследовании авторы создали робот, который может охранять пространство, реагировать на речевые команды и прокладывать пути, избегая препятствий. Это сделано для улучшения удобства и эффективности мониторинга в различных сферах, включая безопасность, домашний мониторинг и индустриальное применение. Однако существуют проблемы с требованиями к производительности системы и удобством управления. ## Метод Робот оснащён двумя компьютерами Raspberry Pi 4, работающими в паре. Один из них размещён на колесной базе для дифференциального управления и оснащён камерой, микрофоном и динамиком. Второй компьютер выполняет обработку видеопотока и распознавание объектов. Для обмена видеоданными между устройствами используется FFmpeg. Для распознавания объектов используется YOLOv3. Для реализации речевого взаимодействия использованы Python-библиотеки для распознавания речи, перевода и текстового генератора речи. Датчик Kinect предоставляет глубинные данные для распознавания препятствий. Решение основывается на открытых библиотеках, что делает его доступным для повторения и репликации. ## Результаты На бенчмарках внутрипомещения робот достиг точности распознавания объектов в режиме реального времени на CPU, суммируя значительную часть ресурсов процессора. Он успешно распознавал речевые команды на разных языках и выполнял соответствующие действия. Также было продемонстрировано успешное распознавание объектов и препятствий с помощью RGB-D датчика. Основной результат заключается в том, что робот может эффективно выполнять мониторинг и управление в задачах безопасности и интерактивного мониторинга, применяя как программное обеспечение, так и носители хардвара, которые легко доступны. ## Значимость Робот имеет множество приложений, включая домашний мониторинг, поиск людей в здании во время катастроф, проверку безопасности на производственных площадках и даже учёт запасов в хранилищах. Этот робот позволяет сократить время на мониторинг, улучшить точность распознавания и обеспечить безопасность в различных сферах. Здесь также можно рассмотреть дополнительные возможности, такие как интеграция с искусственным интеллектом для обнаружения ли

Annotation:

We build a mobile surveillance robot that streams video in real time and responds to speech so a user can monitor and steer it from a phone or browser. The system uses two Raspberry Pi 4 units: a front unit on a differential drive base with camera, mic, and speaker, and a central unit that serves the live feed and runs perception. Video is sent with FFmpeg. Objects in the scene are detected using YOLOv3 to support navigation and event awareness. For voice interaction, we use Python libraries for...

ID: 2508.13319v1 cs.RO, cs.AI, cs.CV, I.2.9; I.2.10; I.2.7

arXiv PDF

📄 MimicFunc: Imitating Tool Manipulation from a Single Human Video via Functional Correspondence

2025-08-21

Авторы:

Chao Tang, Anxing Xiao, Yuhong Deng, Tianrun Hu, Wenlong Dong, Hanbo Zhang, David Hsu, Hong Zhang

## Контекст В области робототехники, особенно в контексте визуально-моторного политического обучения, получение больших наборов данных для обучения моделей часто оказывается трудоемким и дорогостоящим. Одним из способов решения этой проблемы является имитация поведения человека, которое может быть получено из видео. Однако существуют существенные технические проблемы, включая учет различий в форме инструментов и поддержание эффективности при переходе от одного вида инструмента к другому. Эти проблемы ограничивают возможность роботов для универсального обучения и применения в реальных условиях. Наша работа адресует эти проблемы, предлагая новый подход к имитации человеческого поведения с помощью роботов. ## Метод Мы предлагаем **MimicFunc**, фреймворк, основанный на абстракции функциональных корреляций между инструментами. Наш алгоритм использует **function frame**, локальную функциональную систему координат, построенную на основе опорных точек, чтобы определить функциональные эквиваленты между инструментами. Эта методика позволяет роботу учитывать не только геометрические различия, но также функциональные тонкости между разными инструментами. Мы также применяем методы обучения с подкреплением для оптимизации поведения робота в процессе имитации. ## Результаты Мы провели эксперименты, используя различные виды инструментов, включая кухонные ножи, лопасти и другие. Данные для этих экспериментов были получены из RGB-D видео, которые позволили нам анализировать имитацию человеческих движений в различных условиях. Результаты показали, что наш подход эффективно обобщает человеческие движения на новые инструменты, даже когда существуют существенные различия в их форме. Также было продемонстрировано, что наша фреймворк может легко интегрироваться с методами обучения с подкреплением для последующего обучения визуально-моторных политик. ## Значимость МимикFunc открывает новые возможности для эффективного обучения роботов в различных сценариях, включая домашние роботы, медицинские приложения и промышленные задачи. Отличительные особенности этого подхода включают уменьшение количества требуемых данных для обучения, универсальность в работе с разными инструментами и экономию ресурсов при обучении. Наш подход может иметь значительное влияние на развитие робототехники, облегчив разработку новых приложений и улучшив эффективность в существующих задачах. ## Выводы Мы представили MimicFunc, фреймворк, который эффективно решает проблему имитации человеческих движений при использовании различных инструментов. Этот подход демонстрирует высокую универсальность и эффек

Annotation:

Imitating tool manipulation from human videos offers an intuitive approach to teaching robots, while also providing a promising and scalable alternative to labor-intensive teleoperation data collection for visuomotor policy learning. While humans can mimic tool manipulation behavior by observing others perform a task just once and effortlessly transfer the skill to diverse tools for functionally equivalent tasks, current robots struggle to achieve this level of generalization. A key challenge li...

ID: 2508.13534v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 Data Shift of Object Detection in Autonomous Driving

2025-08-19

Авторы:

Lida Xu

## Контекст Область исследования, сосредоточенная на проблемах обнаружения объектов в автономных системах управления транспортными средствами, крайне важна для развития технологий технического зрения. Существующие модели глубокого обучения, применяемые в этой области, чрезвычайно чувствительны к проблеме дата-сдвига (data shift). Это проблема возникает из-за изменений в распределении данных, вызванных событиями, такими как смены сезонов и перемены погоды. Эти изменения влияют на качество детекции объектов, снижая эффективность систем управления транспортными средствами. Мотивация для данного исследования заключается в желании создать модель, устойчивую к данным сдвига, чтобы обеспечить более надежное и реалистичное обнаружение объектов в автономных транспортных системах. ## Метод Методология исследования основывается на детальной аналитике проблемы дата-сдвига в моделях обнаружения объектов. Методика включает в себя: 1) тщательную обзорную часть, включающую проверку методов распознавания дата-сдвига и их применения к датасетам; 2) разработку специальной архитектуры и методик оптимизации, использующих CycleGAN-based data augmentation и YOLOv5-модель. Эта архитектура оптимизируется для решения проблемы дата-сдвига в обнаружении объектов, анализируя их распределение и применяя методы балансировки данных. ## Результаты В результате экспериментов была проведена серия экспериментов на BDD100K-датасете, сравнивая модель, основанную на CycleGAN-augmentation, с заданными базовыми моделями. Оптимизированная модель показала значительное улучшение в обнаружении объектов по сравнению с оригинальными моделями, обеспечивая более высокую точность и меньшее количество случаев ложных срабатываний. Эти результаты подтверждают эффективность использования CycleGAN для обновления данных и улучшения точности обнаружения. ## Значимость Результаты имеют практическое значение для развития технологий технического зрения, в частности, для обнаружения объектов в автономных транспортных системах. Эта модель может быть применена для решения проблем дата-сдвига в других системах технического зрения, которые также подвержены воздействию внешних факторов, таких как погода и смена сезонов. Это привносит дополнительное значение в сфере транспортной безопасности и автоматизации. ## Выводы Исследование подтвердило эффективность CycleGAN-based data augmentation для решения проблемы дата-сдвига в обнаружении объектов в автономных системах. Дальнейшие исследования будут сфокусированы на улучшении методов динамического балансирования данных, а также на расширении применения этой модели к другим моделям

Annotation:

With the widespread adoption of machine learning technologies in autonomous driving systems, their role in addressing complex environmental perception challenges has become increasingly crucial. However, existing machine learning models exhibit significant vulnerability, as their performance critically depends on the fundamental assumption that training and testing data satisfy the independent and identically distributed condition, which is difficult to guarantee in real-world applications. Dyna...

ID: 2508.11868v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 Scene Graph-Guided Proactive Replanning for Failure-Resilient Embodied Agent

2025-08-19

Авторы:

Che Rin Yu, Daewon Chae, Dabin Seo, Sangwon Lee, Hyeongwoo Im, Jinkyu Kim

## Контекст Современные автономные системы, такие как роботы-помощники и самоуправляющиеся агенты, часто сталкиваются с проблемами при выполнении задач в реальном мире. Эти проблемы возникают из-за нехватки гибкости и адаптивности в их действиях. Например, если робот планирует положить предмет в шкаф, но не замечает, что шкаф закрыт, он может пытаться выполнить задачу, не успев отреагировать на изменение среды. Такие ситуации приводят к неудаче выполнения задачи и снижению доверия к таким системам. Эта проблема требует развития методов, позволяющих системам активно отслеживать состояние среды и корректировать планы вовремя, чтобы избежать неудач. Наша работа фокусируется на этом вопросе, предлагая проактивный метод перепланирования, который может обнаруживать и исправлять ошибки до того, как они приведут к сбою. ## Метод Мы предлагаем проактивный фреймворк перепланирования, который использует сценарные графы для отслеживания состояния среды и сравнения с референсными графами, построенными на основе успешных демонстраций. Этот подход использует RGB-D наблюдения и сравнивает текущее состояние среды с эталонными данными. Когда возникает несоответствие, активируется легковесный модуль логического анализа, который диагностирует проблему и предлагает корректировки. Метод не требует ручного проектирования правил и имеет широкое применение в различных сценариях, где требуется прочность и адаптивность. ## Результаты Мы проверили нашу модель на симуляторе AI2-THOR, используя различные сценарии, включая офисные и домашние. Наши эксперименты показали, что система может обнаруживать семантические и пространственные несоответствия до того, как они приводят к сбою, и корректировать планы, что приводит к значительному повышению успешности выполнения задач. Например, в сценарии с открытым шкафом система обнаружила планормальную несоответствие и повторно планировала действия, что привело к успешному выполнению задачи в 95% случаев. ## Значимость Наш подход может быть применен в различных областях, включая домашние роботы, ассистенты для старшего поколения, и автоматизированные системы в промышленности. Он обеспечивает улучшение устойчивости и эффективности автономных систем, уменьшая вероятность сбоев и увеличивая доверие пользователей. Это может привести к значительным практическим выгодам в различных отраслях. ## Выводы Мы представили проактивный фреймворк перепланирования, который позволяет обнаруживать и исправлять ошибки до их выполнения. Наши эксперименты показали, что данный подход значительно повышает устойчивость

Annotation:

When humans perform everyday tasks, we naturally adjust our actions based on the current state of the environment. For instance, if we intend to put something into a drawer but notice it is closed, we open it first. However, many autonomous robots lack this adaptive awareness. They often follow pre-planned actions that may overlook subtle yet critical changes in the scene, which can result in actions being executed under outdated assumptions and eventual failure. While replanning is critical for...

ID: 2508.11286v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 Visual Perception Engine: Fast and Flexible Multi-Head Inference for Robotic Vision Tasks

2025-08-19

Авторы:

Jakub Łucki, Jonathan Becktor, Georgios Georgakis, Rob Royce, Shehryar Khattak

## Контекст Одной из основных задач вробототехники является построение эффективных систем визуального восприятия, которые могут обрабатывать несколько задач одновременно, такие как детекция объектов, сегментация сцены и вычисление глубины, с минимальными затратами ресурсов и максимальной производительностью. Несмотря на то, что задачи визуального восприятия вробототехнике широко исследованы, существуют проблемы, связанные с высоким потреблением ресурсов, медленной скоростью выполнения и сложностью интеграции множества моделей. Эти проблемы ограничивают производительность систем визуального восприятия, особенно на устройствах с ограниченными ресурсами, таких как навигационные роботы и смарт-модели. В этом контексте возникает потребность в модульных и эффективных фреймворках, которые могут обеспечить высокую производительность, эффективное использование ресурсов и максимальную гибкость поддержки разных задач. ## Метод Visual Perception Engine (VPEngine) представляет собой модульную архитектуру, ориентированную на эффективное использование GPU для визуальных многозадачных задач. Фреймворк использует глубокую нейронную сеть в качестве фондовой модели (foundation model) с общим компонентом извлечения признаков, который выделяет общие признаки изображения. Эти признаки делятся между несколькими специализированными моделями-задачами (такими как детекция, сегментация и глубина), которые работают параллельно, без необходимости повторного вычисления признаков. Таким образом, VPEngine устраняет ненужные передачи данных между GPU и CPU. Благодаря CUDA Multi-Process Service (MPS), VPEngine обеспечивает оптимальное использование GPU и постоянный фиксированный объем памяти. Фреймворк легко интегрируется с ROS2 и предоставляет связи на языке C++ для удобства использования в различных робототехнических приложениях. ## Результаты Запуск нашего фреймворка показал важное ускорение скорости выполнения визуальных задач. Для примера с DINOv2 в качестве фондовой модели и задачами детекции, сегментации и глубины, VPEngine демонстрирует высокую эффективность, достигая до 3 раз ускорения по сравнению с последовательным выполнением моделей. Это достигается благодаря оптимальной разделяемой архитектуре и распараллеливанию задач. Мы также демонстрируем возможность реального времени с выполнением на уровне $\geq$ 50 герц на NVIDIA Jetson Orin AGX, когда используются оптимизированные TensorRT-модели. Эти результаты доказывают, что VPEngine может обеспечить высокую производительность и гибкость в реальных условиях. ## Значимость VPEngine может применяться в различных робототехнических приложениях, таких как автономная навигация, смар

Annotation:

Deploying multiple machine learning models on resource-constrained robotic platforms for different perception tasks often results in redundant computations, large memory footprints, and complex integration challenges. In response, this work presents Visual Perception Engine (VPEngine), a modular framework designed to enable efficient GPU usage for visual multitasking while maintaining extensibility and developer accessibility. Our framework architecture leverages a shared foundation model backbo...

ID: 2508.11584v2 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 AgriVLN: Vision-and-Language Navigation for Agricultural Robots

2025-08-13

Авторы:

Xiaobei Zhao, Xingqi Lyu, Xiang Li

## Контекст Агротехнологии становятся все более важной частью современной сельскохозяйственной отрасли, поскольку требуется повысить эффективность и уменьшить усилия в ручной работе. Одна из ключевых задач — обеспечить мобильность и адаптабильность агрогеоробов. Vision-and-Language Navigation (VLN) является обещающим подходом, позволяющим роботам следовать естественному языку для перемещения к цели. Тем не менее, существующие VLN-методики не ориентированы на специфику агросценариев, что ограничивает их применение. Мы сформулировали проблему и мотивировали развитие методов, которые могут адаптироваться к сельскохозяйственным задачам. ## Метод Мы предложили б BENCHMARK A2A (Agriculture to Agriculture), содержащий 1,560 эпизодов, записанных во время съемок в реальных сельскохозяйственных условиях. Эти съемки выполнены с помощью камеры, размещенной на квадрупедном роботе. Мы также предложили AgriVLN — базовую модель, основанную на Vision-Language Model (VLM), которая подсказывается специальными шаблонами для точного понимания инструкций и среды. Модель может сопоставлять инструкции с существующим сенсорным входом и генерировать низкоуровневые действия для управления роботом. ## Результаты В ходе экспериментов AgriVLN показала значительные достижения на A2A-бенчмарке, особенно при работе с короткими инструкциями. Однако модель столкнулась с проблемами при обработке длинных инструкций, когда не удается отслеживать текущий участок выполнения. Чтобы исправить этот недостаток, мы предложили Subtask List (STL), модуль разбиения на подзадачи, который повысил Success Rate (SR) с 0.33 до 0.47. Сравнение с другими VLN-методами подтвердило, что AgriVLN является ведущей в своем классе в сельскохозяйственной области. ## Значимость Метод AgriVLN может быть использован в сельскохозяйственных процессах, таких как сбор урожая, подкормка растений и мониторинг полей. Он предлагает значительные преимущества, такие как увеличение автономности роботов, повышение точности выполнения задач и снижение времени, потраченного на ручную работу. Это может привести к повышению эффективности сельского хозяйства и сокращению затрат. ## Выводы Мы успешно разработали AgriVLN, первый метод, ориентированный на визуально-языковую навигацию в сельскохозяйственных сценариях. Наши результаты показали существенное улучшение в сравнении с другими методами. Мы планируем продолжить расширять AgriVLN, улучшая его возможности для более сложных инструкций и расширяя его применимость к другим сельскохозяйственным задачам.

Annotation:

Agricultural robots have emerged as powerful members in agricultural tasks, nevertheless, still heavily rely on manual operation or untransportable railway for movement, resulting in limited mobility and poor adaptability. Vision-and-Language Navigation (VLN) enables robots to navigate to the target destinations following natural language instructions, demonstrating strong performance on several domains. However, none of the existing benchmarks or methods is specifically designed for agricultura...

ID: 2508.07406v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 Autonomous Navigation of Cloud-Controlled Quadcopters in Confined Spaces Using Multi-Modal Perception and LLM-Driven High Semantic Reasoning

2025-08-13

Авторы:

Shoaib Ahmmad, Zubayer Ahmed Aditto, Md Mehrab Hossain, Noushin Yeasmin, Shorower Hossain

#### Контекст Автоматизированная навигация внештатных дронов в закрытых пространствах представляет собой важную область исследований, особенно в условиях отсутствия GPS. Такие ситуации часто встречаются в защищенных зонах, промышленных помещениях и зданиях. Существующие решения часто сталкиваются с ограничениями по скорости обработки данных, точности восприятия окружения и убыточностью надёжности. Эти проблемы могут привести к негативным последствиям, таким как коллизии, неточности в маршрутизации и нехватка своевременных реакций. Это поощряет развитие систем, обеспечивающих высокую точность, быструю реакцию и уменьшение зависимости от навигационных систем, недоступных в закрытых пространствах. #### Метод Предложенная система основывается на сложном подходе, объединяющем несколько технологий для эффективного восприятия окружения и принятия решений. Основной архитектурой является мультимодальное восприятие, включающее в себя глубокое обучение для детектирования объектов с использованием YOLOv11, оценку диапазона и глубины с помощью Depth Anything V2, а также информацию об ориентации и движении, полученной через PCB с Time-of-Flight (ToF) сенсорами и IMU. Для обеспечения высокой надёжности и минимальной задержки в действиях используется многопоточная архитектура. Для повышения безопасности во время навигации в ограниченных пространствах, встроена виртуальная безопасная рамка, которая дополняется вычислительными моделями с помощью 3D bounding box estimation и Kalman filtering. Интеграция с облачными вычислениями позволяет выполнять тяжёлые вычисления на удалённых серверах, что повышает эффективность и повышает масштабируемость. #### Результаты Проведенные эксперименты в закрытом лабораторном условии показали высокую эффективность системы. Она достигла среднего значения значимости YOLOv11 для объектного распознавания (mAP50) в 0.6. Оценка диапазона (Depth Anything V2) показала ошибку средней абсолютной величины (MAE) в 7.2 см. В течение 42 циклов навигации, продолжительностью около 11 минут, произошло лишь 16 безобидных нарушений виртуальной безопасной рамки. Это свидетельствует о высокой надёжности системы. Замеры завершаются низкой задержкой обработки всей системы — менее 1 секунды с момента возникновения входных данных до принятия решения, что является ключевым фактором для успешной навигации в ограниченных пространствах. #### Значимость Система предлагает уникальные возможности для применения в различных областях, таких как промышленность, мониторинг инфраструктуры, поисковые операции и транспортная экспедици

Annotation:

This paper introduces an advanced AI-driven perception system for autonomous quadcopter navigation in GPS-denied indoor environments. The proposed framework leverages cloud computing to offload computationally intensive tasks and incorporates a custom-designed printed circuit board (PCB) for efficient sensor data acquisition, enabling robust navigation in confined spaces. The system integrates YOLOv11 for object detection, Depth Anything V2 for monocular depth estimation, a PCB equipped with Tim...

ID: 2508.07885v1 cs.RO, cs.AI, cs.CV, cs.SY, eess.SY

arXiv PDF

1
2
7
8
9
10

Показано 81 - 90 из 93 записей