📚 Саммари научных статей из arXiv

Найдено 544 результатов по запросу 'cs.RO, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 GBC: Generalized Behavior-Cloning Framework for Whole-Body Humanoid Imitation

2025-08-15

Авторы:

Yifei Yao, Chengyuan Luo, Jiaheng Du, Wentao He, Jun-Guo Lu

## Контекст Создание масштабируемых, универсальных управлений для роботов-человекоидов остается сложной проблемой в робототехнике. Известно, что существующие подходы часто привязаны к конкретной морфологии робота и требуют значительных усилий для переноса на другие модели. Это приводит к значительной утилизации ресурсов в испытаниях и адаптациях. Основная проблема заключается в том, что алгоритмы обучения с подкреплением (RL) и клонирования поведения (BC), которые являются стандартами в области роботов-человекоидов, не значительно продвинулись в сторону универсальности. Например, они часто привязаны к конкретным признакам морфологии робота или ограничиваются ограниченными наборами представлений данных. Более того, универсальные решения для поведения роботов-человекоидов требуют большого объема вычислительных мощностей и надежных методов трансфера. Однако эффективные, универсальные и открытые системы, удовлетворяющие этим требованиям, до сих пор недоступны. Здесь мы предлагаем **Generalized Behavior-Cloning Framework (GBC)**, чтобы закрыть эти пробелы. ## Метод GBC представляет собой инновационную методологию, которая использует дифференцируемую сеть инверсного кинематического уравнения (Differentiable Inverse Kinematics, D-IK) для адаптивного перенаправления данных любого моделирования движения (MoCap) к любому роботу-человекоиду. Это значительно упрощает процесс подготовки данных. Далее, GBC использует новый алгоритм DAgger-MMPPO, который объединяет мета-метаполитику (Meta-Meta Policy Optimization, MM) с трансформером (MMTransformer) для обучения фидбека-ориентированных политик. Эти политики являются высокоточными и термодинамически стабильными. Благодаря универсальной архитектуре, GBC может обрабатывать различные типы роботов-человекоидов, включая модели с разным числом степеней свободы. Этот подход делает GBC высокоскоростным и надежным средством для генерации эффективных поведений роботов. ## Результаты Мы проводили эксперименты на нескольких моделях роботов-человекоидов, включая модели с разным числом степеней свободы, чтобы продемонстрировать возможности GBC. Выяснилось, что GBC может тренировать высокоточные политики для разных моделей роботов-человекоидов без дополнительных маргинальных изменений в архитектуре. Мы также проверили способность GBC к трансферу усвоенных поведений на новые, ранее не встречавшиеся движения. Это подтвердило отличные результаты в поддержании стабильности и точности симуляций. Универсальный подход, предлагаемый GBC, показал себя как эффективный инструмент для создания роботов-человекоидов, которые могут поддержива

Annotation:

The creation of human-like humanoid robots is hindered by a fundamental fragmentation: data processing and learning algorithms are rarely universal across different robot morphologies. This paper introduces the Generalized Behavior Cloning (GBC) framework, a comprehensive and unified solution designed to solve this end-to-end challenge. GBC establishes a complete pathway from human motion to robot action through three synergistic innovations. First, an adaptive data pipeline leverages a differen...

ID: 2508.09960v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Vision-driven River Following of UAV via Safe Reinforcement Learning using Semantic Dynamics Model

2025-08-15

Авторы:

Zihan Wang, Nina Mahmoudian

## Контекст В настоящее время автоматизированные системы управления летательными аппаратами (УАВ) игрушкают ключевую роль в приложениях, таких как поиск-и-спасение, наблюдение за окружающим пространством и мониторинг окружающей среды. Однако эти задачи часто возникают в сложных географических условиях, таких как леса, реки или сельские зоны, где глобальные системы навигации через спутники (GNSS), такие как GPS, оказываются недоступными или недостоверными. Для решения этой проблемы важно развивать методы, позволяющие УАВ автономно выполнять сложные задачи в условиях недоступности GNSS. Одной из таких задач является автоматическое следование за рекой, которое требует высокой точности и надёжности, особенно в условиях быстрого изменения ландшафта и ограниченности видимости. ## Метод Мы применяем подход, основанный на усовершенствованных моделях управления и обучения с подкреплением, для точного автономного следования за рекой УАВ. Алгоритм основывается на методе покрытия, используя субмодулярную формулу награды, чтобы оптимизировать покрытие уникальных участков реки. Для повышения точности и эффективности учитывается не только визуальный ввод, но также и семантические динамики, основанные на распознавании объектов. Мы предлагаем **Marginal Gain Advantage Estimation (MGAE)**, оптимизирующий преимущество действий на основе исторических данных, и **Semantic Dynamics Model (SDM)**, использующий патчные маски семантических объектов для короткосрочного прогнозирования следующих наблюдений. Также мы представляем **Constrained Actor Dynamics Estimator (CADE)**, архитектуру, которая объединяет модель награды, эстиматор затрат и модель динамики для создания безопасного агента, способного решать задачи в условиях неопределенности. ## Результаты В ходе экспериментов мы визуализировали поведение агента в ситуациях, при которых УАВ должен выполнять следование за рекой в условиях разных уровней сложности. Использовались данные из симуляционного окружения, включающего переменные условия освещения, разнообразные виды рек и внезапные препятствия. Мы эволюционно сравнили нашу модель с традиционными методами, такими как Generalized Advantage Estimation (GAE). Результаты показали, что **MGAE** работает эффективнее, достигая быстрого конвергенции и выдавая более высокую точность. **SDM** в свою очередь, обеспечивает более точные короткосрочные прогнозы, обеспечивая точность затрат и снижая риск нарушений правил. В целом, **CADE** показал себя как эффективный подход в области безопасного обучения с подкреплением, комбинируя модели безопасности и награды. ## Значимость Наши результаты имеют

Annotation:

Vision-driven autonomous river following by Unmanned Aerial Vehicles is critical for applications such as rescue, surveillance, and environmental monitoring, particularly in dense riverine environments where GPS signals are unreliable. We formalize river following as a coverage control problem in which the reward function is submodular, yielding diminishing returns as more unique river segments are visited, thereby framing the task as a Submodular Markov Decision Process. First, we introduce Mar...

ID: 2508.09971v1 cs.RO, cs.AI

arXiv PDF

📄 Visual Prompting for Robotic Manipulation with Annotation-Guided Pick-and-Place Using ACT

2025-08-14

Авторы:

Muhammad A. Muttaqien, Tomohiro Motoda, Ryo Hanai, Yukiyasu Domae

## Контекст В сфере искусственного интеллекта и робототехники росла потребность в эффективных решениях для задач пика-анд-плей (pick-and-place), особенно в условиях торговых точек с узкими проходами, плотными объектами и вариациями их свойств (размер, форма, цвет). Эти факторы усложняют планирование движений и захват предметов. Одной из сложностей является необходимость использовать структурированные данные для улучшения точности и адаптивности. В этом контексте было предложено исследование, ориентированное на решение этих проблем путем использования аннотационного подхода и новых методов машинного обучения. ## Метод В статье предлагается перспективный подход, основанный на **annotation-guided visual prompting**, который использует баундинговые квадраты для определения объектов и мест для захвата. Это позволяет структурировать пространственные сведения и упростить планирование. Для реализации модели используется **Action Chunking with Transformers (ACT)**, метод глубокого обучения, обеспечивающий выявление чанков действий из человеческих демонстраций. Это означает, что робот не только следует готовой последовательности, но и адаптируется к нестандартным ситуациям. Архитектура ACT позволяет создавать поток действий, который обеспечивает плавность и эффективность взаимодействия. ## Результаты Результаты экспериментов проводились на данных, полученных в условиях реальных торговых точек. Модель была протестирована на задачах захвата и размещения объектов с разными свойствами. Улучшенная точность захвата, реализованная с помощью ACT, позволила достичь высокой стабильности, даже при плотных объектах и окклюзиях. Оценивая результаты с помощью успешности задач и визуального анализа, модель показала значительное улучшение в сравнении с предыдущими подходами. ## Значимость Предложенный подход отличается своей гибкостью и адаптивностью, что делает его пригодным для различных средств автоматизации. Он может быть применен в различных сферах, включая управление роботами в торговых точках, производственных целях и даже домашних роботов. Важное преимущество этого метода заключается в том, что он не требует дорогостоящих аннотаций или ручного планирования. Это позволяет ему быть эффективным для решения задач в реальном времени. ## Выводы В итоге, решение, предложенное в этой статье, продемонстрировало свою эффективность в решении задач пика-анд-плей в сложных условиях. Оно может иметь значительное влияние на развитие робототехнических систем в современных торговых точках. Будущие работы будут ориентированы на улучшение системы для обработки более сложных сценариев и увеличении скорости реакции.

Annotation:

Robotic pick-and-place tasks in convenience stores pose challenges due to dense object arrangements, occlusions, and variations in object properties such as color, shape, size, and texture. These factors complicate trajectory planning and grasping. This paper introduces a perception-action pipeline leveraging annotation-guided visual prompting, where bounding box annotations identify both pickable objects and placement locations, providing structured spatial guidance. Instead of traditional step...

ID: 2508.08748v1 cs.RO, cs.AI

arXiv PDF

📄 Unsupervised Skill Discovery as Exploration for Learning Agile Locomotion

2025-08-14

Авторы:

Seungeun Rho, Kartik Garg, Morgan Byrd, Sehoon Ha

## Контекст Обучение маневренной локамоции роботам с четырьмя ногами остается значительной проблемой в робототехнике. Для достижения этой цели необходимо грамотно сконцентрироваться на эксплорейшн, поскольку это ключевым фактором для развития ударной мобильности в сложных средах. Несмотря на то, что существуют методы, такие как наградное проектирование, демонстрационные подходы или курсы обучения, они часто приводят к сужению области применения и недостаточной универсальности. В этом исследовании мы предлагаем новую модель, которая применяет автоматическое раскрытие способности для эксплорейшн, снижая необходимость в ручном вмешательстве. ## Метод Мы предлагаем фреймворк **Skill Discovery as Exploration (SDAX)**, который использует методы неуправляемого обучения для раскрытия способностей. Фреймворк построен на би-уровневом оптимизационном процессе, который автоматически регулирует степень эксплорейшн в ходе обучения. Мы также используем автокодировщик для выявления независимых способностей и управления ими. Это позволяет роботу построить репертуар различных маневров, таких как подбегание, подбирание, прыжки и другие сложные движения. Мы проводим эксперименты как в симуляционной, так и в реальной среде, чтобы продемонстрировать широту возможностей фреймворка. ## Результаты Мы проверяем SDAX на виртуальных моделях роботов и в реальной среде. Наши эксперименты показывают, что SDAX может успешно выявить различные способности, такие как подбегание, подбирание, прыжки и другие сложные маневры. Мы также продемонстрировали успешный переход из симуляционной модели в реальную среду. Это позволяет роботу выполнять сложные движения в реальном мире с помощью полученных навыков. ## Значимость Наша работа может быть применена в различных приложениях, таких как поисковые операции после катастроф, доставка товаров и исследования неудобных территорий. Основные преимущества SDAX заключаются в снижении требований к ручному вмешательству, обеспечении широкой универсальности и высокой гибкости в обучении роботу. Это может открыть новые горизонты в развитии роботов с четырьмя ногами для сложных условий. ## Выводы Мы успешно продемонстрировали, что SDAX может быть эффективным инструментом для обучения маневренной локамоции в сложных средах. Мы также показали, что SDAX может быть распространен в различных приложениях. В будущем мы планируем расширить его возможности, включив дополнительные физические модели и улучшив его эффективность.

Annotation:

Exploration is crucial for enabling legged robots to learn agile locomotion behaviors that can overcome diverse obstacles. However, such exploration is inherently challenging, and we often rely on extensive reward engineering, expert demonstrations, or curriculum learning - all of which limit generalizability. In this work, we propose Skill Discovery as Exploration (SDAX), a novel learning framework that significantly reduces human engineering effort. SDAX leverages unsupervised skill discovery ...

ID: 2508.08982v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Rational Inverse Reasoning

2025-08-14

Авторы:

Ben Zandonati, Tomás Lozano-Pérez, Leslie Pack Kaelbling

## Контекст В последние годы растет интерес к развитию роботов, которые могут эффективно имитировать человеческое поведение в различных ситуациях. Однако существуют затруднения в обучении роботов по малому количеству примеров. Человеческий мозг может оптимально адаптироваться под контекст, опираясь на небольшое число опытов, в то время как роботы часто требуют многочисленных итераций для достижения общей эффективности. Основной причиной этого является нехватка способности роботов корректно структурировать предметные знания и достичь высокоуровневого понимания задачи. Мы предлагаем фреймворк Rational Inverse Reasoning (RIR), который стремится решить эту проблему, ориентируясь на воспроизведение логики и интуитивного мышления человека. ## Метод Rational Inverse Reasoning (RIR) — это процедура, основанная на генеративном моделировании, которая опрачивает проблему инверсного упражнения. Метод использует визуально-языковую модель для синтеза теорий в виде структурированных программных ходах. Эти теории проверяются с помощью планировщика, который оценивает логику каждого хода по мере получения новых данных. Это позволяет RIR строить краткие, но точные программы, которые удачно описывают целевые действия в условиях несмежных данных. ## Результаты Мы проверили RIR на основе нескольких сценариев смены объектов и поверхностей, включая перемещения и перегрузки предметов. Наши эксперименты показали, что RIR может эффективно переносить знания после визуального восприятия малого числа примеров. Он превосходит современные модели по скорости и точности понимания целевого хода, даже когда уровень тестовой ситуации отличается от обучающей. ## Значимость RIR может быть применен в различных сферах, включая автоматизацию производств, оптимизацию роботов в сфере здравоохранения, а также в участии в интеллектуальных задачах, подразумевающих преодоление препятствий и решение нестандартных задач. Этот подход обеспечивает быструю адаптацию, меньшее количество данных для обучения и может улучшить производительность роботов в реальных условиях. ## Выводы Мы представили Rational Inverse Reasoning как эффективный метод для понимания и воспроизведения задач, основанных на небольших примерах. Наши результаты показывают, что этот подход способен значительно улучшить роботскую интеллектуальную адаптацию в сложных средах. Мы планируем дальнейшие исследования в области улучшения параметров обучения и проверки RIR в новых задачах, чтобы усилить модельную универсальность.

Annotation:

Humans can observe a single, imperfect demonstration and immediately generalize to very different problem settings. Robots, in contrast, often require hundreds of examples and still struggle to generalize beyond the training conditions. We argue that this limitation arises from the inability to recover the latent explanations that underpin intelligent behavior, and that these explanations can take the form of structured programs consisting of high-level goals, sub-task decomposition, and executi...

ID: 2508.08983v1 cs.RO, cs.AI

arXiv PDF

📄 Learning Causal Structure Distributions for Robust Planning

2025-08-13

Авторы:

Alejandro Murillo-Gonzalez, Junhong Xu, Lantao Liu

## Контекст Структурные казуальные модели (Structural Causal Models, SCM) широко используются в робототехнике для описания взаимодействий компонентов системы. Они содержат информацию об интерактивных параметрах (структурной части) и о том, как эти параметры взаимодействуют (функциональная часть). Однако существуют проблемы с неопределенностью о структуре, вывод которой требует особого внимания. Традиционные методы обучения моделей часто игнорируют структуру, что приводит к менее точным и надежным моделям ра dy namics. Эта неточность может оказаться критичной в сложных реальных условиях. Данная работа рассматривает возможность учета неопределенности о структуре при обучении моделей, чтобы повысить их устойчивость и эффективность в реальном мире. ## Метод Методология основывается на оценке дистрибуции структурных моделей (Causal Structure Distribution, CSD), которая генерирует вариации структурных моделей с учетом их неопределенности. Данная дистрибуция используется для сэмплирования структурных графов, которые включаются в входной вектор для модели. Эта модель представляет собой проблему обучения динамики с помощью проблемы многозадачного обучения (Multi-Task Learning, MTL) с использованием encoder-multidecoder probabilistic model. Энкодер представляет собой нейронную сеть, которая выводит вариации структурных моделей, а многодекодеры предсказывают соответствующие динамики. Метод работает в режиме реального времени, обеспечивая адаптивность и значительно меньшую вычислительную нагрузку. ## Результаты Исследования проводились на моделях руководящих манипуляторов и мобильных роботов, как в симуляционной среде, так и в реальном мире. Метод показал значительное улучшение устойчивости динамических моделей, даже при поврежденных входных данных и изменениях в окружении. Например, работа в реальном мире показала, что модель может научиться планировать новые задачи в новых условиях. Оценка показала, что модель требует меньше ресурсов и показывает высокую производительность, в то время как методы без учета структуры проваливаются в сложных сценариях. ## Значимость Метод может быть применен в области управления роботами, в том числе для оптимизации динамики и увеличения надежности в реальных условиях. Он предоставляет преимущество в плане учета неопределенности в структуре, что недоступно многим другим моделям. Это может использоваться для улучшения планирования и реакции на изменения в реальном мире, что важно для роботов, работающих в нетипичных или нестабильных условиях. ## Выводы Работа показывает, что учитывание структурных моделей с неопределенностью дает более надежные модели динамик. Это отк

Annotation:

Structural causal models describe how the components of a robotic system interact. They provide both structural and functional information about the relationships that are present in the system. The structural information outlines the variables among which there is interaction. The functional information describes how such interactions work, via equations or learned models. In this paper we find that learning the functional relationships while accounting for the uncertainty about the structural ...

ID: 2508.06742v1 cs.RO, cs.AI, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Model Predictive Control for Crowd Navigation via Learning-Based Trajectory Prediction

2025-08-13

Авторы:

Mohamed Parvez Aslam, Bojan Derajic, Mohamed-Khalil Bouzidi, Sebastian Bernhard, Jan Oliver Ringert

## Контекст Самостоятельная навигация во время перемещения в условиях городских местностей, где существует высокое число пеших движущихся субъектов, является важной задачей для автономных роботов. Особенностью данной области является необходимость обеспечить безопасность поведения робота, а также максимальную эффективность в действиях. Однако возникает проблема оптимального предсказания движения пешеходов, которая может вызывать неточности в движении автономных систем. Из-за этого, развитие систем, основанных на моделировании и контроле, взаимодействующих с глубокой нейронной сетью, является ключевым направлением для решения этой проблемы. ## Метод В работе представлена интеграция модели Model Predictive Control (MPC) с предсказанием траекторий на основе глубокого обучения. Используется Social-Implicit (SI) model для оценки поведения пешеходов в различных условиях плотности. Таким образом, предыдущие технологии, например, Constant Velocity Model (CVM), используются как базовый метод для сравнения. Архитектура SI-MPC базируется на совместном применении нейронных сетей и MPC, чтобы отражать социальные особенности пешеходов в процессе планирования движения. Эта модель позволяет снизить неточности в предсказании движения и улучшить безопасность в условиях высокой плотности. ## Результаты Использовались данные с реальных тестов на физическом роботе Continental Corriere в различных условиях плотности. Результаты показали, что SI-MPC модель существенно улучшает точность предсказания траекторий пешеходов по сравнению с CVM в условиях низкой плотности - снижая ошибки на 76%. В условиях высокой плотности, SI-MPC демонстрирует более широкие и осторожные предсказания, что приводит к улучшению безопасности и гладкости движения. Эти результаты подтверждают преимущества данной модели в реальной среде. ## Значимость Модель SI-MPC может быть применена в различных сферах, включая поддержку автономных транспортных средств в городах, системы поддержки принятия решений в зонах пешеходного движения, а также в развитии безопасных протоколов для роботов в целом. Она обеспечивает более точное и безопасное предсказание траекторий, что может иметь важное значение в условиях сложных динамических сред. ## Выводы Результаты эксперимента показали, что SI-MPC модель является эффективным инструментом для безопасного и эффективного движения в условиях высокой плотности. На основе данных результатов, будущие работы будут сфокусированы на улучшении моделей предсказания и их интеграции с другими системами для достижения более высокой эффективности и надежности в автономной навигаци

Annotation:

Safe navigation in pedestrian-rich environments remains a key challenge for autonomous robots. This work evaluates the integration of a deep learning-based Social-Implicit (SI) pedestrian trajectory predictor within a Model Predictive Control (MPC) framework on the physical Continental Corriere robot. Tested across varied pedestrian densities, the SI-MPC system is compared to a traditional Constant Velocity (CV) model in both open-loop prediction and closed-loop navigation. Results show that SI ...

ID: 2508.07079v1 cs.RO, cs.AI, cs.SY, eess.SY

arXiv PDF

📄 An Evolutionary Game-Theoretic Merging Decision-Making Considering Social Acceptance for Autonomous Driving

2025-08-13

Авторы:

Haolin Liu, Zijun Guo, Yanbo Chen, Jiaqi Chen, Huilong Yu, Junqiang Xi

#### Контекст Автоматизированная система управления транспортом становится все более важной в современном транспортном секторе. Одной из самых сложных задач для автономных транспортных средств (АТС) является решение проблемы автоматического вступления в основную полосу. Многие существующие алгоритмы оптимизации данной задачи проблематизируются тем, что не учитывают взаимодействие автомобиля с окружающим движением. Это приводит к неэффективным решениям, которые могут стать причиной небезопасности. Наша мотивация заключается в разработке методологии решения тонкой задачи комбинирования, учитывающей характеристики взаимодействия, социальную приемлемость и оптимальность. #### Метод Мы предлагаем развить инновационный подход, основанный на теории игр эволюционного типа (EGT). Алгоритм EGT формулируется с учетом баланса интересов между АТС и основными потоками движения (МВ). Мы разработали модель, которая динамически адаптируется к реакциям окружающих транспортных средств. Для решения задачи многоцелевой оптимизации используется динамическое уравнение репликатора (Replicator Dynamics). Это позволяет оптимизировать время вступления на основную полосу, учитывая эффективность, комфорт и безопасность. Также мы предлагаем алгоритм оценки стиля вождения в реальном времени, позволяющий адаптироваться к непредсказуемости окружающего движения. #### Результаты Мы проводим эксперимент на реальных данных, используя множество метрик, включая траектории движения и временные интервалы. Наши результаты показывают, что за счет учета взаимодействия и социальной приемлемости, наше решение превосходит классические алгоритмы. Мы можем улучшать эффективность, комфорт и безопасность взаимодействия АТС и МВ на порядок. Этот подход позволяет нам достичь нового уровня безопасности и эффективности на дорогах. #### Значимость Наш подход может быть применен в ситуациях, где необходимо оптимизировать взаимодействие автомобилей, например, на шоссе или в городских условиях. Этот метод может повысить уровень безопасности и удобства движения, а также способствовать развитию технологий автоматизации транспорта. Этот инновационный подход может стать основой для дальнейшего расширения систем управления транспортом. #### Выводы В результате нашего исследования мы разработали метод, который решает одну из сложных задач в области автоматизации транспорта, оптимизируя взаимодействие АТС и МВ. Мы надеемся, что эта работа станет одной из ступеней в развитии технологий авто

Annotation:

Highway on-ramp merging is of great challenge for autonomous vehicles (AVs), since they have to proactively interact with surrounding vehicles to enter the main road safely within limited time. However, existing decision-making algorithms fail to adequately address dynamic complexities and social acceptance of AVs, leading to suboptimal or unsafe merging decisions. To address this, we propose an evolutionary game-theoretic (EGT) merging decision-making framework, grounded in the bounded rational...

ID: 2508.07080v1 cs.RO, cs.AI

arXiv PDF

📄 Integrating Neurosymbolic AI in Advanced Air Mobility: A Comprehensive Survey

2025-08-13

Авторы:

Kamal Acharya, Iman Sharifi, Mehul Lad, Liang Sun, Houbing Song

## Контекст Advanced Air Mobility (AAM) представляет собой перспективный направление развития ра TRANSPORTATION, нацеленное на создание удобных, эффективных и безопасных систем транспорта в воздушном пространстве. Однако этот сектор сталкивается с рядом сложных вызовов, включая требования к регулированию, оптимизации операций и обеспечение безопасности. Нейросимволическая искусственная интеллект (Neurosymbolic AI) предлагается как потенциальное решение этих проблем. Эта технология объединяет прочные модели узкоспециализированных нейронных сетей с символическим рассуждением, обеспечивая гибкость и точность в решении задач. Однако нейросимволическая AI еще не полностью реализована в AAM, и существуют проблемы в области масштабируемости, надёжности и соответствия авиационным стандартам. Этот статус затянутости регулярной транспортной системы, в сочетании с потребностью в безопасности и эффективности, делает АИ Нейросимволическую привлекательной для исследования и развития. ## Метод Нейросимволическая AI объединяет методы нейронных сетей и символического рассуждения, чтобы обеспечить гибкость и точность в решении задач. Методология включает в себя несколько шагов: (1) **выбор моделей**: выбор неньронных сетей (например, глубоких нейронных сетей) для обработки нелинейных задач; (2) **символическое моделирование**: описание проблемы с помощью символьных представлений, таких как логические выражения или системы правил; и (3) **совмещение**: объединение нейронных и символических моделей в единую систему для достижения оптимального решения. Эта архитектура позволяет сталкиваться с проблемами в сложных средах, таких как AAM, где требуется сбалансированный подход. Данный подход решает проблемы, такие как неполнота данных, неопределённость в данных и сложная регулирования. ## Результаты Качество исследования продемонстрировано в ряде экспериментов, применяясь к различным областям AAM. Например, в рамках Demand Forecasting (прогнозирования спроса), Neurosymbolic Reinforcement Learning (Нейросимволическая Учительская Обучение) был применен для оптимизации трафика воздушных транспортных средств, что привело к увеличению эффективности и снижению задержек. В Aircraft Design (дизайне самолетов), Neurosymbolic AI было использовано для оптимизации дизайна самолетов, решая задачи, такие как минимизация потребления топлива и улучшение безопасности. В реальном времени, в Air Traffic Management (управлении воздушным движением), Neurosymbolic AI позволило обеспечить более быстрые и удачные решения в условиях нестабильных ситуаций. Результаты этих экспериментов показали высокую точность, масштабируемость и надежность с

Annotation:

Neurosymbolic AI combines neural network adaptability with symbolic reasoning, promising an approach to address the complex regulatory, operational, and safety challenges in Advanced Air Mobility (AAM). This survey reviews its applications across key AAM domains such as demand forecasting, aircraft design, and real-time air traffic management. Our analysis reveals a fragmented research landscape where methodologies, including Neurosymbolic Reinforcement Learning, have shown potential for dynamic...

ID: 2508.07163v1 cs.RO, cs.AI, cs.NE

arXiv PDF

📄 AgriVLN: Vision-and-Language Navigation for Agricultural Robots

2025-08-13

Авторы:

Xiaobei Zhao, Xingqi Lyu, Xiang Li

## Контекст Агротехнологии становятся все более важной частью современной сельскохозяйственной отрасли, поскольку требуется повысить эффективность и уменьшить усилия в ручной работе. Одна из ключевых задач — обеспечить мобильность и адаптабильность агрогеоробов. Vision-and-Language Navigation (VLN) является обещающим подходом, позволяющим роботам следовать естественному языку для перемещения к цели. Тем не менее, существующие VLN-методики не ориентированы на специфику агросценариев, что ограничивает их применение. Мы сформулировали проблему и мотивировали развитие методов, которые могут адаптироваться к сельскохозяйственным задачам. ## Метод Мы предложили б BENCHMARK A2A (Agriculture to Agriculture), содержащий 1,560 эпизодов, записанных во время съемок в реальных сельскохозяйственных условиях. Эти съемки выполнены с помощью камеры, размещенной на квадрупедном роботе. Мы также предложили AgriVLN — базовую модель, основанную на Vision-Language Model (VLM), которая подсказывается специальными шаблонами для точного понимания инструкций и среды. Модель может сопоставлять инструкции с существующим сенсорным входом и генерировать низкоуровневые действия для управления роботом. ## Результаты В ходе экспериментов AgriVLN показала значительные достижения на A2A-бенчмарке, особенно при работе с короткими инструкциями. Однако модель столкнулась с проблемами при обработке длинных инструкций, когда не удается отслеживать текущий участок выполнения. Чтобы исправить этот недостаток, мы предложили Subtask List (STL), модуль разбиения на подзадачи, который повысил Success Rate (SR) с 0.33 до 0.47. Сравнение с другими VLN-методами подтвердило, что AgriVLN является ведущей в своем классе в сельскохозяйственной области. ## Значимость Метод AgriVLN может быть использован в сельскохозяйственных процессах, таких как сбор урожая, подкормка растений и мониторинг полей. Он предлагает значительные преимущества, такие как увеличение автономности роботов, повышение точности выполнения задач и снижение времени, потраченного на ручную работу. Это может привести к повышению эффективности сельского хозяйства и сокращению затрат. ## Выводы Мы успешно разработали AgriVLN, первый метод, ориентированный на визуально-языковую навигацию в сельскохозяйственных сценариях. Наши результаты показали существенное улучшение в сравнении с другими методами. Мы планируем продолжить расширять AgriVLN, улучшая его возможности для более сложных инструкций и расширяя его применимость к другим сельскохозяйственным задачам.

Annotation:

Agricultural robots have emerged as powerful members in agricultural tasks, nevertheless, still heavily rely on manual operation or untransportable railway for movement, resulting in limited mobility and poor adaptability. Vision-and-Language Navigation (VLN) enables robots to navigate to the target destinations following natural language instructions, demonstrating strong performance on several domains. However, none of the existing benchmarks or methods is specifically designed for agricultura...

ID: 2508.07406v1 cs.RO, cs.AI, cs.CV

arXiv PDF

1
2
50
51
52
53
54
55

Показано 511 - 520 из 544 записей