📚 Саммари научных статей из arXiv

Найдено 544 результатов по запросу 'cs.RO, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Diff-MSM: Differentiable MusculoSkeletal Model for Simultaneous Identification of Human Muscle and Bone Parameters

2025-08-21

Авторы:

Yingfan Zhou, Philip Sanderink, Sigurd Jager Lemming, Cheng Fang

## Контекст Одним из ключевых подходов к созданию эффективных технологий в области симуляции и моделирования человеческих движений является использование личноспецифических гибких моделей мускулоскелета. Эти модели необходимы для точного моделирования взаимодействия человека с роботами и другими системами, а также для оценки и проверки безопасности таких систем до их реального применения. Наиболее важным заданием для создания таких моделей является идентификация персонализированных параметров, в том числе параметров гладкой мускулатуры (Hill-type muscle model) и параметров динамики костей. Однако это обычно связано с значительными трудностями, так как непосредственно измерить внутренние биомеханические переменные, такие как силы суставов, в организме в реальном времени, практически невозможно. Данная работа предлагает использовать Differentiable MusculoSkeletal Model (Diff-MSM) для решения этой проблемы, основываясь на методе автоматического дифференцирования. ## Метод Diff-MSM является развитием традиционных гибких моделей мускулоскелета, включая 3D-симуляции, в рамках концепции дифференцируемых моделей. Он использует автоматическое дифференцирование для оценки внутренних биомеханических переменных, таких как силы суставов, непосредственно из измеримых внешних входов, таких как мускулярная активация и внешние нагрузки. Важным аспектом Diff-MSM является то, что он позволяет осуществлять прямую оценку внутренних переменных без необходимости дополнительных измерений, таких как измерение силы суставов во время опыта. Это достигается за счет формализации модели в виде дифференцируемой системы, которая обеспечивает гладкий переход от входных данных к выходным данным. ## Резюме ## Значимость Diff-MSM представляет собой потенциальный следующий шаг в области моделирования человеческих движений и взаимодействия с роботами. Он может быть применен в различных областях, включая мускулоскелетное моделирование, мониторинг здоровья мышц, реабилитацию и спортивные науки. Наиболее применимо Diff-MSM в ситуациях, где требуется высокая точность идентификации параметров в рамках модели, таких как безопасная симуляция интерактивных роботских систем. Благодаря тому, что Diff-MSM позволяет вычислительно эффективно оценивать внутренние переменные, он может существенно упростить процесс моделирования и снизить требования к дорогостоящим инструментам для измерения. ## Выводы Разработанная Diff-MSM-методология демонстрирует принципиальные преимущества перед традиционными методами определения внутренних переменных моделей мускулоскелета. Она позволяет соз

Annotation:

High-fidelity personalized human musculoskeletal models are crucial for simulating realistic behavior of physically coupled human-robot interactive systems and verifying their safety-critical applications in simulations before actual deployment, such as human-robot co-transportation and rehabilitation through robotic exoskeletons. Identifying subject-specific Hill-type muscle model parameters and bone dynamic parameters is essential for a personalized musculoskeletal model, but very challenging ...

ID: 2508.13303v1 cs.RO, cs.AI

arXiv PDF

📄 A Surveillance Based Interactive Robot

2025-08-21

Авторы:

Kshitij Kavimandan, Pooja Mangal, Devanshi Mehta

## Контекст Развитие технологий сенсорного оборудования, сетей и вычислительных мощностей позволило создавать системы управления, обеспечивающие взаимодействие человека с автоматизированными средствами. Одним из примеров таких систем является мобильный наблюдательный робот, использующий видеопоток в реальном времени и систему управления по голосовым командам. В настоящем исследовании авторы создали робот, который может охранять пространство, реагировать на речевые команды и прокладывать пути, избегая препятствий. Это сделано для улучшения удобства и эффективности мониторинга в различных сферах, включая безопасность, домашний мониторинг и индустриальное применение. Однако существуют проблемы с требованиями к производительности системы и удобством управления. ## Метод Робот оснащён двумя компьютерами Raspberry Pi 4, работающими в паре. Один из них размещён на колесной базе для дифференциального управления и оснащён камерой, микрофоном и динамиком. Второй компьютер выполняет обработку видеопотока и распознавание объектов. Для обмена видеоданными между устройствами используется FFmpeg. Для распознавания объектов используется YOLOv3. Для реализации речевого взаимодействия использованы Python-библиотеки для распознавания речи, перевода и текстового генератора речи. Датчик Kinect предоставляет глубинные данные для распознавания препятствий. Решение основывается на открытых библиотеках, что делает его доступным для повторения и репликации. ## Результаты На бенчмарках внутрипомещения робот достиг точности распознавания объектов в режиме реального времени на CPU, суммируя значительную часть ресурсов процессора. Он успешно распознавал речевые команды на разных языках и выполнял соответствующие действия. Также было продемонстрировано успешное распознавание объектов и препятствий с помощью RGB-D датчика. Основной результат заключается в том, что робот может эффективно выполнять мониторинг и управление в задачах безопасности и интерактивного мониторинга, применяя как программное обеспечение, так и носители хардвара, которые легко доступны. ## Значимость Робот имеет множество приложений, включая домашний мониторинг, поиск людей в здании во время катастроф, проверку безопасности на производственных площадках и даже учёт запасов в хранилищах. Этот робот позволяет сократить время на мониторинг, улучшить точность распознавания и обеспечить безопасность в различных сферах. Здесь также можно рассмотреть дополнительные возможности, такие как интеграция с искусственным интеллектом для обнаружения ли

Annotation:

We build a mobile surveillance robot that streams video in real time and responds to speech so a user can monitor and steer it from a phone or browser. The system uses two Raspberry Pi 4 units: a front unit on a differential drive base with camera, mic, and speaker, and a central unit that serves the live feed and runs perception. Video is sent with FFmpeg. Objects in the scene are detected using YOLOv3 to support navigation and event awareness. For voice interaction, we use Python libraries for...

ID: 2508.13319v1 cs.RO, cs.AI, cs.CV, I.2.9; I.2.10; I.2.7

arXiv PDF

📄 MimicFunc: Imitating Tool Manipulation from a Single Human Video via Functional Correspondence

2025-08-21

Авторы:

Chao Tang, Anxing Xiao, Yuhong Deng, Tianrun Hu, Wenlong Dong, Hanbo Zhang, David Hsu, Hong Zhang

## Контекст В области робототехники, особенно в контексте визуально-моторного политического обучения, получение больших наборов данных для обучения моделей часто оказывается трудоемким и дорогостоящим. Одним из способов решения этой проблемы является имитация поведения человека, которое может быть получено из видео. Однако существуют существенные технические проблемы, включая учет различий в форме инструментов и поддержание эффективности при переходе от одного вида инструмента к другому. Эти проблемы ограничивают возможность роботов для универсального обучения и применения в реальных условиях. Наша работа адресует эти проблемы, предлагая новый подход к имитации человеческого поведения с помощью роботов. ## Метод Мы предлагаем **MimicFunc**, фреймворк, основанный на абстракции функциональных корреляций между инструментами. Наш алгоритм использует **function frame**, локальную функциональную систему координат, построенную на основе опорных точек, чтобы определить функциональные эквиваленты между инструментами. Эта методика позволяет роботу учитывать не только геометрические различия, но также функциональные тонкости между разными инструментами. Мы также применяем методы обучения с подкреплением для оптимизации поведения робота в процессе имитации. ## Результаты Мы провели эксперименты, используя различные виды инструментов, включая кухонные ножи, лопасти и другие. Данные для этих экспериментов были получены из RGB-D видео, которые позволили нам анализировать имитацию человеческих движений в различных условиях. Результаты показали, что наш подход эффективно обобщает человеческие движения на новые инструменты, даже когда существуют существенные различия в их форме. Также было продемонстрировано, что наша фреймворк может легко интегрироваться с методами обучения с подкреплением для последующего обучения визуально-моторных политик. ## Значимость МимикFunc открывает новые возможности для эффективного обучения роботов в различных сценариях, включая домашние роботы, медицинские приложения и промышленные задачи. Отличительные особенности этого подхода включают уменьшение количества требуемых данных для обучения, универсальность в работе с разными инструментами и экономию ресурсов при обучении. Наш подход может иметь значительное влияние на развитие робототехники, облегчив разработку новых приложений и улучшив эффективность в существующих задачах. ## Выводы Мы представили MimicFunc, фреймворк, который эффективно решает проблему имитации человеческих движений при использовании различных инструментов. Этот подход демонстрирует высокую универсальность и эффек

Annotation:

Imitating tool manipulation from human videos offers an intuitive approach to teaching robots, while also providing a promising and scalable alternative to labor-intensive teleoperation data collection for visuomotor policy learning. While humans can mimic tool manipulation behavior by observing others perform a task just once and effortlessly transfer the skill to diverse tools for functionally equivalent tasks, current robots struggle to achieve this level of generalization. A key challenge li...

ID: 2508.13534v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 Toward Deployable Multi-Robot Collaboration via a Symbolically-Guided Decision Transformer

2025-08-21

Авторы:

Rathnam Vidushika Rasanji, Jin Wei-Kocsis, Jiansong Zhang, Dongming Gan, Ragu Athinarayanan, Paul Asunda

#### Контекст Реинфорсментный обучение (RL) стало важной компонентой построения автоматизированных систем, включая роботизированные операции. Однако, его применение в реальном мире сталкивается с рядом проблем, в том числе высокой необходимостью данных, ограниченностью применения в сложных сценариях и неэффективностью в задачах с длительными зависимостями времени. Одна из таких задач — многоробочная манипуляция, требующая системы для выполнения сложных задач с несколькими роботами, которая должна быть интерпретируема, эффективна и настраиваема. Несмотря на то, что Decision Transformers (DTs) показали себя как эффективный подход для научных задач, их применение к многоробочным манипуляциям всё ещё остается недостаточно исследовано. #### Метод Мы предлагаем новый подход, основанный на нейро-символической модели, который интегрирует символическую планировку с целевой трансформацией решений. В нашей модели, символический планировщик генерирует высокоуровневый план, который состоит из символических подцелей. Эти подцели используются целевой трансформацией решений для построения низкоуровневых решений в задачах многоробочной манипуляции. Наша модель выделяет сильные стороны как символического планирования, так и методов RL, объединяя их в интегрированную систему. Эта модель позволяет гибко адаптироваться к различным сценариям, в том числе нулевым и нескольким выступлениям. #### Результаты Мы оценили нашу модель на различных сценариях задач, включая сценарии с нулевым и несколькими выступлениями. Результаты показали, что SGDT успешно решает задачи многоробочной манипуляции, достигая высокого уровня точности и надежности в различных условиях. Модель демонстрирует высокий уровень интерпретируемости, что делает её пригодной для использования в реальном мире. #### Значимость Разработанная модель может быть применена в различных областях, включая автоматизацию производственных процессов, транспортные системы и управление роботами в группах. Одной из основных преимуществ является возможность интеграции символического планирования и RL, что позволяет снизить необходимость в обучении на огромных массивах данных. Это может привести к повышению эффективности и надежности в сложных задачах многоробочной манипуляции. #### Выводы Мы представили SGDT, первый подход, использующий нейро-символическую модель для многоробочной манипуляции. Результаты наших экспериментов показали, что модель успешно решает задачи многоробочной манипуляции, обеспечивая высокую точность и интерпретируемость. В будущем мы планируем расширить модель для более сложных задач и исследовать в

Annotation:

Reinforcement learning (RL) has demonstrated great potential in robotic operations. However, its data-intensive nature and reliance on the Markov Decision Process (MDP) assumption limit its practical deployment in real-world scenarios involving complex dynamics and long-term temporal dependencies, such as multi-robot manipulation. Decision Transformers (DTs) have emerged as a promising offline alternative by leveraging causal transformers for sequence modeling in RL tasks. However, their applica...

ID: 2508.13877v1 cs.RO, cs.AI

arXiv PDF

📄 The Social Context of Human-Robot Interactions

2025-08-21

Авторы:

Sydney Thompson, Kate Candon, Marynel Vázquez

## Контекст Область исследований Human-Robot Interaction (HRI) становится все более значимой в связи с развитием робототехники и ИИ. Одной из ключевых проблем является понятие "социальный контекст", которое используется в разных контекстах и может приводить к непониманию между учеными. Это создает затруднения при создании и проверке моделей поведения роботов. Мотивация для этого исследования заключается в том, чтобы улучшить понимание такого значимого аспекта и создать модель, которая поможет взаимодействовать с роботами в разных социальных ситуациях. ## Метод Для изучения социального контекста HRI была проведена литературная серверная запись, рассмотрев существующие работы и определения. Затем был разработан концептуальный модель, который описывает социальный контекст взаимодействия. Образцами исследования стали различные данные, включая исследования, эксперименты, а также практические приложения. Методы включали анализ документов, моделирование ситуаций, а также симуляционные эксперименты для исследования поведения роботов в различных социальных условиях. ## Результаты Исследование выявило различные аспекты социального контекста, включая роль социальных знаний, ситуационных условий и личных отношений. На основе модели было проведено несколько экспериментов, где системы были протестированы на возможности взаимодействия в различных социальных ситуациях. Результаты показали, что модель может улучшить понимание поведения роботов и предоставить инструменты для разработки более эффективных моделей взаимодействия с людьми. ## Значимость Результаты имеют широкое применение в разработке роботов для социальных задач, таких как помощь в старческих домах, обучение, новости и поиск. Одним из основных преимуществ является улучшение моделей взаимодействия, что позволяет роботам лучше понимать и реагировать на поведение человека. Это также может повысить эффективность роботов в решении реальных проблем в социальных ситуациях. ## Выводы Основные достижения исследования заключаются в том, что была разработана модель социального контекста, которая может применяться в различных ситуациях. На будущее, необходимо продолжить работу над совершенствованием моделей, в том числе расширение моделей с целью улучшить понимание неявных сигналов и учета разнообразия социальных факторов. Будущие исследования также должны сосредоточиться на тестировании моделей в реальных условиях для доказательства их эффективности в реальных постановках.

Annotation:

The Human-Robot Interaction (HRI) community often highlights the social context of an interaction as a key consideration when designing, implementing, and evaluating robot behavior. Unfortunately, researchers use the term "social context" in varied ways. This can lead to miscommunication, making it challenging to draw connections between related work on understanding and modeling the social contexts of human-robot interactions. To address this gap, we survey the HRI literature for existing defin...

ID: 2508.13982v1 cs.RO, cs.AI, cs.HC, cs.MA, I.2.9; I.2

arXiv PDF

📄 Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation

2025-08-21

Авторы:

Yifu Yuan, Haiqin Cui, Yaoting Huang, Yibin Chen, Fei Ni, Zibin Dong, Pengyi Li, Yan Zheng, Jianye Hao

## Контекст Область робототехники и ИИ сталкивается с значительными проблемами в области "понимания-действия", которая определяет позиционирование в пространстве и взаимодействие с объектами. Эти проблемы связаны с отсутствием больших объемов данных и разнообразием эмбодированных систем. Чтобы улучшить генерализуемость моделей, авторы предлагают использовать универсальное подходение, основанное на точечном представлении, которое может объединить высокоуровневые задачи визуального понимания и низкоуровневые движущиеся задачи. Этот подход целевой на пути к универсальной модели роботов, которая могла бы выполнять разнообразные задачи в разных средах. ## Метод Авторы предложили Embodied-R1, 3B Vision-Language Model (VLM), разработанный специально для поддержки понимания и построения решений в рамках "понимания-действия". Архитектура модели включает тренировку с помощью двух этапов Reinforced Fine-tuning (RFT), используя мульти-задачную систему вознаграждения. Для обучения использовались различные специализированные данные, включая embodied и общие визуально-логические наборы данных. Алгоритм учитывает разнообразие сред и визуальных задач, чтобы создать широкий спектр тестовых ситуаций. ## Результаты В результате тестирования на 11 основных действительных и виртуальных тестовых средах изображений, Embodied-R1 показала значительное улучшение в сравнении с соревновательными моделями. Она показала 56.2% успеха в задаче SIMPLEREnv и 87.5% в 8 реальных средах карманового робота XArm. Эти результаты демонстрируют высокую генерализуемость и удаление "пробела" между визуальным пониманием и действием. Также модель доказала свою высокую устойчивость к различным визуальным помехам, что указывает на ее надежность в реальных условиях. ## Значимость Embodied-R1 может иметь широкое применение в сферах искусственного зрения, робототехнических систем, визуально-логических задачах и управлении роботами в разных средах. Ее уникальность заключается в том, что она предлагает более мощный и универсальный подход к обработке "пробела" между визуальным пониманием и действиями. Это может привести к улучшению работы роботов в реальном мире, особенно в сложных и нестандартных технических ситуациях. ## Выводы Авторы показали, что использование точечного представления, комбинированного с Reinforced Fine-tuning (RFT), может быть эффективным для улучшения генерализуемости роботов в различных ситуациях. Они предлагают продолжить исследования в этом направлении, с расширением тестовых сред и улучшением обработки сложных визуальных помех, чтобы достичь еще больш

Annotation:

Generalization in embodied AI is hindered by the "seeing-to-doing gap," which stems from data scarcity and embodiment heterogeneity. To address this, we pioneer "pointing" as a unified, embodiment-agnostic intermediate representation, defining four core embodied pointing abilities that bridge high-level vision-language comprehension with low-level action primitives. We introduce Embodied-R1, a 3B Vision-Language Model (VLM) specifically designed for embodied reasoning and pointing. We use a wide...

ID: 2508.13998v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Using Natural Language for Human-Robot Collaboration in the Real World

2025-08-19

Авторы:

Peter Lindes, Kaoutar Skiker

## Контекст Современная технология развивается в графе создания автономных роботов, способных сотрудничать с людьми в процессе выполнения сложных задач в реальном мире. Одна из ключевых задач в этой области – обеспечение надежного естественноязыкового взаимодействия между роботом и человеком. Несмотря на то, что традиционные системы интерактивного обучения заданиям (Interactive Task Learning, ITL) могут обрабатывать некоторые типы задач с помощью ограниченного языкового понимания, их возможности остаются недостаточными для реализации полноценного естественноязыкового взаимодействия. В связи с этим появляется необходимость в развитии систем, использующих роль крупных языковых моделей (LLM), чтобы улучшить понимание естественного языка роботами. Но интеграция таких моделей в системы, работающие в физическом мире, представляет собой сложную задачу. Целью данного исследования является изучение способов создания роботов, способных естественно языковому общению, и оценка потенциальных преимуществ этого подхода. ## Метод Для достижения целей исследования использовался подход, основанный на использовании роботов с центральной системой управления AI Cognitive Agent, которая способствует пониманию естественного языка, взаимодействию с человеком и сбору ситуационного знания во время выполнения задач. Работа системы основывается на использовании LLM, такого как ChatGPT, для разбора и восприятия естественного языка. Основными этапами методологии являются: сбор и анализ данных, разработка методов обработки естественного языка, интеграция LLM в систему управления роботом, и проведение экспериментов для проверки модели. ## Результаты В рамках исследования были проведены несколько простых экспериментов, обосновавших возможность применения LLM для роботов. Например, с использованием ChatGPT было продемонстрировано, что модель может понимать и воспринимать простые команды, отвечать на вопросы, а также взаимодействовать с роботом в логическом порядке. Также были проведены проверки на возможности синтеза естественного языка, чтобы робот мог генерировать ответы на вопросы или команды в доступном формате. Эксперименты показали, что модель LLM может улучшить понимание роботами естественных команд, но требуется продолжительная работа над системой для улучшения точности и реакции на контекст. ## Значимость Результаты работы открывают новые возможности для использования роботов в реальном мире, где естественное взаимодействие с людьми становится ключом к успеху. Использование LLM позволяет роботу не только выполнять задачи, но и общаться с человеком в естественной форме, что увеличивает удобство испо

Annotation:

We have a vision of a day when autonomous robots can collaborate with humans as assistants in performing complex tasks in the physical world. This vision includes that the robots will have the ability to communicate with their human collaborators using language that is natural to the humans. Traditional Interactive Task Learning (ITL) systems have some of this ability, but the language they can understand is very limited. The advent of large language models (LLMs) provides an opportunity to grea...

ID: 2508.11759v1 cs.RO, cs.AI, cs.CL

arXiv PDF

📄 Data Shift of Object Detection in Autonomous Driving

2025-08-19

Авторы:

Lida Xu

## Контекст Область исследования, сосредоточенная на проблемах обнаружения объектов в автономных системах управления транспортными средствами, крайне важна для развития технологий технического зрения. Существующие модели глубокого обучения, применяемые в этой области, чрезвычайно чувствительны к проблеме дата-сдвига (data shift). Это проблема возникает из-за изменений в распределении данных, вызванных событиями, такими как смены сезонов и перемены погоды. Эти изменения влияют на качество детекции объектов, снижая эффективность систем управления транспортными средствами. Мотивация для данного исследования заключается в желании создать модель, устойчивую к данным сдвига, чтобы обеспечить более надежное и реалистичное обнаружение объектов в автономных транспортных системах. ## Метод Методология исследования основывается на детальной аналитике проблемы дата-сдвига в моделях обнаружения объектов. Методика включает в себя: 1) тщательную обзорную часть, включающую проверку методов распознавания дата-сдвига и их применения к датасетам; 2) разработку специальной архитектуры и методик оптимизации, использующих CycleGAN-based data augmentation и YOLOv5-модель. Эта архитектура оптимизируется для решения проблемы дата-сдвига в обнаружении объектов, анализируя их распределение и применяя методы балансировки данных. ## Результаты В результате экспериментов была проведена серия экспериментов на BDD100K-датасете, сравнивая модель, основанную на CycleGAN-augmentation, с заданными базовыми моделями. Оптимизированная модель показала значительное улучшение в обнаружении объектов по сравнению с оригинальными моделями, обеспечивая более высокую точность и меньшее количество случаев ложных срабатываний. Эти результаты подтверждают эффективность использования CycleGAN для обновления данных и улучшения точности обнаружения. ## Значимость Результаты имеют практическое значение для развития технологий технического зрения, в частности, для обнаружения объектов в автономных транспортных системах. Эта модель может быть применена для решения проблем дата-сдвига в других системах технического зрения, которые также подвержены воздействию внешних факторов, таких как погода и смена сезонов. Это привносит дополнительное значение в сфере транспортной безопасности и автоматизации. ## Выводы Исследование подтвердило эффективность CycleGAN-based data augmentation для решения проблемы дата-сдвига в обнаружении объектов в автономных системах. Дальнейшие исследования будут сфокусированы на улучшении методов динамического балансирования данных, а также на расширении применения этой модели к другим моделям

Annotation:

With the widespread adoption of machine learning technologies in autonomous driving systems, their role in addressing complex environmental perception challenges has become increasingly crucial. However, existing machine learning models exhibit significant vulnerability, as their performance critically depends on the fundamental assumption that training and testing data satisfy the independent and identically distributed condition, which is difficult to guarantee in real-world applications. Dyna...

ID: 2508.11868v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 Integrating Symbolic RL Planning into a BDI-based Autonomous UAV Framework: System Integration and SIL Validation

2025-08-19

Авторы:

Sangwoo Jeon, Juchul Shin, YeonJe Cho, Gyeong-Tae Kim, Seongwoo Kim

## Контекст Автоматизация дронных миссий в течение последних десятилетий превратилась в кллючевую задачу в области робототехники и цифровых технологий. Благодаря их возможности автономного взаимодействия с окружающим миром, дроны нашли применение в различных сферах, включая силовые государственные органы, гражданские услуги и технологии информационных систем. Однако, тем не менее, проблемы с относительно низкой надежностью и развитием систем управления, способны вызывать серьезные проблемы в управлении автономным летательным аппаратом. Наиболее затруднительной проблемой является то, что существующие архитектуры не способны реагировать на динамически изменяющиеся окружающие условия, что приводит к неоптимальному выполнению задач. Исследование, основанное на новых базовых технологиях, направлено на развитие интегрированного квантового концепта, который позволяет применять динамические символьные планы в процессе динамического планирования. Над этим вопросом работают ученые и разработчики, но еще не достигнут согласие по поводу разработки методов, которые могли бы гарантировать устойчивость и надежность системы в различных операционных условиях. ## Метод Метод, используемый в работе, основывается на интеграции символьного управления в фреймворк BDI (Belief-Desire-Intention), применяя символьное управление для расширения возможностей системы. Для этих целей в работе применяется подход Planning Domain Definition Language (PDDL), позволяющий описывать ограничения и цели задач в достаточноей детализации. Эта модель позволяет генерировать символьные планы для автономных дронов, которые могут адаптироваться к внешним условиям. Для проверки эффективности работы алгоритма в рамках системы BDI, была использована архитектура AMAD-SRL (Autonomous Mission Agents for Drones), которая является предшествующим развитием фреймворка AMAD. В разработке внедрена новая компонента для символьного управления, которая позволяет оптимизировать взаимодействие с другими модулями системы. Для эмпирического определения совместимости алгоритмов, использовался Software-in-the-Loop (SIL) симулятор, который эмулировал работу системы на реальных условиях. Оценка производительности была произведена на основе сценария целевого обнаружения, в котором дрон должен был передвигаться по созданному пути, обнаруживать цель, а затем выполнить квадрокоптером систему для безопасного посадки. ## Результаты В результате исследований было подтверждено, что интегрированная система AMAD-SRL может значительно увеличить эффективность управления. Участники исследования успешно продемонстрировали, как моди

Annotation:

Modern autonomous drone missions increasingly require software frameworks capable of seamlessly integrating structured symbolic planning with adaptive reinforcement learning (RL). Although traditional rule-based architectures offer robust structured reasoning for drone autonomy, their capabilities fall short in dynamically complex operational environments that require adaptive symbolic planning. Symbolic RL (SRL), using the Planning Domain Definition Language (PDDL), explicitly integrates domain...

ID: 2508.11890v1 cs.RO, cs.AI

arXiv PDF

📄 No More Blind Spots: Learning Vision-Based Omnidirectional Bipedal Locomotion for Challenging Terrain

2025-08-19

Авторы:

Mohitvishnu S. Gadde, Pranay Dugar, Ashish Malik, Alan Fern

## Контекст Бипедная локомоция в динамичных средах, таких как удаленные внутренние пространства или неровная местность, требует гибкого и адаптивного движения во всех направлениях. Это подразумевает не только визуальное восприятие территории, но и умение управлять поведением в ответ на визуальные сигналы. Однако существующие подходы сталкиваются с ограничениями в обработке имитационных данных и высокими затратами на отрисовку визуальных сигналов в симуляциях. Эти проблемы мешают широкому применению визуально-ориентированных алгоритмов в реальном мире. Мы предлагаем новую стратегию, которая устраняет эти барьеры и демонстрирует эффективность визуально-ориентированной бипедной локомоции в сложных условиях. ## Метод Мы предлагаем систему, состоящую из двух интегрированных политик: простую "беззрячную" политику и глубокую "учительскую" политику. Беззрячная политика отвечает за основной управляющий процесс, в то время как учительская политика, обученная на визуальных данных, помогает студентской политике улучшать свои навыки. Мы используем визуальные сигналы в виде дапоксительных глубинных изображений, что позволяет избежать дорогостоящих расчетов отрисовки в симуляции. Особенностью нашего подхода является использование техники добавления шума к данным для более устойчивого обучения. Эта методика позволяет сократить время обучения и улучшить точность контроля. ## Результаты Мы проводили эксперименты в симуляционной среде и на реальном роботе для оценки эффективности нашей системы. Наши результаты показывают, что робот может эффективно перемещаться в различных типах территорий, включая ландшафты с значительными деформациями. Мы демонстрируем, что наш подход позволяет значительно сократить время обучения и уменьшить затраты на вычисления в симуляции, не ухудшая точность и реактивность. Эта технология демонстрирует новый уровень адаптивности визуальных систем в бипедной локомоции. ## Значимость Предложенный подход может быть применен в различных областях, включая исследования и развитие роботов-бипедов для исследования сложных ландшафтов, навигацию в непроглядных средах и визуальную ориентацию в автоматизированных системах. Наш подход предлагает значительные преимущества по сравнению с традиционными методами, такими как уменьшение накладных расходов на обучение и улучшение реакции на изменения в окружающей среде. Мы считаем, что эта работа открывает новые перспективы для развития бипедных роботов и может быть использована в практических приложениях. ## Выводы Мы

Annotation:

Effective bipedal locomotion in dynamic environments, such as cluttered indoor spaces or uneven terrain, requires agile and adaptive movement in all directions. This necessitates omnidirectional terrain sensing and a controller capable of processing such input. We present a learning framework for vision-based omnidirectional bipedal locomotion, enabling seamless movement using depth images. A key challenge is the high computational cost of rendering omnidirectional depth images in simulation, ma...

ID: 2508.11929v1 cs.RO, cs.AI

arXiv PDF

1
2
47
48
49
50
51
54
55

Показано 481 - 490 из 544 записей