📚 Саммари научных статей из arXiv

Найдено 104 результатов по запросу 'cs.RO, cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Robot Learning with Sparsity and Scarcity

2025-09-24

Авторы:

Jingxi Xu

## Контекст Робототехника становится все более важной в различных областях, но существуют значительные вызовы, связанные с ограниченными ресурсами данных. Эти ограничения делятся на две категории: **данные с малой плотностью** (спарсиненные) и **малое количество данных** (скарси). Эти проблемы характерны для сенсорных систем, таких как тактильные сенсоры, и для ситуаций, когда коллекция данных, например биосигналов, представляет собой значительный труд. Мотивацией для данного исследования является развитие методов, позволяющих эффективно обрабатывать и использовать данные в таких сложных условиях. ## Метод В работе используется многопарадигменный подход к обучению роботов. В области **трехзернистой реабилитации** разработаны алгоритмы **семийтированного обучения**, **мета-обучения** и **генеративных ИИ** для интерпретации намерений пациентов. Для **тензорных сенсоров** разработаны модели **реинфорсментного обучения**, которые используют только тензорные данные для эффективного построения политик экспериментации и манипуляции. Основной метод состоит в сочетании этих методов с адаптивными оптимизационными техниками, чтобы минимизировать необходимость в больших объемах данных для эффективного обучения. ## Результаты В ходе экспериментов показано, что разработанные алгоритмы эффективно обрабатывают малозначимые и спарсиненные данные. Например, при обучении роботов с тензорными сенсорами в задаче манипуляции, модель удалось достичь высокой точности в определении целей действий, даже при ограниченных данных. Для задачи реабилитации, модель интерпретации намерений показала точность более 90% при использовании минимального количества биосигналов, что значительно превосходит стандартные методы. Эти результаты достигнуты благодаря использованию инновационных методов и методологий в обучении роботов. ## Значимость Разработанные методы находят применение в различных областях, в том числе в **трохи парометической реабилитации**, **роботов-компаньонов** и **аппаратуре для тензорных сенсоров**. Они позволяют облегчить работу с живыми данными, обеспечить более точную интерпретацию намерений, а также улучшить эффективность обучения с помощью минимального количества данных. Это имеет потенциал для значительного повышения доступности робототехнических систем в медицине, промышленности и домашнем обиходе. ## Выводы Работа показывает, что модели, разработанные в рамках данного исследования, эффективно обрабатывают данные с малой плотностью и малой плотностью. Они открывают пути для будущих исследований в области робототехники, в том числе в

Annotation:

Unlike in language or vision, one of the fundamental challenges in robot learning is the lack of access to vast data resources. We can further break down the problem into (1) data sparsity from the angle of data representation and (2) data scarcity from the angle of data quantity. In this thesis, I will discuss selected works on two domains: (1) tactile sensing and (2) rehabilitation robots, which are exemplars of data sparsity and scarcity, respectively. Tactile sensing is an essential modality...

ID: 2509.16834v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 DreamControl: Human-Inspired Whole-Body Humanoid Control for Scene Interaction via Guided Diffusion

2025-09-20

Авторы:

Dvij Kalaria, Sudarshan S Harithas, Pushkal Katara, Sangkyung Kwak, Sarthak Bhagat, Shankar Sastry, Srinath Sridhar, Sai Vemprala, Ashish Kapoor, Jonathan Chung-Kuan Huang

#### Контекст Общение с обстановкой — сделать научнай статья DreamControl: Human-Inspired Whole-Body Humanoid Control for Scene Interaction via Guided Diffusion — полностью на русском языке. Данная работа посвящена развитию нового подхода к обучению автономных движений роботов-антропоидов, использующих принципы гуман-инспирированного поведения. В центре внимания — использование diffusion models (diffusion-моделей) и reinforcement learning (RL) для обучения роботам выполнять задачи в сценах, взаимодействуя с предметами. Эта технология может увеличить эффективность и естественность движений роботов, а также облегчить их адаптацию к реальному миру. #### Метод Метод DreamControl объединяет в себе diffusion models с reinforcement learning (RL). Первое, что стоит отметить, это использование diffusion prior, обученного на данных человеческого движения. Этот модельный предварительный результат помогает RL-системе выбирать наиболее подходящие решения для задач, например, открытия ящика или взятия предмета. Второй важный момент — diffusion models способствуют более естественному движению робота, что упрощает процесс перехода от симуляции к реальной среде (sim-to-real). Это сочетание позволяет RL-системе решать задачи, недоступные при прямом обучении. #### Результаты Эксперименты проводились на роботе Unitree G1, который выполнял различные сложные задачи, включая взаимодействие с объектами и координированное движение верхнего и нижнего тела. Результаты показали, что система DreamControl эффективно решает задачи, используя принципы гуман-инспирированного движения. Это подтверждает эффективность diffusion prior'а и diffusion models в обеспечении естественных движений и успешного перехода из симуляции в реальную среду. Результаты экспериментов показывают, что DreamControl может решать задачи, которые были бы вызовом для RL в одиночку. #### Значимость DreamControl открывает новые возможности в области обучения роботов-антропоидов. Он может применяться в различных сферах: промышленности, робототехнике, автоматизации и даже в здравоохранении. Основные преимущества заключаются в том, что метод обучает роботов выполнять естественные движения, чтобы они могли быстро адаптироваться к реальным условиям. Это может привести к более эффективной и безопасной работе в различных сценариях. #### Выводы Полученные результаты подтверждают эффективность DreamControl в обучении роботов-антропоидов выполнять сложные задачи. Это подтверждает значимость diffusion models в создании естественного движения и улучшения sim-to-real transfer. Будущие исследования будут сконцентрированы на расширении возможностей системы, улучшении точности и устойчивости, а также на её применении в различных реальных сценариях. Исследования также будут направлены на улучшение адаптации роботов в нестандартных и непредсказу

Annotation:

We introduce DreamControl, a novel methodology for learning autonomous whole-body humanoid skills. DreamControl leverages the strengths of diffusion models and Reinforcement Learning (RL): our core innovation is the use of a diffusion prior trained on human motion data, which subsequently guides an RL policy in simulation to complete specific tasks of interest (e.g., opening a drawer or picking up an object). We demonstrate that this human motion-informed prior allows RL to discover solutions un...

ID: 2509.14353v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 The Role of Touch: Towards Optimal Tactile Sensing Distribution in Anthropomorphic Hands for Dexterous In-Hand Manipulation

2025-09-20

Авторы:

João Damião Almeida, Egidio Falotico, Cecilia Laschi, José Santos-Victor

## Контекст Одним из ключевых аспектов развития антропоморфных роботизированных систем является вопрос контроля объектов в руках робота. Для достижения точного управления, особенно в задачах перемещения объектов в руках (in-hand manipulation), необходима распределенная сенсорная сетка. Однако, традиционно фокус помещается на сенсоры, размещенные на пальцах, в то время как другие области руки, например, пальцы или локти, часто игнорируются. Эта работа исследует эффективность различных тактильных сетей в различных областях руки для решения задач переориентации объектов в руках. Целью является изучение влияния различных регионов руки на устойчивость и точность контроля, а также выявление принципов, подходящих для оптимального размещения сенсоров. ## Метод Для решения исследователи применяют модель антропоморфной руки с распределенными сенсорами, размещенными на кисти, средних и мелких пальцах, а также на локте. Для оценки взаимосвязи между тактильной информацией и контролем используется глубокое управление с подкреплением (deep reinforcement learning). Экспериментальные задачи включают переориентацию различных объектов с разными характеристиками в руках робота. Важной частью исследования является сравнение результатов полученных с различными конфигурациями сенсоров, чтобы определить, какие расположения сенсоров более эффективны для точного и быстрого контроля. ## Результаты Исследование показало, что размещение сенсоров в разных областях руки имеет существенное влияние на устойчивость и эффективность во время переориентации объектов. Например, сенсоры на кистях позволяют более точно определять момент прикосновения к объекту, что улучшает управление в течение задачи. В то же время, сенсоры на пальцах и локтях позволяют улучшить стабильность и точность, особенно при работе с объектами разных форм и размеров. Эксперименты также показали, что оптимальное размещение сенсоров зависит от характеристик объекта, который нужно переместить. ## Значимость Результаты этого исследования имеют значительное значение для разработки антропоморфных энд-иффекторов, особенно в задачах, требующих высокой точности и стабильности. Изучение различных конфигураций сенсоров позволяет оптимизировать контрольная систему, улучшая управляемость и эффективность в различных задачах. Этот подход также может быть применен в робототехнике, медицине, и других областях, где необходима точная реакция на контактные сигналы. ## Выводы Изучение различных конфигураций тактильных сенсоров в антропоморфных руках показало, что локальные сенсоры могут существенно улучши

Annotation:

In-hand manipulation tasks, particularly in human-inspired robotic systems, must rely on distributed tactile sensing to achieve precise control across a wide variety of tasks. However, the optimal configuration of this network of sensors is a complex problem, and while the fingertips are a common choice for placing sensors, the contribution of tactile information from other regions of the hand is often overlooked. This work investigates the impact of tactile feedback from various regions of the ...

ID: 2509.14984v1 cs.RO, cs.AI, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 ASTREA: Introducing Agentic Intelligence for Orbital Thermal Autonomy

2025-09-19

Авторы:

Alejandro D. Mousist

## Контекст Обеспечение автономных операций на борту космических аппаратов представляет одну из самых актуальных проблем в современном космонавтике. Одним из ключевых аспектов этой задачи является эффективное управление тепловыми ресурсами, которое требует достоверного и адаптивного контроля при минимальном потреблении ресурсов. Несмотря на то, что существуют технологии для управления тепловыми ресурсами, они часто требуют значительных вычислительных ресурсов и не вполне удовлетворяют требованиям минимализации отказов в условиях активного оперативного режима. В этом контексте проект ASTREA (Autonomous Spacecraft Thermal REgulation Agent) представляет собой крутой шаг вперед, поскольку предлагает решение, которое объединяет семантическую рациональность и адаптивный контроль в одной системе. ## Метод ASTREA широко использует технологии глубокого обучения, в частности, развитие Large Language Model (LLM) и распределенных систем рекомендаций. Основной инновацией является интеграция LLM-агента с реинфорсмент-контроллером в рамках асинхронной архитектуры. Эта конфигурация позволяет гибко адаптироваться к условиям реальных космических операций. Особенностью методологии является использование тренажерного центра с большим набором тестовых данных, позволяющих тренировать и проверять систему в условиях, наблюдаемых в космосе. Таким образом, ASTREA предлагает новый подход к космическим операциям, который включает в себя агентскую логику и рациональный подход к решению проблемы теплового регулирования. ## Результаты Проведенные эксперименты показали, что на главной платформе ASTREA, работающей на земле, LLM-агент значительно улучшает тепловую стабильность и снижает частоту нарушений. Он показал способность системы адаптироваться к нестандартным ситуациям, что демонстрирует мощность глубокого обучения в решении проблем управления космическими тепловыми ресурсами. Однако, при переходе на борт Международной Космической Станции (МКС), было выявлено некоторое снижение эффективности, связанное с задержками в обработке информации. Эти задержки становятся критичными в условиях быстрых тепловых циклов, которые характерны для спутников в низкую орбиту Земли (ЛОС). Таким образом, результаты показывают, что, несмотря на прогресс, есть технические вызовы, которые требуют улучшения. ## Значимость ASTREA может быть применена в широком кругу задач, связанных с космическими операциями, включая не только тепловое регулирование, но и другие аспекты автономного управления. Одним из основных преимущест

Annotation:

This paper presents ASTREA, the first agentic system deployed on flight-heritage hardware (TRL 9) for autonomous spacecraft operations. Using thermal control as a representative use case, we integrate a resource-constrained Large Language Model (LLM) agent with a reinforcement learning controller in an asynchronous architecture tailored for space-qualified platforms. Ground experiments show that LLM-guided supervision improves thermal stability and reduces violations, confirming the feasibility ...

ID: 2509.13380v1 cs.RO, cs.AI, cs.LG, cs.MA, cs.SY, eess.SY

arXiv PDF

📄 TreeIRL: Safe Urban Driving with Tree Search and Inverse Reinforcement Learning

2025-09-19

Авторы:

Momchil S. Tomov, Sang Uk Lee, Hansford Hendrago, Jinwook Huh, Teawon Han, Forbes Howington, Rafael da Silva, Gianmarco Bernasconi, Marc Heim, Samuel Findler, Xiaonan Ji, Alexander Boule, Michael Napoli, Kuo Chen, Jesse Miller, Boaz Floor, Yunqing Hu

#### Контекст На протяжении последних десятилетий, автоматизированные системы управления транспортом, такие как autopilots или планировщики для автономного вождения, являются центральной областью исследований в технике и искусственном интеллекте. Однако столкнуться с проблемами, такими как эффективность, безопасность и природность поведения, остается сложным заданием. Эти проблемы возникают в ситуациях, когда алгоритмы должны осуществлять рациональные решения в сложных и часто непредсказуемых условиях, таких как городский транспорт. TreeIRL предлагает решение этой проблемы, объединяя две мощные методологии: Monte Carlo tree search (MCTS) и inverse reinforcement learning (IRL). Это позволяет обеспечить безопасность, прогресс и комфорт вождения, а также естественность поведения в различных ситуациях. #### Метод TreeIRL сочетает в себе MCTS и IRL для выбора наиболее приемлемого плана движения. Алгоритм MCTS осуществляет поиск безопасных кандидатов траекторий движения, а IRL используется для оценки этих траекторий, нацеленной на то, чтобы выбрать самую "человеческую". В процессе работы, MCTS построит дерево возможных действий, а IRL оценит каждую траекторию на основе множества функций оценки. Этот подход позволяет TreeIRL генерировать планы движения, которые близки к человеческим в течение различных ситуаций на дорогах. Архитектура TreeIRL включает в себя не только эти два основных компонента, но и модели расширенного IRL, которые учитывают тонкие особенности поведения водителя. #### Результаты Планировщик TreeIRL был оценен в широком спектре ситуаций на дорогах. Набор экспериментов включал в себя городскую среду с тяжелым трафиком, сценарии с адаптивным управлением скоростью (adaptive cruise control), сценарии с нарушениями полосы (cut-ins) и ситуации с работой светофора. В симуляционных экспериментах, TreeIRL показал лучший результат в безопасности, прогрессе и комфорте. В реальных условиях, он был протестирован на более чем 500 миль в метрополии Лас-Вегаса. Эксперименты показали, что TreeIRL избегает ошибок, которые часто допускаются другими планировщиками, и обеспечивает удовлетворительные результаты в плане human-likeness. #### Значимость Технология TreeIRL может быть применена в различных сценариях, включая вождение в городах, а также в задачах, требующих быстрого и эффективного решения. Одним из основных преимуществ является его безопасность и естественность поведения. Потенциал TreeIRL заключается в том, что он может использоваться в сочетании с другими методами, такими как reinforcement learning и imitation learning, для расширения возможностей в области планирования автономного вождения.

Annotation:

We present TreeIRL, a novel planner for autonomous driving that combines Monte Carlo tree search (MCTS) and inverse reinforcement learning (IRL) to achieve state-of-the-art performance in simulation and in real-world driving. The core idea is to use MCTS to find a promising set of safe candidate trajectories and a deep IRL scoring function to select the most human-like among them. We evaluate TreeIRL against both classical and state-of-the-art planners in large-scale simulations and on 500+ mile...

ID: 2509.13579v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Geometric Red-Teaming for Robotic Manipulation

2025-09-18

Авторы:

Divyam Goel, Yufei Wang, Tiancheng Wu, Guixiu Qiao, Pavel Piliptchak, David Held, Zackory Erickson

## Контекст Роботизированные манипуляторы широко используются в различных сферах, от промышленных цехов до медицинских устройств. Однако стандартные протоколы оценки политик манипуляций часто ограничиваются оценкой поведения систем на тестовых наборах данных, которые являются входными в рамки распространенных аспектов задач. Это способствует тому, что системы могут оказаться уязвимыми к нестандартным условиям, недооценивая их устойчивость. Определение и оценка таких возможных уязвимостей являются важным аспектом создания надежных роботизированных систем. Мы предлагаем Geometric Red-Teaming (GRT), новый фреймворк, который автоматически генерирует геометрические переменные, нацеленных на отклонение результатов манипуляции, чтобы открыть новые аспекты роботизированных систем. ## Метод Мы представляем Geometric Red-Teaming (GRT), что является подходом к оценке уязвимостей роботизированных политик манипуляций через геометрические переменные. Наша методология включает в себя градиентный метод, основанный на оптимизации, и использует технологии, которые автоматически генерируют "CrashShapes" - структурно валидные деформации 3D-моделей, которые могут вызвать падение политики манипуляций. Метод интегрирует объемный полевой подход с градиентным симулятором в цикле, чтобы найти деформации, максимально влияющие на поведение системы. Мы применяем GRT к задачам вставки, артикуляции и хватания, где он постоянно открывает уязвимости, которые могут быть пропущены статическими методами. Это позволяет улучшить устойчивость политик манипуляций. ## Результаты Мы проверили GRT на широком спектре задач, включая вставку, артикуляцию и хватание предметов. Наши результаты показывают, что GRT постоянно выявляет уязвимости в политиках манипуляций, которые могут вызвать серьезные неудачи. Мы успешно генерируем CrashShapes, которые приводят к падению поведения системы. Также, мы продемонстрировали, что целевая оптимизация CrashShapes, которую мы назвали "blue-teaming", позволяет улучшить устойчивость политик манипуляций до 60% на этих деформациях. Мы также провели реальные эксперименты с использованием робота, подтвердив, что GRT может создавать значительные обнаружения в реальных условиях. ## Значимость GRT может применяться в различных областях, включая повышение устойчивости роботов в промышленных приложениях, мобильных роботах, а также в сферах, где устойчивость к нестандартным условиям критична. Этот подход может помочь создавать более надежные системы манипуляций, улучшая их поведение в нестандартных ситуациях. Это прод

Annotation:

Standard evaluation protocols in robotic manipulation typically assess policy performance over curated, in-distribution test sets, offering limited insight into how systems fail under plausible variation. We introduce Geometric Red-Teaming (GRT), a red-teaming framework that probes robustness through object-centric geometric perturbations, automatically generating CrashShapes -- structurally valid, user-constrained mesh deformations that trigger catastrophic failures in pre-trained manipulation ...

ID: 2509.12379v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Pre-trained Visual Representations Generalize Where it Matters in Model-Based Reinforcement Learning

2025-09-18

Авторы:

Scott Jones, Liyou Zhou, Sebastian W. Pattinson

## Контекст Моделирование визуальных представлений и их использование в научных и практических задачах, включая робототехнику, задают высокие требования к устойчивости и гибкости алгоритмов. Одна из основных проблем заключается в том, что традиционные подходы, когда политика и кодировщик визуальных данных обучаются одновременно, часто недостаточно устойчивы к изменениям визуальной среды. Это приводит к снижению качества решения задач. Недавние работы показали, что предварительно обученные визуальные модели (PVMs) могут улучшить устойчивость в моделировании свободных от моделирования (MFRL). Однако в моделировании на основе моделей (MBRL) возникла противопоказательная ситуация, когда PVMs оказались менее эффективными. Наша исследовательская задача состоит в том, чтобы рассмотреть эту противоречивную ситуацию и изучить, в каких случаях PVMs могут быть эффективными в MBRL. ## Метод Чтобы изучить эффективность PVMs в MBRL, мы проводили эксперименты с использованием сценариев сильных визуальных доменных сдвигов. Мы сравнивали результаты PVMs с моделями, обучаемыми с нуля. Для контроля уровня допущения использовалась методика полного и частичного файн-тюнинга PVM. Мы использовали выборки данных, отражающие сильные изменения в визуальных сценариях, чтобы оценить способность моделей адаптироваться к изменениям. Эксперименты проводились с использованием тестовых сред, в которых были внесены значительные изменения в цветовом содержании, освещении и других визуальных параметрах. ## Результаты Наши результаты показали, что в ситуациях сильных визуальных доменных сдвигов PVMs значительно превосходят модели, обучаемые с нуля. Особенно выдающимся был результат в сценариях, где визуальная среда была полностью изменена. Мы также выявили, что частичный файн-тюнинг PVM позволяет сохранить высокий уровень производительности в задачах, которые подвергались самым сильным сдвигам в домене. Это свидетельствует о том, что PVMs могут быть эффективными для обеспечения устойчивости визуальных политик в моделировании на основе моделей, даже при существенных изменениях визуальных условий. ## Значимость Наши находки имеют значительное значение для развития робототехники и роботов, которые должны адаптироваться к изменениям визуальных условий в реальном мире. PVMs могут использоваться для улучшения моделей MBRL в таких областях, как автоматизированные системы управления, навигация внешних роботов и многие другие. Этот подход обеспечивает значительное увеличение устойчивости вывода, что делает визуальные модели более надежными для применения в реальных условиях. Это может упростить развитие робото

Annotation:

In visuomotor policy learning, the control policy for the robotic agent is derived directly from visual inputs. The typical approach, where a policy and vision encoder are trained jointly from scratch, generalizes poorly to novel visual scene changes. Using pre-trained vision models (PVMs) to inform a policy network improves robustness in model-free reinforcement learning (MFRL). Recent developments in Model-based reinforcement learning (MBRL) suggest that MBRL is more sample-efficient than MFRL...

ID: 2509.12531v1 cs.RO, cs.AI, cs.LG, cs.SY, eess.SY, 68T07, 68T40 (Primary) 93C85, 62L20 (Secondary), I.2.6; I.2.9; I.4.8; F.2.2

arXiv PDF

📄 Force-Modulated Visual Policy for Robot-Assisted Dressing with Arm Motions

2025-09-18

Авторы:

Alexis Yihong Hao, Yufei Wang, Navin Sriram Ravie, Bharath Hegde, David Held, Zackory Erickson

#### Контекст Robot-assisted dressing является важной задачей, способной значительно улучшить жизнь людей с мобильными ограничениями. Однако реализация этой задачи требует решения значительных вызовов. Чтобы обеспечить эффективность и комфорт при одевании, робот должен уметь справляться с труднодоступными деформируемыми одеждой, аккуратно применять силы и адаптироваться к движениям тела человека. Однако многие предыдущие работы делали существенные упрощения, такие как статичность тела человека во время одевания, что ограничивало возможности применения таких систем в реальной жизни. #### Метод В настоящей работе разрабатывается система контроля робота, которая может работать в условиях частичного визуального восприятия и корректироваться в реальном времени на основе сигналов силового воздействия. За основу была взята методология обучения с подкреплением в симуляционной среде, где был обучен общий параметрический политический класс, который может работать в условиях частичных визуальных входных данных. Для улучшения точности и безопасности в реальном мире были использованы методы оптимизации, которые включали локальную оптимизацию политики на основе многоmodal'ного воздействия (визуальных и силовых сигналов) и гибкого алгоритма онлайн-обучения. #### Результаты Опытные исследования были проведены в двух сферах: в симуляционной среде с использованием замкнутых ответных моделей тела и в реальном мире с участием 12 человек в течение 264 циклов одевания. Результаты показали, что система может успешно одевать две длинно sleev-одежды на людей, адаптируясь к разным движениям рук. Это превосходит другие подходы в степени комфорта и успешности выполнения задачи. #### Значимость Предлагаемый подход имеет широкие перспективы в использовании в ситуациях, где нужна роботизированная помощь в одевании, например, для пожилых людей или людей с ограниченным двигательным функционированием. Он улучшает безопасность и комфорт при одевании благодаря тому, что адаптируется к движениям тела и реагирует на посторонние воздействия визуально и силово. #### Выводы Разработанная система определяет новый путь в области роботизированных систем для одевания, способных адаптироваться к реальным условиям. Будущие работы будут сфокусированы на расширении возможностей системы, в том числе увеличении количества типов одежды, которые она может одевать, и расширении сценариев применения в реальной жизни.

Annotation:

Robot-assisted dressing has the potential to significantly improve the lives of individuals with mobility impairments. To ensure an effective and comfortable dressing experience, the robot must be able to handle challenging deformable garments, apply appropriate forces, and adapt to limb movements throughout the dressing process. Prior work often makes simplifying assumptions -- such as static human limbs during dressing -- which limits real-world applicability. In this work, we develop a robot-...

ID: 2509.12741v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 RoVerFly: Robust and Versatile Learning-based Control of Quadrotor Across Payload Configurations

2025-09-17

Авторы:

Mintae Kim, Jiaze Cai, Koushil Sreenath

#### Контекст Quadrotors являются одним из наиболее распространенных видов воздушных роботов, благодаря своей высокой маневренности и мощности. Однако, их динамика характеризуется сложностью из-за нелинейности и подчиненности, что делает задачу точного следования маршруту сложной. Это становится еще более вызовом при работе с кабельно-подвешенными нагрузками, которые вносят дополнительные степени свободы и гибридные свойства. Традиционные модели-ориентированные методы, хотя обеспечивают стабильность, часто требуют тщательной настройки и не отвечают на изменения конфигурации, такие как добавление или удаление нагрузки, изменение массы или длины кабеля. Учитывая это, необходимо создать универсальный контроллер, который мог бы справиться с этими изменениями без постоянного подготовки. #### Метод Мы предлагаем RoVerFly, универсальную основу управления на основе обучения с подкреплением (RL), которой разработана для точного отслеживания маршрута в различных конфигурациях. Работает она как для стандартных quadrotors, так и для систем кабельно-подвешенных перегрузок. Обучение проводится с использованием техники доменной и задачной разнообразия, что позволяет политике RL быть прочной по отношению к различным ударным факторам и динамическим изменениям. Мы используем архитектуру, которая сохраняет фундаментальные принципы обратного управления, чтобы обеспечить интерпретируемость и стабильность. Это позволяет RoVerFly адаптироваться динамически к изменениям нагрузки и динамики. #### Результаты Мы проводим эксперименты для установления силы и гибкости RoVerFly. Эксперименты включают системы с разными весами, габаритами кабелей и ударными факторами. Наши результаты показывают, что RoVerFly может обеспечивать точное следование маршрутам во всех настройках без необходимости переключаться между различными контроллерами. Также демонстрируется способность политики RL работать в различных условиях, включая отсутствие нагрузки и изменение массы кабеля. Это доказывает высокую универсальность и разрушающую прочность нового подхода. #### Значимость Система RoVerFly имеет широкое применение в различных сферах, таких как доставка, Инспекция, и роботизированные системы. Она предлагает большую гибкость и стабильность по сравнению с традиционными системами. Еще одно преимущество - это отсутствие необходимости в постоянной подготовке или сбросе контроллера при изменении нагрузки. Это может привести к улучшению производительности в реальном времени и уменьшению времени настройки. #### Выводы Результаты показывают, что RoVerFly является мощным инструментом для точного следования маршруту в сист

Annotation:

Designing robust controllers for precise, arbitrary trajectory tracking with quadrotors is challenging due to nonlinear dynamics and underactuation, and becomes harder with flexible cable-suspended payloads that introduce extra degrees of freedom and hybridness. Classical model-based methods offer stability guarantees but require extensive tuning and often do not adapt when the configuration changes, such as when a payload is added or removed, or when the payload mass or cable length varies. We ...

ID: 2509.11149v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 RAPTOR: A Foundation Policy for Quadrotor Control

2025-09-17

Авторы:

Jonas Eschmann, Dario Albani, Giuseppe Loianno

## Контекст Современные робот-дроны (quadrotors) требуют ценности данных и специализированных конфигураций для каждой конкретной среды и задачи. Отличие между моделью и реальным воздушным траекториями (Sim2Real-gap) может привести к сбою системы. Однако человеческий робот может переносить свои навыки с одного инструмента на другой с минимальными изменениями. Работа RAPTOR (Reusable Adaptive Policy for Trajectory Optimization and Robustness) направлена на создание универсальной политики для управления различными роботами-дронами. ## Метод RAPTOR основывается на методе Meta-Imitation Learning, в котором для каждого из 1000 моделей дронов создается отдельный тестовый тестовый тестовый тестовый тест. Эти тестовые оценки объединяются в общую политику, которая учится внедряться в новые ситуации. Основная техника — воспользоваться повторностью в скрытой свертке, чтобы позволить политике значительно уменьшить требования к памяти и вычислительным ресурсам. Результатом является политика с 2084 параметрами, которая может адаптироваться сразу к многим дронам. ## Результаты Изучено 10 реальных моделей дронов, весом от 32 г до 2,4 кг, с разными типами двигателей (шумные vs. бесшумные), рамками (мягкие vs. жесткие), пропеллерами (2/3/4-лопастные) и контроллерами (PX4, Betaflight, Crazyflie, M5StampFly). На основе этих моделей проведены тесты по траектории слежения, работе внутри/вне зала, влазье в ветру, тыкании и использовании разных пропеллеров. Отмечено, что политика RAPTOR не только достигает нулевого-шота подготовки, но и устойчиво выполняет задачи в разных условиях. ## Значимость Работа RAPTOR открывает новые перспективы для широкого применения дронов в разных сферах. Универсальная политика RAPTOR уменьшает необходимость в пересоздании и повторном обучении под различные модели дронов, что облегчает их использование в практических задачах. Это может привести к экономии ресурсов и увеличению эффективности в робототехнических приложениях. ## Выводы Результаты показывают, что RAPTOR является эффективным методом для создания универсальной политики, основанной на нейронной сети, для контроля различных роботов-дронов. Будущие исследования будут привлечь внимание к более сложным сценариям и увеличению емкости политики, чтобы обеспечить еще большую гибкость и надежность.

Annotation:

Humans are remarkably data-efficient when adapting to new unseen conditions, like driving a new car. In contrast, modern robotic control systems, like neural network policies trained using Reinforcement Learning (RL), are highly specialized for single environments. Because of this overfitting, they are known to break down even under small differences like the Simulation-to-Reality (Sim2Real) gap and require system identification and retraining for even minimal changes to the system. In this work...

ID: 2509.11481v1 cs.RO, cs.AI, cs.LG

arXiv PDF

1
2
6
7
8
9
10
11

Показано 71 - 80 из 104 записей