📚 Саммари научных статей из arXiv

Найдено 125 результатов по запросу 'cs.RO, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Dynamic Objects Relocalization in Changing Environments with Flow Matching

2025-09-24

Авторы:

Francesco Argenziano, Miguel Saavedra-Ruiz, Sacha Morin, Daniele Nardi, Liam Paull

#### Контекст Область расположения объектов в условиях изменяющихся окружений представляет собой ключевую проблему в робототехнике, особенно при работе в домашних или складских средах. Там, где действия людей приводят к динамическим перемещениям предметов, необходимо находить эти предметы снова, чтобы завершить задачи, что увеличивает риск провала. Эта проблема становится важной для длительного хода заданий, таких как домашние уборка, подгрузка продуктов или упаковка. Однако, даже если движения предметов во многом определяются человеческими предпочтениями и типичными шаблонами поведения, эти характеристики часто не учитываются в существующих подходах. Мы предполагаем, что эти сигналы могут использоваться для точного переноса предметов в пространстве и времени, без необходимости полного пересканирования среды. #### Метод Мы предлагаем FlowMaps, модель, основанную на Flow Matching, для переноса предметов в пространстве и времени. Flow Matching — это метод, использующий оптимальные маршруты для решения задач с потоками данных. В нашей модели мы применяем его для интерпретации данных, подтверждающих движения предметов в сцене, и для выявления самых вероятных мест их расположения. FlowMaps оптимизируется с помощью градиентного подъема, чтобы производить наиболее вероятный результат, опираясь на входные данные о паттернах движения. Метод позволяет создавать многомодальные прогнозы местоположения предметов в любой момент времени. #### Результаты Мы проводили эксперименты на двух наборах данных: 1) симуляционном, в котором производились 400 сцен с рандомными перемещениями предметов, и 2) реальном, с данными сбора, в которых были зафиксированы движения подгрузки продуктов. Мы сравнили FlowMaps с другими подходами, такими как модели скрытых Markov-процессов и глубокие нейросетевые модели. Наши результаты показали, что FlowMaps достигает лучшей точности в поиске предметов, особенно в сценах с большим количеством перемещений. Также мы выявили, что FlowMaps эффективен, даже при небольшом количестве данных об истории движения предметов. #### Значимость Предлагаемый подход имеет широкие перспективы в робототехнике, особенно в проблемах долгосрочного распознавания и повторного размещения предметов в средах, где движение предметов определяется людьми. Возможность FlowMaps использовать реплицируемые шаблоны движения может уменьшить время поиска предметов и повысить эффективность задач, таких как доставка, организация складских процессов или упаковка. Более того, этот подход может иметь полезные приложения в сферах, где требуется мониторинг и перемещение предметов в реальном времени. #### В

Annotation:

Task and motion planning are long-standing challenges in robotics, especially when robots have to deal with dynamic environments exhibiting long-term dynamics, such as households or warehouses. In these environments, long-term dynamics mostly stem from human activities, since previously detected objects can be moved or removed from the scene. This adds the necessity to find such objects again before completing the designed task, increasing the risk of failure due to missed relocalizations. Howev...

ID: 2509.16398v1 cs.RO, cs.LG

arXiv PDF

📄 End-to-end RL Improves Dexterous Grasping Policies

2025-09-24

Авторы:

Ritvik Singh, Karl Van Wyk, Pieter Abbeel, Jitendra Malik, Nathan Ratliff, Ankur Handa

## Контекст Декстерозная хватка — это ключевой аспект робототехнических систем, который позволяет манипулятору успешно прихватить предметы различных форм и текстур. Однако достижение высокой точности в декстерозной хватке с использованием изображений — задача, требующая оптимального баланса между эффективностью и точностью. Традиционные подходы часто требуют разделения обучения: начальная стадия обучения производится в виртуальной среде, а последующая — на реальном оборудовании. Такой подход имеет ряд ограничений, включая несовместимость запатентованных моделей и ограниченный размер данных. Этот рабочий ход не только затратный, но и неэффективен. Наша мотивация заключается в развитии методов, позволяющих эффективно обучать декстерозные хватки с использованием изображений в виртуальной среде, с меньшим количеством переключений между реальной и виртуальной средами. ## Метод Мы предлагаем использовать **энд-то-энд RL (End-to-End Reinforcement Learning)** для обучения декстерозных хватков на основе изображений, что позволяет сразу оптимизировать все параметры системы в рамках единой модели. Мы развиваем метод **Disaggregated RL**, который разделяет симулятор и агента RL на разные GPU, чтобы увеличить пропускную способность системы. Это позволяет обучать больше политик одновременно, увеличивая пороговый порог для трехмерного визуального окружения. Кроме того, мы изучаем различные стратегии дистилляции, включая дистилляцию depth-политик в stereo RGB-политики, чтобы улучшить поведение в реальной среде. ## Результаты Мы выполняем эксперименты с нашим подходом на различных симуляционных и реальных средах. Мы сравниваем нашу стратегию с традиционными подходами, в том числе использованием стандартных методов дистилляции или обучения с делением на стадии. Результаты показывают, что наш подход дает значительные улучшения в точности хватки и стабильности, особенно при работе в реальной среде. Например, в одном из экспериментов, мы увеличили количество успешных хватков в реальном мире на 20% в сравнении с базовым методом. Это указывает на то, что наше решение позволяет эффективнее использовать ресурсы и улучшает общую производительность. ## Значимость Наш подход имеет широкое применение в робототехнике, в частности при использовании декстерозных роботов в промышленности, медицине и домашних роботах. Он позволяет улучшить точность хватки и снизить время, необходимое для обучения, что значительно снижает затраты на разработку и моделирование. Благодаря дистилляции depth-политик в stereo RGB-политики, мы также создаем политики, которые могут работать в ре

Annotation:

This work explores techniques to scale up image-based end-to-end learning for dexterous grasping with an arm + hand system. Unlike state-based RL, vision-based RL is much more memory inefficient, resulting in relatively low batch sizes, which is not amenable for algorithms like PPO. Nevertheless, it is still an attractive method as unlike the more commonly used techniques which distill state-based policies into vision networks, end-to-end RL can allow for emergent active vision behaviors. We ide...

ID: 2509.16434v1 cs.RO, cs.LG

arXiv PDF

📄 ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

2025-09-24

Авторы:

Bojan Derajić, Sebastian Bernhard, Wolfgang Hönig

## Контекст Современные автоматизированные системы, такие как роботы и автономные транспортные средства, требуют надежных методов управления для обеспечения безопасности и надежности. Control barrier functions (CBFs) широко применяются для решения задач безопасного управления в ситуациях, где существуют жесткие ограничения на состояние системы. Однако дизайн CBFs часто требует значительных усилий и является нетривиальной задачей. В этой работе авторы рассматривают проблему применения CBFs в частично наблюдаемых средах и применении их к решению задач, где необходимо учитывать дополнительные наблюдаемые параметры. Известно, что CBFs могут быть неэффективны в таких условиях, поэтому целью данной работы является разработка метода, обеспечивающего более точное учети этих факторов и повышающее безопасность системы. ## Метод В статье предлагается метод, основанный на Hamilton-Jacobi (HJ) reachability analysis, который позволяет приближенно определять максимально безопасные множества для системы. Для этого используется архитектура на основе hypernetwork, которая позволяет настраивать CBFs в зависимости от наблюдаемых параметров окружения. Эта архитектура допускает настройку в реальном времени на основе изменяющихся условий. Метод также включает новые технические решения для точного моделирования и оценки безопасных множеств в пространстве состояний. Эти решения основываются на свойствах HJ-функций, которые гарантируют, что предсказанные безопасные множества не будут пересекаться с ограничивающими условиями. ## Результаты Для проверки эффективности предлагаемого подхода проводились эксперименты в симуляторе и на реальном оборудовании. Были использованы данные из реальных ситуаций, включая работу с грунтовым роботом и квадрокоптером. В результате экспериментов, проведенных в симуляторе, был показан увеличение успешности системы в сравнении с традиционными CBFs. Также было продемонстрировано, что подход хорошо работает в условиях изменения окружения и применимости к неизвестным средам. Эксперименты на живом оборудовании подтвердили эти результаты, показав, что метод не только эффективен, но и может быть применен в реальных условиях, даже при ограниченной наличием информации. ## Значимость Предложенный подход может быть применен в различных областях, где необходимо обеспечить безопасность, включая автоматизированные системы, транспортные средства, а также системы с условиями высокой надежности. Одним из основных преимуществ является возможность учета дополнительных наблюдаемых параметров в модели, что позволяет значительно повысить безопасность и надежность. Этот подход также име

Annotation:

Control barrier functions (CBFs) have been demonstrated as an effective method for safety-critical control of autonomous systems. Although CBFs are simple to deploy, their design remains challenging, motivating the development of learning-based approaches. Yet, issues such as suboptimal safe sets, applicability in partially observable environments, and lack of rigorous safety guarantees persist. In this work, we propose observation-conditioned neural CBFs based on Hamilton-Jacobi (HJ) reachabili...

ID: 2509.16614v1 cs.RO, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Learning and Optimization with 3D Orientations

2025-09-24

Авторы:

Alexandros Ntagkas, Constantinos Tsakonas, Chairi Kiourt, Konstantinos Chatzilygeroudis

## Контекст Исследование 3D-ориентаций во многих областях, включая робототехнику и автоматизацию, является ключевым элементом для решения задач, в которых необходимо учитывать состояние инерции объектов или динамические процессы. Однако существует множество способов представления таких ориентаций, каждый из которых имеет определенные ограничения и уникальные особенности. Выбор наиболее подходящего представления для конкретной задачи часто представляет собой трудное задание, и существуют противоречивые мнения о том, какое представление лучше подходит для конкретной области задач. Даже более сложная ситуация возникает при работе с задачами, где требуется учитывать ориентации как входные, так и выходные параметры при обучении или оптимизации. В данной работе мы стремимся создать полный и унифицированный обзор всех доступных представлений 3D-ориентаций, включая технические решения и математические алгоритмы, и оценить их эффективность в практических сценариях. ## Метод Мы применяем универсальную методологию для изучения и сравнения представлений 3D-ориентаций в различных сценариях. Наши эксперименты охватывают 4 ключевых области: 1) **оптимизация напрямую**, где мы используем оптимизационные методы для нахождения решений в пространстве 3D-ориентаций; 2) **имитационное или супервизированное обучение с нейронным контроллером**, где мы обучаем модели, которые могут копировать или улучшать поведение в задачах с ориентациями; 3) **рекорд-ориентированное обучение с подкреплением**, где система учится взаимодействовать с окружением, оптимизируя поведение в задачах с ориентациями; 4) **дифференциальная динамическая оптимизация**, где мы использваем методы оптимизации, основанные на динамических моделях. Для каждого сценария мы используем различные математические представления, включая векторы, матрицы, комплексные числа и тензоры, а также методы алгебры Lie-групп. Эти методы позволяют более точно анализировать и сравнивать эффективность разных подходов. ## Результаты Выполнены сравнительные эксперименты, используя различные методы и представления 3D-ориентаций в реальных задачах. Мы экспериментировали с различными сценариями: изучение оптимальных путей, управление роботами в трехмерном пространстве и оптимизацию динамических систем. Наши результаты показали, что некоторые представления ориентаций дают более точные и быстрые результаты в зависимости от конкретной задачи. Например, в случае имитационного обучения нейронных сетей, представление в виде матриц оказалось более эффективным, в то время как в задачах оптими

Annotation:

There exist numerous ways of representing 3D orientations. Each representation has both limitations and unique features. Choosing the best representation for one task is often a difficult chore, and there exist conflicting opinions on which representation is better suited for a set of family of tasks. Even worse, when dealing with scenarios where we need to learn or optimize functions with orientations as inputs and/or outputs, the set of possibilities (representations, loss functions, etc.) is ...

ID: 2509.17274v1 cs.RO, cs.LG, math.OC

arXiv PDF

📄 Prepare Before You Act: Learning From Humans to Rearrange Initial States

2025-09-24

Авторы:

Yinlong Dai, Andre Keyser, Dylan P. Losey

## Контекст Imitation learning (IL) широко применяется для сложных манипулятивных задач, но сталкивается с ограничениями при работе с выходными данными, находящимися вне распределения обучающей выборки. Например, IL-политики неэффективны при работе с нестандартными начальными состояниями, такими как неожиданная позиция объекта или его полное или частичное окклюзирование. В таких ситуациях необходимы дополнительные демонстрации, чтобы IL-системы могли обеспечить высокую универсальность и надежность. Подобные ситуации часто встречаются в повседневной жизни: люди отрегулировывают окружающую среду для упрощения выполнения задачи. Например, вращают кружку для того, чтобы легче было захватить его, или двигают препятствие, чтобы получить доступ к цели. Мы предлагаем моделировать подобное поведение у роботов, чтобы они могли подготавливать окружение перед выполнением задачи. ## Метод Мы предлагаем ReSET — алгоритм, который автоматически редактирует сцену перед тем, как запустить политику IL. Решение включает следующие этапы: 1. **Диагностика нестандартного начального состояния**: Мы оцениваем, насколько состояние входит в распределение, задействуя task-agnostic human teleoperation data и action-agnostic human videos. 2. **Предсказание подходящих действий**: Мы моделируем действия, которые мог бы применить человек для переразмещения объектов и упрощения задачи. 3. **Реализация роботом**: Мы преобразуем предложенные действия в примитивы роботом, используя существующую модель политики IL. Эта стратегия позволяет сократить общее число демонстраций, необходимое для устойчивой и общительной работы. ## Результаты Мы проводили эксперименты на виртуальных и реальных сценах с различными задачами манипуляции. Результаты показывают, что ReSET позволяет улучшить универсальность и надежность IL-политик при одинаковом объеме обучающих данных. Мы сравнивали нашу модель с Diffusion Policies, VLAs и другими базовыми алгоритмами. В результате ReSET показала более высокую точность и большую устойчивость при выполнении задач в нестандартных начальных состояниях. ## Значимость Вычислительные эксперименты и практические исследования показали, что ReSET может быть применен в многочисленных манипулятивных задачах, включая домашние и промышленные сценарии. Основные преимущества: - Улучшенная универсальность IL-политик. - Относительно низкий затратный подход для достижения высокой надежности. - Увеличение гибкости в работе в условиях нестандартных начальных состояний. ## Выводы Мы представили ReSET — алгоритм, который мотивирует роботы воспроизводить роль человека в подготовке окружающей среды для упрощения задач. Наши теоретические

Annotation:

Imitation learning (IL) has proven effective across a wide range of manipulation tasks. However, IL policies often struggle when faced with out-of-distribution observations; for instance, when the target object is in a previously unseen position or occluded by other objects. In these cases, extensive demonstrations are needed for current IL methods to reach robust and generalizable behaviors. But when humans are faced with these sorts of atypical initial states, we often rearrange the environmen...

ID: 2509.18043v1 cs.RO, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Scalable Multi-Objective Robot Reinforcement Learning through Gradient Conflict Resolution

2025-09-20

Авторы:

Humphrey Munn, Brendan Tidd, Peter Böhm, Marcus Gallagher, David Howard

## Контекст В современной робототехнике использование Reinforcement Learning (RL) для обучения управляющих контроллеров для роботов является востребованным подходом. Однако, многие задачи требуют учета нескольких целей, которые представляют собой вектор величин. Агрегирование этих целей в один скалярный признак часто приводит к проблемам, таким как затрудненная настройка параметров, устойчивость к локальным оптимумам и повышенная сложность оптимизации. Эти ограничения ограничивают степень использования RL в реальных задачах, где необходимо учитывать несколько задач одновременно. Целью данной работы является развитие методов, позволяющих эффективно работать с несколькими целями, обеспечивая устойчивость и эффективность алгоритмов RL в робототехнике. ## Метод Разработанный подход, GCR-PPO, является модификацией метода Proximal Policy Optimization (PPO), добавляющей в него возможность обрабатывать несколько целей. Основой GCR-PPO лежит метод декомпозиции градиентов задач. В этой модели используется многоголоская критическая сеть, которая разделяет обучение на несколько отдельных целей. Для каждой задачи рассчитывается свой градиент, позволяя алгоритму разрешать конфликты между целями. Это позволяет уменьшить конфликты в градиентах, обеспечивая устойчивость и эффективность обучения. Также в алгоритм внедрены механизмы для управления приоритетами целей, что дает возможность сконцентрироваться на наиболее важных задачах. ## Результаты Для оценки GCR-PPO проводились эксперименты на нескольких стандартных наборах данных, включая IsaacLab, который позволяет моделировать задачи манипуляции и локамоции. Результаты показали, что GCR-PPO показывает высокую степень скейлируемости и эффективности, сравнимой с традиционными методами PPO, но с значительно меньшим риском застревания в локальных оптимумах. Также было проведено сравнение с аналогичными методами, включая Parallel PPO. Главным положительным результатом является то, что GCR-PPO позволяет лучше учитывать конфликты между целями, что приводит к более лучшей точности и стабильности результатов, особенно в случае задач с высоким конфликтом между целями. ## Значимость Результаты показывают, что GCR-PPO может быть применен в различных областях робототехники, где требуется учет нескольких целей. Это включает задачи манипуляции, локамоции и другие, где необходима высокая точность и устойчивость. Главные преимущества GCR-PPO заключаются в том, что он решает проблему конфликта градиентов, что позволяет эффективно обучать контроллеры, не требуя ручной настройки параметров. Это может

Annotation:

Reinforcement Learning (RL) robot controllers usually aggregate many task objectives into one scalar reward. While large-scale proximal policy optimisation (PPO) has enabled impressive results such as robust robot locomotion in the real world, many tasks still require careful reward tuning and are brittle to local optima. Tuning cost and sub-optimality grow with the number of objectives, limiting scalability. Modelling reward vectors and their trade-offs can address these issues; however, multi-...

ID: 2509.14816v1 cs.RO, cs.LG

arXiv PDF

📄 Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale

2025-09-20

Авторы:

Tobias Jülg, Pierre Krack, Seongjin Bien, Yannik Blei, Khaled Gamal, Ken Nakahara, Johannes Hechtl, Roberto Calandra, Wolfram Burgard, Florian Walter

## Контекст В последние годы исследования в области робототехники значительно продвинулись благодаря использованию общих, generalist policy, которые упрощают и ускоряют процесс обучения роботов. Однако, существуют ряд проблем, связанных с традиционными фреймворками, которые недостаточно гибки и направлены на специфические задачи. Эти ограничения приводят к трудностям в настройке и переходе от симуляции к реальному миру. Эти проблемы вызывают необходимость в разработке более удобных и мощных средств для эффективной работы с обучением роботов. Объектом исследования является создание модульного и легко расширяемого фреймворка, который может обеспечить эффективное обучение роботов с масштабируемыми generalist policy. ## Метод Robot Control Stack (RCS) представляет собой модульную и легко расширяемую архитектуру, которая предоставляет унифицированный интерфейс для симуляции и реальных роботов. Основные принципы дизайна RCS включают: 1. **Модульность**: Архитектура разделена на слои, что позволяет легко добавлять новые компоненты без изменения основного фреймворка. 2. **Унифицированный интерфейс**: Архитектура обеспечивает единообразный подход для работы с реальными и симулированными роботами. 3. **Масштабируемость**: Фреймворк поддерживает обучение огромных общих политик для роботов с помощью машинного обучения. 4. **Простота**: Фреймворк имеет минимальный набор зависимостей и удобный интерфейс для пользователя. RCS также включает в себя систему оценки, которая позволяет измерить производительность и качество работы роботов в реальном мире и в симуляции. ## Результаты В ходе исследования были проведены несколько экспериментов, используя множество различных роботов и средств обучения. Основные результаты включают: 1. **Оценка производительности**: Был проведен подробный анализ того, насколько эффективно RCS поддерживает обучение различных роботов в разных условиях. 2. **Sim-to-Real transfer**: Было продемонстрировано, насколько хорошо RCS позволяет переходить от симуляции к реальному миру. 3. **Оценка Pi Zero, OpenVLA и Octo**: Изучено, насколько эффективно эти модели работают на разных роботах в разных условиях. ## Значимость RCS представляет собой значительный прорыв в области обучения роботов. Он предоставляет широкие возможности для разработчиков и исследователей, упрощая и ускоряя процессы. Его можно применять в различных областях, включая: 1. **Индустрия**: Эффективное обучение роботов для производственных задач. 2. **Медицина**: Робототехнические системы в медицинских операциях. 3. **Домашний сектор**: Использова

Annotation:

Vision-Language-Action models (VLAs) mark a major shift in robot learning. They replace specialized architectures and task-tailored components of expert policies with large-scale data collection and setup-specific fine-tuning. In this machine learning-focused workflow that is centered around models and scalable training, traditional robotics software frameworks become a bottleneck, while robot simulations offer only limited support for transitioning from and to real-world experiments. In this wo...

ID: 2509.14932v1 cs.RO, cs.LG

arXiv PDF

📄 AnoF-Diff: One-Step Diffusion-Based Anomaly Detection for Forceful Tool Use

2025-09-20

Авторы:

Yating Lin, Zixuan Huang, Fan Yang, Dmitry Berenson

#### Контекст В данной работе рассматривается проблема аномалий в области здравоохранения, где необходимо отслеживать и анализировать данные сенсоров в реальном времени для выявления нестандартных ситуаций. Такие задачи ключевой важности для обнаружения неблагоприятных событий, таких как выход за пределы нормального диапазона значений или появление неожиданных характеристик. Несмотря на прогрессы в области машинного обучения, применение существующих методов к данным сенсоров часто сталкивается с проблемами, такими как влияние шума, изменения характера данных в зависимости от ситуации или окружения. Целью данного исследования является разработка более точного и устойчивого к шумам метода для определения аномалий в реальном времени. #### Метод Разработанный подход AnoF-Diff основан на модели диффузии, которая позволяет извлекать сигнатуры данных сенсора, относящиеся к силе и тору, из потоковых данных. Метод включает несколько ключевых этапов: 1. Диффузионная модель применяется для выделения признаков силы и торса из наблюдаемых временных рядов. 2. Извлеченные признаки используются для конструирования модели, отвечающей за прогнозирование поведения в "нормальных" условиях. 3. Аномальные ситуации определяются как значительные отклонения от предсказанных значений. Важной особенностью данного подхода является использование одношагового диффузионного метода, который позволяет эффективно обрабатывать данные в реальном времени без необходимости постоянного обучения модели. #### Результаты Для оценки эффективности метода AnoF-Diff проведены эксперименты на четырех задачах сильного использования инструментов. Метод сравнивался с другими текущими методами по критериям F1-меры и AUROC (Area Under the Receiver Operating Characteristic curve). Результаты показали, что AnoF-Diff демонстрирует более высокую точность и стабильность при работе с шумовыми данными. Особенно выдачными были результаты при работе с входными данными, характеризующимися высоким уровнем шума и изменчивостью. #### Значимость Метод AnoF-Diff может быть применен в различных областях, где необходима реакция на нестандартные события, такие как робототехника, управление производством и системы мониторинга здоровья. Наиболее выгодным считается использование в ситуациях, где необходимо быстрое и точное обнаружение аномалий в реальном времени. Улучшения в этой области могут существенно повысить надежность и безопасность работ, а также снизить временные затраты на диагностику и реагирование на аномалии. #### Выводы Разработанный метод AnoF-Diff демонстрирует свою эффективность в обнаружении аномалий, особенно при работе с шумовыми и изменчивыми данными.

Annotation:

Multivariate time-series anomaly detection, which is critical for identifying unexpected events, has been explored in the field of machine learning for several decades. However, directly applying these methods to data from forceful tool use tasks is challenging because streaming sensor data in the real world tends to be inherently noisy, exhibits non-stationary behavior, and varies across different tasks and tools. To address these challenges, we propose a method, AnoF-Diff, based on the diffusi...

ID: 2509.15153v1 cs.RO, cs.LG

arXiv PDF

📄 Cooperative Target Detection with AUVs: A Dual-Timescale Hierarchical MARDL Approach

2025-09-19

Авторы:

Zhang Xueyao, Yang Bo, Yu Zhiwen, Cao Xuelin, George C. Alexandropoulos, Merouane Debbah, Chau Yuen

## Контекст В последние годы Autonomous Underwater Vehicles (AUVs) — подводные лодки с автономным управлением — приобрели важное место в области кооперативного обнаружения и разведки. Они обладают уникальными возможностями, такими как долговременное пребывание в акватории и незаметность для прицеливания. Однако использование таких лодок в совместных миссиях не без рисков. В адверсарских условиях возможность разглашения своего положения, обнаружения и атаки может ограничить эффективность выполнения задачи. Значительным технологическим вызовом является создание методов, которые позволят AUVs эффективно сотрудничать, при этом гарантируя низкую вероятность обнаружения. Эта проблема особенно актуальна в регионах, где акватория тщательно мониторится, например, рядом с военными базами или границами. Многие алгоритмы, предложенные ранее, не могут гарантировать как эффективность, так и безопасность в таких сценариях. Таким образом, необходимо разработать метод, который сможет компенсировать эти недостатки, обеспечив безопасность и эффективность в одновременном режиме. ## Метод Разрабатываемый подход основан на **Hierarchical Multi-Agent Proximal Policy Optimization (H-MAPPO)**, технике машинного обучения, которая применяется в задачах управления множеством агентов. Метод работает на двух разных временных масштабах: высоком (high-level) и низком (low-level). На высоком уровне, центральный AUV (центральное устройство) решает, какие агенты должны принимать участие в задаче, а также определяет их основные цели и задачи. На низком уровне, каждый участвующий AUV контролирует свои траектории и мощность передачи сигналов, чтобы снизить риск обнаружения. Здесь используется **Proximal Policy Optimization (PPO)**, метод оптимизации политик, который позволяет эффективно корректировать поведение AUVs в реальном времени. Архитектура H-MAPPO разделяет задачу на две части: стратегическую (высокого уровня) и траекторную (низкого уровня). Эта структура позволяет агентам быстро реагировать на изменения окружения, при этом оптимизируя время отклика и минимизируя вероятность разглашения. ## Результаты Эксперименты проводились в симуляторе, где были рассмотрены различные ситуации, в том числе с высокой вероятностью обнаружения, многорукими бандами врагов и сильным шумом фона. Запуски проводились с различными наборами параметров, включая различные конфигурации AUVs, различные уровни шума и различные виды атак врагов. Использовались данные, полученные от реальных подводных лодок, чтобы убедиться в реалистичности моделей. Результаты показали, что H-MAPPO успешно оптимизирует решения, снижая вероятность обнаруж

Annotation:

Autonomous Underwater Vehicles (AUVs) have shown great potential for cooperative detection and reconnaissance. However, collaborative AUV communications introduce risks of exposure. In adversarial environments, achieving efficient collaboration while ensuring covert operations becomes a key challenge for underwater cooperative missions. In this paper, we propose a novel dual time-scale Hierarchical Multi-Agent Proximal Policy Optimization (H-MAPPO) framework. The high-level component determines ...

ID: 2509.13381v1 cs.RO, cs.LG, cs.MA

arXiv PDF

📄 VEGA: Electric Vehicle Navigation Agent via Physics-Informed Neural Operator and Proximal Policy Optimization

2025-09-19

Авторы:

Hansol Lim, Minhyeok Im, Jonathan Boyack, Jee Won Lee, Jongseong Brad Choi

## Контекст Современные электрические автомобили (EV) являются востребованными благодаря снижению затрат на эксплуатацию, экологичности и возможностью использовать современные технологии. Одной из сложных задач для таких автомобилей является эко-мониторинг и эффективное навигационное планирование с учетом состояния заряда батареи (SoC) и текущих условий дорожной сети. Существующие решения либо ограничены в географической области, либо не учитывают физические особенности операции автомобиля. VEGA представляет собой инновационное решение, которое интегрирует физико-ориентированное обучение (Physics-Informed Learning) с методами Reinforcement Learning (RL) для создания эффективного, действительно взаимодействующего с реальностью агента для навигации. ## Метод VEGA состоит из двух основных модулей. Первый — **Physics-Informed Neural Operator (PINO)** — основывается на обучении с подкреплением (RL) и использует реальные данные о скорости и потреблении энергии автомобиля для точного оценки физических параметров, таких как аэродинамическое сопротивление, роликовое сопротивление, эффективность двигателя и регенерируемого торможения. Второй модуль — Reinforcement Learning Agent — использует эти эффективности для планирования путей с минимальным потреблением энергии, включая выбор оптимальных точек зарядки и времени пребывания на них. Важной особенностью VEGA является его универсальность: он не требует дополнительных сенсоров и оперирует только с сигналами скорости двигателя. ## Результаты На экспериментальных задачах, таких как путь от Сан-Франциско до Нью-Йорка, VEGA показал схожесть с Tesla Trip Planner в плане рекомендаций по зарядке и срокам пребывания на них. Однако VEGA демонстрирует немного более сохранность в прогнозировании состояния заряда батареи, что может быть вызвано деталями реального опыта эксплуатации автомобиля, такими как дрейф параметров за время эксплуатации. Эксперименты показали, что VEGA может эффективно работать не только в США, но и в других странах, таких как Франция и Япония, что указывает на высокую общительность модели. ## Значимость VEGA представляет собой новый подход к эко-навигации, который может быть применен в различных сценариях, например, для сервиса управления электрическими автомобилями, оценки эффективности путей и поиска оптимальных точек зарядки. Он имеет потенциал для сокращения затрат на эксплуатацию EV, уменьшения расхода энергии и повышения удобства хозяев электрических автомобилей. Кроме того, VEGA может служить виртуальным датчиком для мониторинга энергоэффективности и динамики автомобиля, что вносит значительный вклад в улучшение продуктов для SDV. ## Вывод

Annotation:

Demands for software-defined vehicles (SDV) are rising and electric vehicles (EVs) are increasingly being equipped with powerful computers. This enables onboard AI systems to optimize charge-aware path optimization customized to reflect vehicle's current condition and environment. We present VEGA, a charge-aware EV navigation agent that plans over a charger-annotated road graph using Proximal Policy Optimization (PPO) with budgeted A* teacher-student guidance under state-of-charge (SoC) feasibil...

ID: 2509.13386v1 cs.RO, cs.LG

arXiv PDF

1
2
8
9
10
11
12
13

Показано 91 - 100 из 125 записей