📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Boundary-to-Region Supervision for Offline Safe Reinforcement Learning

2025-10-02

Авторы:

Huikang Su, Dengyun Peng, Zifeng Zhuang, YuHan Liu, Qiguang Chen, Donglin Wang, Qinghe Liu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Offline safe reinforcement learning aims to learn policies that satisfy predefined safety constraints from static datasets. Existing sequence-model-based methods condition action generation on symmetric input tokens for return-to-go and cost-to-go, neglecting their intrinsic asymmetry: return-to-go (RTG) serves as a flexible performance target, while cost-to-go (CTG) should represent a rigid safety boundary. This symmetric conditioning leads to unreliable constraint satisfaction, especially when...

ID: 2509.25727v1 cs.LG, cs.AI, cs.RO

arXiv PDF

📄 Discrete Variational Autoencoding via Policy Search

2025-10-01

Авторы:

Michael Drolet, Firas Al-Hafez, Aditya Bhatt, Jan Peters, Oleg Arenz

#### Контекст Область исследований в области развития методов обработки и анализа данных чрезвычайно значима в современном мире. Одним из ключевых направлений является развитие методов вариационных автоэнкодеров (VAEs), которые используются для эффективной реконструкции высокого разрешения данных. Одна из проблем в этой области заключается в том, что при использовании дискретных буттленков в VAEs невозможно точно задать параметры автоматически, что приводит к ограничению в дальнейшей интерпретации данных. Мотивацией для данного исследования является развитие метода, который позволит эффективно решать задачи реконструкции данных в высоком разрешении, используя дискретные VAEs. #### Метод Для развития дискретных VAEs была применена методология нормального градиента, позволяющая обновлять параметры непараметрического кодировщика с помощью естественного градиента. Для эффективного адаптирования шага обучения была использована автоматическая система адаптации шага. Архитектура основывается на использовании трансформера в качестве кодировщика, что позволяет обрабатывать высокомерные данные. Общая методика состоит в том, чтобы обучать модель так, чтобы она эффективно реконструировала высокомерные данные в низкомерный скрытый пространственный вариант, чтобы уменьшить ошибку восстановления. #### Результаты На основе использованных данных, включая высокомерные данные из набора ImageNet, проводились эксперименты. Метод, основанный на нормальном градиенте, показал более высокую эффективность в реконструкции данных по сравнению с другими методами, такими как Gumbel-Softmax и REINFORCE. На многоклассовой задаче реконструкции изображений ImageNet 256 метод показал 20% лучшую оценку FID (Fréchet Inception Distance), чем другие дискретные квантованные автоэнкодеры. #### Значимость Предлагаемый метод является перспективным для применения в многочисленных областях, включая обработку изображений, видео и аудио. Он предоставляет высокую точность в реконструкции данных и позволяет эффективно использовать дискретные модели для решения задач многомодального поиска. Этот подход также имеет потенциал для улучшения производительности в системах анализа и визуализации данных, что может иметь значимый вклад в развитие ИИ. #### Выводы Предлагаемый подход расширяет возможности дискретных VAEs, позволяя их эффективно применять в задачах реконструкции высокомерных данных. Он показал значительные позитивные результаты в сравнении с другими методами, в частности, лучшую оценку FID в реконструкции изображений ImageNet 256. Будущие исследования будут направлены на улучшение методов обучения, в том числе использование более

Annotation:

Discrete latent bottlenecks in variational autoencoders (VAEs) offer high bit efficiency and can be modeled with autoregressive discrete distributions, enabling parameter-efficient multimodal search with transformers. However, discrete random variables do not allow for exact differentiable parameterization; therefore, discrete VAEs typically rely on approximations, such as Gumbel-Softmax reparameterization or straight-through gradient estimates, or employ high-variance gradient-free methods such...

ID: 2509.24716v1 cs.LG, cs.AI, cs.RO

arXiv PDF

📄 RDAR: Reward-Driven Agent Relevance Estimation for Autonomous Driving

2025-09-26

Авторы:

Carlo Bosio, Greg Woelki, Noureldin Hendy, Nicholas Roy, Byungsoo Kim

## Контекст Одним из ключевых аспектов автономного вождения является эффективное использование ресурсов для обработки сложных сцен, содержащих много агентов (таких как пешеходы, другие автомобили и препятствия). В отличие от человека, который сосредоточивается только на нескольких самых значимых агентах, автоматизированные системы обрабатывают все агенты в сцене, даже если они не приносят критического вклада в принятие решений. Это приводит к повышению нагрузки на вычислительные мощности и замедлению реакции. В настоящей работе мы адресуем эту проблему, предлагая метод, который научится определять и эксклюзировать ненужные агенты, облегчив работу системы. Наша мотивация заключается в сокращении вычислительных затрат, повышении реакции и улучшении безопасности автономных систем. ## Метод Мы предлагаем RDAR (Reward-Driven Agent Relevance Estimation), стратегию, основанную на марковских процессах, для вычисления меры значимости каждого агента в сцене. Ключевым элементом метода является маскирование агентов, которые не влияют на действия управляемого транспортного средства. Для этого мы используем маркерную архитектуру, где бинарный маскирующий вектор определяет, какие агенты остаются в входных данных для предварительно обученной сети. Мы используем функцию награды, которая определяет степень полезности каждого агента в успешном выполнении задачи. Для обучения используется алгоритм реинфорсмента, чтобы научиться эффективно выделять важных агентов. ## Результаты Мы проверили RDAR на сети BEVFormer, предназначенной для обработки сцен автономного вождения, используя данные от Waymo Open Dataset. Мы сравнили RDAR с существующими методами определения важности агентов. Наши результаты показали, что RDAR существенно сокращает количество обрабатываемых агентов, снижая вычислительные затраты, при этом поддерживая высокий уровень безопасности и эффективности вождения. Также мы обнаружили, что RDAR выбирает только те агенты, которые действительно влияют на решения, улучшая при этом производительность и точность. ## Значимость Предлагаемый подход имеет широкие возможности применения в автономных системах, таких как автомобили, где эффективность вычислительных ресурсов и быстрота реакции критичны. Он позволяет сократить нагрузку на процессоры, улучшить производительность и уменьшить риск ошибок при принятии решений. Это может привести к более безопасным и эффективным автономным системам, которые будут иметь более низкий энергоэффективный стоимость и более высокий уровень доверия от пользователей. ## Выводы Мы представили RDAR, метод оц

Annotation:

Human drivers focus only on a handful of agents at any one time. On the other hand, autonomous driving systems process complex scenes with numerous agents, regardless of whether they are pedestrians on a crosswalk or vehicles parked on the side of the road. While attention mechanisms offer an implicit way to reduce the input to the elements that affect decisions, existing attention mechanisms for capturing agent interactions are quadratic, and generally computationally expensive. We propose RDAR...

ID: 2509.19789v1 cs.LG, cs.AI, cs.RO

arXiv PDF

📄 Uncertainty-Based Smooth Policy Regularisation for Reinforcement Learning with Few Demonstrations

2025-09-23

Авторы:

Yujie Zhu, Charles A. Hepburn, Matthew Thorpe, Giovanni Montana

Опубликовано: 2024-02-22 ## Контекст Успешное применение методов машинного обучения в задачах реального мира часто зависит от подачи достаточного количества качественных данных. Однако в случае с реинфорсмент-лирнингом (RL), спарсительные награды часто требуют дополнительных мер для эффективного обучения. Демонстрации (предварительно выполненные задачи) могут существенно ускорить обучение, но их использование требует точного понимания, когда лучше следовать за демонстрацией, а когда — учитывать собственную политику. Это особенно актуально при ограниченном количестве демонстраций. Мы предлагаем фреймворм Smooth Policy Regularisation from Demonstrations (SPReD), который стремится решить эту проблему, предоставив агенту возможность в зависимости от уровня неопределенности выбирать стратегию. ## Метод SPReD обращается к методам ансамбля для оценки распределения Q-значений для демонстрационных и собственных действий агента. Это позволяет конкретизировать неопределенность каждого варианта действия. Для оценки совпадения с демонстрацией, мы предлагаем два метода: 1. **Пробабильный подход** — оценивает вероятность того, что демонстрация выдаст лучшую награду. 2. **Подход на основе приближения прибыли** — изменяет вес копирования в зависимости от статистической значимости. В отличие от бинарных методов (например, Q-filter), SPReD применяет непрерывные регуляризационные взвеши, уменьшая градиентную нестабильность во время обучения. ## Результаты Мы проверили SPReD на 8 задачах робототехники, включая задачи с неопределенными и спарсительными наградами. Задачи были выполнены на основе данных с двумя симуляторами: PyBullet и Isaac Gym. Наши результаты показали, что SPReD превосходит существующие методы на 14 раз в сложных задачах, сохраняя низкую чувствительность к качеству и количеству демонстраций. Эти результаты демонстрируют высокую универсальность и стабильность SPReD. ## Значимость SPReD может быть применен в различных задачах, где необходимо быстрое улучшение поведения на основе ограниченного числа примеров. Например, в робототехнике, интерфейсах с пользователем, или в ситуациях, где предоставить много примеров невозможно. Он обеспечивает более гибкий и надёжный подход к обучению от RL, позволяя эффективно использовать небольшие числа демонстраций. ## Выводы Мы представили фреймворм SPReD для RL с недостатком наград, который использует методы ансамбля для оценки неопределенности демонстраций и собственных действий. SPReD предоставляет гибкий и эффективный способ решать задачи, где демонстрации используются в узком количестве. Мы планируем расширить исследовани

Annotation:

In reinforcement learning with sparse rewards, demonstrations can accelerate learning, but determining when to imitate them remains challenging. We propose Smooth Policy Regularisation from Demonstrations (SPReD), a framework that addresses the fundamental question: when should an agent imitate a demonstration versus follow its own policy? SPReD uses ensemble methods to explicitly model Q-value distributions for both demonstration and policy actions, quantifying uncertainty for comparisons. We d...

ID: 2509.15981v1 cs.LG, cs.AI, cs.RO, stat.ML

arXiv PDF

📄 Exploring multimodal implicit behavior learning for vehicle navigation in simulated cities

2025-09-22

Авторы:

Eric Aislan Antonelo, Gustavo Claudio Karl Couto, Christian Möller

#### Контекст Исследование посвящено расширению возможностей Behavior Cloning (BC) в задачах навигации виртуальных автомобилей в симулированных городах. Стандартный BC сталкивается с проблемой невозможности правильно обучаться на многомодальных решениях, когда несколько действий могут быть верными для одной и той же ситуации. Это проблема становится актуальной при разработке интеллектуальных систем, которые должны принимать решения в сложных средах. Наше исследование стремится развить эффективные методы для обучения многомодальных моделей на основе Implicit Behavioral Cloning (IBC) с использованием Energy-Based Models (EBMs). #### Метод Для решения проблемы многомодальности применяется методология Implicit Behavioral Cloning с использованием Energy-Based Models. Мы предлагаем Data-Augmented IBC (DA-IBC), в рамках которого предлагается модифицировать экспертные действия, формируя counterexamples для более точного обучения. Для повышения точности используется усовершенствованная инициализация для наивныхх способов вывода, не требующих частных производных. Архитектура DA-IBC включает в себя энергетические модели для представления динамики действий и методы интерполяции для улучшения обучения. Эксперименты проводятся в симуляторе CARLA с использованием Bird's-Eye View данных, что позволяет эффективно оценивать качество навигационных решений. #### Результаты В ходе экспериментов продемонстрировано, что DA-IBC превосходит стандартный IBC в задачах многомодального обучения для городской навигации. Модель DA-IBC удается правильно представлять многомодальные распределения действий, что является ключевым преимуществом перед стандартным BC. Эксперименты показали, что процесс первичной инициализации и модификации экспертных действий значительно повышает точность и скорость обучения. Данные результаты подтвердят, что DA-IBC эффективно перехватывает комплексность многомодальных сценариев, делая его применимым в реальных ситуациях навигации. #### Значимость Результаты имеют большое значение для развития моделей, которые способны правильно обрабатывать многомодальные решения в задачах автоматизированной навигации. Такие модели могут быть применены в различных областях, включая автономную транспортную систему, системы поддержки принятия решений, а также в системы-роботы для автоматического управления транспортом. Основными преимуществами являются улучшенная точность и универсальность обучения, которые позволяют модели решать более сложные задачи. Будущие исследования будут сфокусированы на высшем качестве представления энергетических моделей и их расширении для более широких сценариев. #### Выводы DA-IBC демонстрирует существенное улучшение в обучении моделей, которые спосо

Annotation:

Standard Behavior Cloning (BC) fails to learn multimodal driving decisions, where multiple valid actions exist for the same scenario. We explore Implicit Behavioral Cloning (IBC) with Energy-Based Models (EBMs) to better capture this multimodality. We propose Data-Augmented IBC (DA-IBC), which improves learning by perturbing expert actions to form the counterexamples of IBC training and using better initialization for derivative-free inference. Experiments in the CARLA simulator with Bird's-Eye ...

ID: 2509.15400v1 cs.LG, cs.AI, cs.RO

arXiv PDF

📄 Deceptive Risk Minimization: Out-of-Distribution Generalization by Deceiving Distribution Shift Detectors

2025-09-17

Авторы:

Anirudha Majumdar

## Контекст Изучение области обучения с подкреплением (RL) на предмет обеспечения устойчивой работы агентов в различных средах находится в центре внимания. Одним из ключевых аспектов этой проблемы является обеспечение общезначимости агента, то есть его способности выполнять задачи не только в одной, но и в неизвестных ранее средах. Нестабильность агента часто вызвана спутанными или спутанными сигналами в данных, которые могут привести к ошибкам в оптимизации или неудаче в новых средах. Мотивацией для этой работы является поиск методов, позволяющих агентам обнаруживать и исключать такие спутанные сигналы, чтобы обеспечить более прочную общезначимость. ## Метод Данная работа предлагает механизм, основанный на идее "дезинформации" (deception), для решения проблемы общезначимости в RL. Метод, названный **Deceptive Risk Minimization (DRM)**, использует методы обучения данных, которые делают их показателем независимости и идентичности распределения (iid) для внешнего наблюдателя. Этот подход позволяет идентифицировать стабильные черты данных, удаляя спутанные сигналы и улучшая общую устойчивость. Основная идея заключается в том, что данные, которые кажутся iid для детектора распределения, позволяют агенту избегать недостатков, связанных с нестабильными и спутанными сигналами. Метод DRM реализуется как различностная цель, которая одновременно оптимизирует функцию потерь задачи и уменьшает риск, связанный с распределением, в соответствии с детектором, основанным на мартингале-конформирующих методах. ## Результаты Исследования проводились на двух типах экспериментов: численных экспериментах с концептуальными сдвигами и симулированных экспериментах с ковариатным сдвигом в средах, где робот развертывается. В экспериментах показано, что DRM позволяет агенту выявить стабильные черты, которые влияют на поведение в неизвестных средах. Напротив, методы доступа к данным или предварительной разделки данных на кластеры не позволяют в полной мере обеспечить устойчивость. Для оценки DRM использовались данные, в которых был внедрен концептуальный сдвиг (например, изменение формы объекта), а также данные с ковариатным сдвигом (например, изменение изображения в симуляторе). Результаты показали, что DRM позволяет агенту повысить устойчивость к неизвестным средам, существенно превосходя другие подходы. ## Значимость Результаты DRM могут быть применимы в сферах, где требуется обеспечение высокой общезначимости и неуязвимости к спутанным сигналам. Это могут быть применения в имитационных средах, включая роботизированные системы, системы-модели в картографи

Annotation:

This paper proposes deception as a mechanism for out-of-distribution (OOD) generalization: by learning data representations that make training data appear independent and identically distributed (iid) to an observer, we can identify stable features that eliminate spurious correlations and generalize to unseen domains. We refer to this principle as deceptive risk minimization (DRM) and instantiate it with a practical differentiable objective that simultaneously learns features that eliminate dist...

ID: 2509.12081v1 cs.LG, cs.AI, cs.RO

arXiv PDF

📄 D-CAT: Decoupled Cross-Attention Transfer between Sensor Modalities for Unimodal Inference

2025-09-16

Авторы:

Leen Daher, Zhaobo Wang, Malcolm Mielle

#### Контекст Современные системы сенсорного восприятия часто используют многомодальный подход для обеспечения точности и надежности в распознавании активности. Однако, существуют ситуации, когда доступ к полному набору сенсоров ограничен техническими или экономическими причинами. Например, в системах роботизированного взаимодействия или домашних систем автоматизации может быть невозможно подключить все необходимые сенсоры из-за узких возможностей финансирования или технологических ограничений. Это приводит к снижению точности и надежности моделей классификации. Из этой проблемы возникает потребность в разработке методов, позволяющих передавать знания между модальностями сенсоров для улучшения классификации в условиях ограниченного доступа к сенсорам. #### Метод Мы предлагаем **Decoupled Cross-Attention Transfer (D-CAT)**, фреймворк для передачи кросс-модального знания между модальностями без необходимости их параллельной работы во время обучения или тестирования. Фреймворк состоит из двух основных компонентов: **сингулярного само-восприятия (self-attention)** для извлечения функций от каждой модальности и **кросс-восприятия (cross-attention)** для установления взаимосвязи между модальностями. Особенностью D-CAT является то, что он не требует взаимодействия между модальностями во время выполнения. Решение использует архитектуру, в которой модальности обучаются независимо друг от друга, но затем подключаются с помощью кросс-аттенционного модуля, чтобы улучшить классификацию в случае отсутствия данных из другой модальности. #### Результаты Мы проверили D-CAT на трех многомодальных наборах данных для распознавания активности (IMU, видео, аудио). В сценарии **in-distribution**, где тренировочные и тестовые данные имеют аналогичные свойства, D-CAT показал до 10% увеличения F1-score в сравнении с унимодальными моделями при передаче знаний от высокоэффективных модальностей (например, видео к IMU). В **out-of-distribution** сценарии, когда тренировочные данные от одной модальности используются для классификации другой, D-CAT также показал улучшения в точности, даже если целевая модальность была плохо обучена. Это указывает на то, что D-CAT может обеспечить улучшение классификации даже в условиях несовпадения тренировочных и тестовых данных. #### Значимость D-CAT может быть применен в сценариях, где ресурсы ограничены, например, в создании систем ассистированного взаимодействия и домашних автоматизированных систем. Он позволяет уменьшить требования к оборудованию, поддерживая высокую точность классификации. Помимо этого, D-CAT может быть использован в ситуациях, когда необходимо переключаться м

Annotation:

Cross-modal transfer learning is used to improve multi-modal classification models (e.g., for human activity recognition in human-robot collaboration). However, existing methods require paired sensor data at both training and inference, limiting deployment in resource-constrained environments where full sensor suites are not economically and technically usable. To address this, we propose Decoupled Cross-Attention Transfer (D-CAT), a framework that aligns modality-specific representations withou...

ID: 2509.09747v1 cs.LG, cs.AI, cs.RO

arXiv PDF

📄 VendiRL: A Framework for Self-Supervised Reinforcement Learning of Diversely Diverse Skills

2025-09-05

Авторы:

Erik M. Lintunen

## Контекст В самостоятельном управляемом обучении с подкреплением (Reinforcement Learning, RL) ключевым вызовом является развитие разнообразного набора умений, укрепляющих агента для будущих неизвестных задач. Несмотря на прогрессы в этой области, практические проблемы, такие как сложность поиска значимых умений в высокомерных пространствах признаков и непоследовательность методов оценки разнообразия умений, остаются актуальными. Выбор определения разнообразия умений может привести к несогласованности в понимании этой концепции, что затрудняет сравнение результатов различных подходов. Таким образом, целью данного исследования является развитие методологии, позволяющей избежать этих проблем и обеспечить эффективное развитие разнообразных умений в самостоятельной среде обучения. ## Метод Методология, предложенная в работе, основывается на применении метрики Vendi Score, которая переносит понятия из экологии в машинное обучение. Vendi Score позволяет гибко определять и оценивать различные формы разнообразия умений, отвечая индивидуальным потребностям и задачам. Фреймворк VendiRL является унифицированной структурой, основанной на Vendi Score, которая мотивирует различные подходы к развитию разнообразных умений. Эта структура позволяет использовать разные функции схожести, чтобы поддерживать различные формы разнообразия умений в интерактивных и богатых средах, где могут быть желательны разные виды разнообразия. Этот подход предлагает гибкую архитектуру, позволяющую адаптироваться к разным сценариям и задачам. ## Результаты В экспериментах были использованы различные задачи, где необходимо было развить разнообразные умения, например, в игровых средах или симуляциях. Метрика Vendi Score была применена для оценки разнообразия умений, полученных в результате обучения. Результаты показали, что VendiRL эффективно развивает разнообразные умения, а метрика Vendi Score дает гибкий инструмент для измерения разнообразия в зависимости от конкретных целей. Эксперименты подтвердили, что в различных средах и задачах, в зависимости от функции схожести, могут быть получены разные формы разнообразия, что позволяет гибко подстраиваться под разные требования. ## Значимость Выводы работы имеют значительное значение для развития самостоятельного обучения с подкреплением. VendiRL предоставляет универсальный фреймворк для развития разнообразных умений, который может быть применен в различных интерактивных средах. Он обеспечивает гибкость в определении и измерении разнообразия умений, что может способствовать улучшению предварительного обучения в различных задачах. Будущие исследования могут фокусироваться на

Annotation:

In self-supervised reinforcement learning (RL), one of the key challenges is learning a diverse set of skills to prepare agents for unknown future tasks. Despite impressive advances, scalability and evaluation remain prevalent issues. Regarding scalability, the search for meaningful skills can be obscured by high-dimensional feature spaces, where relevant features may vary across downstream task domains. For evaluating skill diversity, defining what constitutes "diversity" typically requires a h...

ID: 2509.02930v1 cs.LG, cs.AI, cs.RO

arXiv PDF

📄 Train-Once Plan-Anywhere Kinodynamic Motion Planning via Diffusion Trees

2025-08-29

Авторы:

Yaniv Hassidof, Tom Jurgenson, Kiril Solovey

#################### ## Контекст #################### Kinodynamic motion planning является ключевым вопросом в автоматизированных системах, где необходимо вычислить коллизионно-свободные маршруты для роботов, при этом соблюдая их динамические ограничения. Эта задача часто решается с помощью sampling-based planners (SBPs), которые исследуют высокомерное состояние робота, построя структуры поиска в виде дерева действий. Хотя SBPs обеспечивают глобальные гарантии на выполнимость и качество решения, их эффективность часто ограничивается неоптимальным поиском в связи с необразованным выбором действий. Учитывая это, нейронные сети и машинное обучение могут существенно ускорить работу, однако они сталкиваются с проблемами общительности и безопасности, что сделает их непригодными для применения в реальных системах. Мы предлагаем Diffusion Tree (DiTree), новый планировщик, который объединяет силу diffusion policies (DPs) с выполнительными свойствами SBPs, чтобы быстро и безопасно решать задачи движения в трудных средах. #################### ## Метод #################### Diffusion Tree (DiTree) использует diffusion policies (DPs) как информированные сэмплеры для эффективного прохождения пространства состояний в SBP. DPs могут эффективно аппроксимировать распределение экспертных маршрутов, оптимизировав выбор действий на основе локальных наблюдений. Это позволяет DiTree руководствоваться SBP-алгоритмом, обеспечивая точность и полноту решения во время короткого времени. Мы внедрили DiTree в классический RRT-планировщик, обучив DPs на данных, собранных в одной среде, что делает его гибким и эффективным в разных условиях. #################### ## Результаты #################### Мы провели комплексные эксперименты на сложных тренажерах, включая неизвестные среды (OOD), чтобы проверить эффективность DiTree. Результаты показали, что DiTree не только достигает 3x быстрее выполнения по сравнению с RBSP (разумная нижняя граница для SBP-достижение), но и превосходит классические SBP-алгоритмы, повышая успешность решения более чем на 30%. Эти результаты доказывают, что DiTree обеспечивает быстрое, безопасное и универсальное решение для кинодинамического планирования движения. #################### ## Значимость #################### DiTree может применяться в различных системах автоматизированного управления, включая роботов-роботов, воздушные транспортные средства и другие системы, требующие комплексного контроля динамики. Его основным преимуществом является способность быстро и безопасно решать задачи в сложных динамических средах с высоким уровнем зависимости от обучения. Помимо скорости и безопасности, DiTree может существенно снизить расходы на вычислительные ресурсы и увеличить эффективность работы роботизированных систем. #################### ## Выводы #################### Di

Annotation:

Kinodynamic motion planning is concerned with computing collision-free trajectories while abiding by the robot's dynamic constraints. This critical problem is often tackled using sampling-based planners (SBPs) that explore the robot's high-dimensional state space by constructing a search tree via action propagations. Although SBPs can offer global guarantees on completeness and solution quality, their performance is often hindered by slow exploration due to uninformed action sampling. Learning-b...

ID: 2508.21001v1 cs.LG, cs.AI, cs.RO

arXiv PDF

📄 Learning to Drive Ethically: Embedding Moral Reasoning into Autonomous Driving

2025-08-23

Авторы:

Dianzhao Li, Ostap Okhrin

#### Контекст Исследование рассматривает вопросы этического принятия решений в автономном вождении, что является ключевым фактором для успешного внедрения автономных транспортных систем. Несмотря на прогресс в области искусственного интеллекта и автоматизации, автомобили с автономным управлением сталкиваются с проблемами этики в сложных сценариях, таких как принятие моральных решений в ситуациях неопределенности или опасности. Эти проблемы приобретают большое значение для создания доверия к технологии, обеспечения соответствия законам и реализации безопасных, удовлетворительных для всех решений в транспортной системе. В статье предлагается новый подход к решению этой проблемы путем внедрения морального разума в автономное управление велосипедами и подобными активными системами. #### Метод Предлагаемая модель основывается на фреймворке Safe Reinforcement Learning (Safe RL), который сочетает моральные рассуждения с традиционными целями вождения, такими как безопасность и эффективность. На уровне принятия решений создана система, которая использует композитный этический кост, включающий в себя вероятность столкновения и серьезность последствий. Эта модель позволяет формировать высокоуровневые моторные цели, принимая во внимание этики. На уровне исполнения полиномиальные алгоритмы планирования пути и контроллеры Proportional-Integral-Derivative (PID) и Stanley используются для преобразования высокоуровневых моторных целей в рабочие пути. Для улучшения обучения используется динамическая механика Prioritized Experience Replay, которая повышает внимание к редким, но критичным ситуациям. #### Результаты Метод был тестирован на разнообразных реальных данных с высокой разнообразием транспортных средств, включая автомобили, велосипеды и пешеходов. Эксперименты проводились с помощью симуляторов и реальных экспериментов. Результаты показали, что подход эффективно решает проблему этического принятия решений, сокращая риск столкновений и повышая безопасность вождения. Особое внимание уделяется тому, что модель не только эффективно решает моральные задачи, но и сохраняет высокую производительность вождения. #### Значимость Предложенный подход имеет широкие потенциальные применения в области автономного транспорта, включая улучшение безопасности, соответствия нормам и удовлетворение моральных стандартов вождения. Одним из основных преимуществ является возможность обучения модели в реальных сценариях, что обеспечивает более точное и эффективное принятие решений. Этот подход может сыграть ключевую роль в ускорении внедрения автономных транспортных систем, обеспечивая их безо

Annotation:

Autonomous vehicles hold great promise for reducing traffic fatalities and improving transportation efficiency, yet their widespread adoption hinges on embedding robust ethical reasoning into routine and emergency maneuvers. Here, we present a hierarchical Safe Reinforcement Learning (Safe RL) framework that explicitly integrates moral considerations with standard driving objectives. At the decision level, a Safe RL agent is trained using a composite ethical risk cost, combining collision probab...

ID: 2508.14926v1 cs.LG, cs.AI, cs.RO

arXiv PDF

Показано 31 - 40 из 41 записей