📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 An Empirical Study of Lagrangian Methods in Safe Reinforcement Learning

2025-10-22

Авторы:

Lindsay Spoor, Álvaro Serra-Gómez, Aske Plaat, Thomas Moerland

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In safety-critical domains such as robotics, navigation and power systems, constrained optimization problems arise where maximizing performance must be carefully balanced with associated constraints. Safe reinforcement learning provides a framework to address these challenges, with Lagrangian methods being a popular choice. However, the effectiveness of Lagrangian methods crucially depends on the choice of the Lagrange multiplier $\lambda$, which governs the trade-off between return and constrai...

ID: 2510.17564v1 cs.LG, cs.AI, cs.RO, cs.SY, eess.SY

arXiv PDF

📄 From Imitation to Optimization: A Comparative Study of Offline Learning for Autonomous Driving

2025-08-13

Авторы:

Antonio Guillen-Perez

## Контекст Подвижность городов в настоящее время крайне зависит от инновационных технологий, способных обеспечить безопасность, эффективность и доступность транспортных систем. Одной из ключевых задач в области автономного вождения является создание надежных и устойчивых политик прохождения маршрутов с помощью обучения на основе данных. Однако использование реальных данных для обучения в реальном времени часто оказывается небезопасным и непрактичным. Большинство алгоритмов, основанных на Behavioral Cloning (BC), сталкиваются со сложностями в задаче копирования поведения эксперта, включая неустойчивость и ошибки, ускоряющиеся в замкнутых контрольных циклах. Это выделяет необходимость в разработке более устойчивых и оптимизированных подходов для обучения политик вождения. ## Метод Для развития эффективных политик вождения предлагается модель, основанная на Behavioral Cloning (BC), которая использует трансформеры для обработки структурированных, сущность-ориентированных представлений состояния. Эта модель достигает низкого уровня имитационной потери, но не справляется с длинными горизонтами симуляций. Для улучшения устойчивости используется алгоритм Conservative Q-Learning (CQL) в качестве метода Offline Reinforcement Learning (Offline RL). CQL применяется к той же структуре представления состояния, что и BC, но добавляет консервативную функцию значений, способную обеспечить более устойчивое поведение в реальных ситуациях. Эта модель также включает в себя настраиваемую функцию награды, которая помогает агенту избегать ошибок и выходов за допустимые состояния. ## Результаты В ходе экспериментов проводилась сравнительная оценка различных вариантов BC с трансформером и CQL на основе реальных данных. Результаты показали, что CQL не только увеличивает устойчивость политик, но и существенно повышает эффективность. Например, CQL демонстрирует 3.2 раза более высокую стабильность и 7.4 раз меньшую частоту столкновений по сравнению с лучшими результатами BC на 1,000 неизвестных сценах из Waymo Open Motion Dataset. Это демонстрирует, что Offline RL значительно превосходит BC в обучении политик для длинных горизонтов вождения. ## Значимость Предлагаемый подход может быть применен в различных сценариях автономного вождения, включая дорожные системы, парковки и управление транспортом. Он обеспечивает высокую устойчивость, снижает риск столкновений и повышает эффективность в различных реальных условиях. Это открывает новые возможности для безопасного и эффективного использования автономных систем в транспортных системах. ## Выводы Результаты показали, что Offline Reinforcement Learning, особенно CQL, является к

Annotation:

Learning robust driving policies from large-scale, real-world datasets is a central challenge in autonomous driving, as online data collection is often unsafe and impractical. While Behavioral Cloning (BC) offers a straightforward approach to imitation learning, policies trained with BC are notoriously brittle and suffer from compounding errors in closed-loop execution. This work presents a comprehensive pipeline and a comparative study to address this limitation. We first develop a series of in...

ID: 2508.07029v1 cs.LG, cs.AI, cs.RO, cs.SY, eess.SY

arXiv PDF