SPiDR: A Simple Approach for Zero-Shot Safety in Sim-to-Real Transfer
2509.18648v1
cs.RO, cs.AI
2025-09-25
Авторы:
Yarden As, Chengrui Qu, Benjamin Unger, Dongho Kang, Max van der Hart, Laixi Shi, Stelian Coros, Adam Wierman, Andreas Krause
Резюме на русском
## Контекст
Одной из основных проблем при развертывании рабочих систем на основе искусственного интеллекта в реальном мире является гарантия безопасности. Решения, развитые в симуляторах, могут быть небезопасными в реальной среде из-за сильной разницы в условиях. Это приводит к необходимости в методах, обеспечивающих безопасность при переводе симуляторного опыта в реальный мир. Однако методы, обеспечивающие безопасность, часто неэффективны в больших, распределенных средах. Методы, основанные на доменной рандомизации, широко применяются в сим-к-реал-трансфер, но часто не могут гарантировать безопасность. SPiDR (Sim-to-real via Pessimistic Domain Randomization) представляет собой простой и эффективный подход, который использует доменную рандомизацию, чтобы учесть неопределенность сим-к-реал-трансфера и обеспечить безопасный трансфер в реальном мире.
## Метод
SPiDR основывается на принципе доменной рандомизации, но включает новую методику, называемую пессимистичной доменной рандомизацией. Этот подход добавляет дополнительные ограничения на агента, учитывая возможность негативного влияния рандомизации на безопасность. Агенту предлагается выбрать действия, которые будут безопасными в любой ситуации, даже при высокой рандомизации. Метод интегрируется с существующими системами обучения, не требуя существенных изменений. Он также включает нейросетевые модели, которые могут предсказывать поведение в рандомизированных условиях и учитывать это в выборе действий.
## Результаты
Исследования проводились на двух реальных роботах и нескольких симуляторных средах. Сравнивались результаты SPiDR с различными методами, в том числе стандартной доменной рандомизацией и методами с гарантиями безопасности. Результаты показали, что SPiDR обеспечивает безопасность лучше всего в условиях высокой рандомизации. Также была проведена эмпирическая оценка скорости обучения и эффективности решений. SPiDR показал низкий порог вхождения и высокую скорость обучения, что делает его привлекательным для реальных приложений.
## Значимость
SPiDR может применяться в различных областях, где требуется безопасное и эффективное использование методов обучения с подкреплением в реальном мире. Это включает в себя робототехнику, автоматизацию производств, а также приложения в автомобильной индустрии. Преимущества SPiDR заключаются в том, что он обеспечивает безопасность без существенных изменений в существующих тренировочных системах. Его потенциалом является создание безопасных систем, которые могут быть легко перенесены из симуляторной среды в ре
Abstract
Safety remains a major concern for deploying reinforcement learning (RL) in
real-world applications. Simulators provide safe, scalable training
environments, but the inevitable sim-to-real gap introduces additional safety
concerns, as policies must satisfy constraints in real-world conditions that
differ from simulation. To address this challenge, robust safe RL techniques
offer principled methods, but are often incompatible with standard scalable
training pipelines. In contrast, domain randomization, a simple and popular
sim-to-real technique, stands out as a promising alternative, although it often
results in unsafe behaviors in practice. We present SPiDR, short for
Sim-to-real via Pessimistic Domain Randomization -- a scalable algorithm with
provable guarantees for safe sim-to-real transfer. SPiDR uses domain
randomization to incorporate the uncertainty about the sim-to-real gap into the
safety constraints, making it versatile and highly compatible with existing
training pipelines. Through extensive experiments on sim-to-sim benchmarks and
two distinct real-world robotic platforms, we demonstrate that SPiDR
effectively ensures safety despite the sim-to-real gap while maintaining strong
performance.
Ссылки и действия
Дополнительные ресурсы: