SPiDR: A Simple Approach for Zero-Shot Safety in Sim-to-Real Transfer

2509.18648v1 cs.RO, cs.AI 2025-09-25
Авторы:

Yarden As, Chengrui Qu, Benjamin Unger, Dongho Kang, Max van der Hart, Laixi Shi, Stelian Coros, Adam Wierman, Andreas Krause

Резюме на русском

## Контекст Одной из основных проблем при развертывании рабочих систем на основе искусственного интеллекта в реальном мире является гарантия безопасности. Решения, развитые в симуляторах, могут быть небезопасными в реальной среде из-за сильной разницы в условиях. Это приводит к необходимости в методах, обеспечивающих безопасность при переводе симуляторного опыта в реальный мир. Однако методы, обеспечивающие безопасность, часто неэффективны в больших, распределенных средах. Методы, основанные на доменной рандомизации, широко применяются в сим-к-реал-трансфер, но часто не могут гарантировать безопасность. SPiDR (Sim-to-real via Pessimistic Domain Randomization) представляет собой простой и эффективный подход, который использует доменную рандомизацию, чтобы учесть неопределенность сим-к-реал-трансфера и обеспечить безопасный трансфер в реальном мире. ## Метод SPiDR основывается на принципе доменной рандомизации, но включает новую методику, называемую пессимистичной доменной рандомизацией. Этот подход добавляет дополнительные ограничения на агента, учитывая возможность негативного влияния рандомизации на безопасность. Агенту предлагается выбрать действия, которые будут безопасными в любой ситуации, даже при высокой рандомизации. Метод интегрируется с существующими системами обучения, не требуя существенных изменений. Он также включает нейросетевые модели, которые могут предсказывать поведение в рандомизированных условиях и учитывать это в выборе действий. ## Результаты Исследования проводились на двух реальных роботах и нескольких симуляторных средах. Сравнивались результаты SPiDR с различными методами, в том числе стандартной доменной рандомизацией и методами с гарантиями безопасности. Результаты показали, что SPiDR обеспечивает безопасность лучше всего в условиях высокой рандомизации. Также была проведена эмпирическая оценка скорости обучения и эффективности решений. SPiDR показал низкий порог вхождения и высокую скорость обучения, что делает его привлекательным для реальных приложений. ## Значимость SPiDR может применяться в различных областях, где требуется безопасное и эффективное использование методов обучения с подкреплением в реальном мире. Это включает в себя робототехнику, автоматизацию производств, а также приложения в автомобильной индустрии. Преимущества SPiDR заключаются в том, что он обеспечивает безопасность без существенных изменений в существующих тренировочных системах. Его потенциалом является создание безопасных систем, которые могут быть легко перенесены из симуляторной среды в ре

Abstract

Safety remains a major concern for deploying reinforcement learning (RL) in real-world applications. Simulators provide safe, scalable training environments, but the inevitable sim-to-real gap introduces additional safety concerns, as policies must satisfy constraints in real-world conditions that differ from simulation. To address this challenge, robust safe RL techniques offer principled methods, but are often incompatible with standard scalable training pipelines. In contrast, domain randomization, a simple and popular sim-to-real technique, stands out as a promising alternative, although it often results in unsafe behaviors in practice. We present SPiDR, short for Sim-to-real via Pessimistic Domain Randomization -- a scalable algorithm with provable guarantees for safe sim-to-real transfer. SPiDR uses domain randomization to incorporate the uncertainty about the sim-to-real gap into the safety constraints, making it versatile and highly compatible with existing training pipelines. Through extensive experiments on sim-to-sim benchmarks and two distinct real-world robotic platforms, we demonstrate that SPiDR effectively ensures safety despite the sim-to-real gap while maintaining strong performance.

Ссылки и действия