Geometric Red-Teaming for Robotic Manipulation
2509.12379v1
cs.RO, cs.AI, cs.LG
2025-09-18
Авторы:
Divyam Goel, Yufei Wang, Tiancheng Wu, Guixiu Qiao, Pavel Piliptchak, David Held, Zackory Erickson
Резюме на русском
## Контекст
Роботизированные манипуляторы широко используются в различных сферах, от промышленных цехов до медицинских устройств. Однако стандартные протоколы оценки политик манипуляций часто ограничиваются оценкой поведения систем на тестовых наборах данных, которые являются входными в рамки распространенных аспектов задач. Это способствует тому, что системы могут оказаться уязвимыми к нестандартным условиям, недооценивая их устойчивость. Определение и оценка таких возможных уязвимостей являются важным аспектом создания надежных роботизированных систем. Мы предлагаем Geometric Red-Teaming (GRT), новый фреймворк, который автоматически генерирует геометрические переменные, нацеленных на отклонение результатов манипуляции, чтобы открыть новые аспекты роботизированных систем.
## Метод
Мы представляем Geometric Red-Teaming (GRT), что является подходом к оценке уязвимостей роботизированных политик манипуляций через геометрические переменные. Наша методология включает в себя градиентный метод, основанный на оптимизации, и использует технологии, которые автоматически генерируют "CrashShapes" - структурно валидные деформации 3D-моделей, которые могут вызвать падение политики манипуляций. Метод интегрирует объемный полевой подход с градиентным симулятором в цикле, чтобы найти деформации, максимально влияющие на поведение системы. Мы применяем GRT к задачам вставки, артикуляции и хватания, где он постоянно открывает уязвимости, которые могут быть пропущены статическими методами. Это позволяет улучшить устойчивость политик манипуляций.
## Результаты
Мы проверили GRT на широком спектре задач, включая вставку, артикуляцию и хватание предметов. Наши результаты показывают, что GRT постоянно выявляет уязвимости в политиках манипуляций, которые могут вызвать серьезные неудачи. Мы успешно генерируем CrashShapes, которые приводят к падению поведения системы. Также, мы продемонстрировали, что целевая оптимизация CrashShapes, которую мы назвали "blue-teaming", позволяет улучшить устойчивость политик манипуляций до 60% на этих деформациях. Мы также провели реальные эксперименты с использованием робота, подтвердив, что GRT может создавать значительные обнаружения в реальных условиях.
## Значимость
GRT может применяться в различных областях, включая повышение устойчивости роботов в промышленных приложениях, мобильных роботах, а также в сферах, где устойчивость к нестандартным условиям критична. Этот подход может помочь создавать более надежные системы манипуляций, улучшая их поведение в нестандартных ситуациях. Это прод
Abstract
Standard evaluation protocols in robotic manipulation typically assess policy
performance over curated, in-distribution test sets, offering limited insight
into how systems fail under plausible variation. We introduce Geometric
Red-Teaming (GRT), a red-teaming framework that probes robustness through
object-centric geometric perturbations, automatically generating CrashShapes --
structurally valid, user-constrained mesh deformations that trigger
catastrophic failures in pre-trained manipulation policies. The method
integrates a Jacobian field-based deformation model with a gradient-free,
simulator-in-the-loop optimization strategy. Across insertion, articulation,
and grasping tasks, GRT consistently discovers deformations that collapse
policy performance, revealing brittle failure modes missed by static
benchmarks. By combining task-level policy rollouts with constraint-aware shape
exploration, we aim to build a general purpose framework for structured,
object-centric robustness evaluation in robotic manipulation. We additionally
show that fine-tuning on individual CrashShapes, a process we refer to as
blue-teaming, improves task success by up to 60 percentage points on those
shapes, while preserving performance on the original object, demonstrating the
utility of red-teamed geometries for targeted policy refinement. Finally, we
validate both red-teaming and blue-teaming results with a real robotic arm,
observing that simulated CrashShapes reduce task success from 90% to as low as
22.5%, and that blue-teaming recovers performance to up to 90% on the
corresponding real-world geometry -- closely matching simulation outcomes.
Videos and code can be found on our project website:
https://georedteam.github.io/ .
Ссылки и действия
Дополнительные ресурсы: