Constrained Decoding for Robotics Foundation Models

2509.01728v1 cs.RO, cs.LG, cs.LO 2025-09-05

Авторы:

Parv Kapoor, Akila Ganlath, Changliu Liu, Sebastian Scherer, Eunsuk Kang

Резюме на русском

## Контекст Роботические фундаментальные модели — это общероботные, нейронно-прикладные модели, основанные на крупных датасетах робототраекторий. Они обладают способностью обрабатывать многомодальные входные данные и выводить последовательность действий, которая сразу же реализуется в реальном мире. Это позволяет моделям обеспечивать универсальность поведения и перекрестную настройку всевозможных задач. Однако, несмотря на их удобство и широкое применение, эти модели остаются данныно-зависимыми. Они не имеют прямого представления о безопасности, точности или других ограничениях поведения. Эти недостатки могут привести к нежелательным или опасным действиям в реальных условиях. Мы предлагаем обходить этот недостаток, представив фреймворк констрейнд декодирования, который устанавливает ограничения на действия в динамических системах, применяя логические условия вида Signal Temporal Logic (STL). ## Метод Мы предлагаем расширенную архитектуру для декодирования, которая включает в себя функционал проверки действий в реальном времени на соответствие логическим ограничениям, заданным в STL. Метод не требует переучивания модели, а вместо этого использует готовый модельный фреймворк, добавив слой ограничений на выход. Мы предлагаем алгоритм, который реализует это ограничение в ходе вывода действий в реальном времени, используя оптимизационные техники. Это позволяет гарантировать, что выходной траектории не только эффективны, но и соответствуют требованиям безопасности и функциональности. Мы также поддерживаем агностизм к основной модели, что делает нашу технику легко пригодной для различных моделей. ## Результаты Мы проводили тщательную оценку нашей техники в рамках трех робототехнических моделей, основанных на фундаментальных моделях, работающих на основе пространственных и динамических задач. Мы показали, что наш метод может эффективно отфильтровать небезопасные действия, созданные моделью, при этом не приводя к потерям в производительности. Кроме того, мы продемонстрировали, что наша техника может быть использована для условного генерирования действий в зависимости от выполнения STL-условий. Эксперименты проводились на сложных, реальных данных, в том числе на задачах навигации в различных средах. Мы также разместили видео демонстраций на нашем сайте для демонстрации реальных применений. ## Значимость Наша работа вносит вклад в развитие универсальных роботоведчиков, которые могут применяться в различных сферах, где требуется безопасность и точность действий. Нашим фреймворком легко могут воспользоваться разработчики моделей для динамических систем, не требуя полного пере

Abstract

Recent advances in the development of robotic foundation models have led to promising end-to-end and general-purpose capabilities in robotic systems. These models are pretrained on vast datasets of robot trajectories to process multi-modal inputs and directly output a sequence of action that the system then executes in the real world. Although this approach is attractive from the perspective of improved generalization across diverse tasks, these models are still data-driven and, therefore, lack explicit notions of behavioral correctness and safety constraints. We address these limitations by introducing a constrained decoding framework for robotics foundation models that enforces logical constraints on action trajectories in dynamical systems. Our method ensures that generated actions provably satisfy signal temporal logic (STL) specifications at runtime without retraining, while remaining agnostic of the underlying foundation model. We perform comprehensive evaluation of our approach across state-of-the-art navigation foundation models and we show that our decoding-time interventions are useful not only for filtering unsafe actions but also for conditional action-generation. Videos available on our website: https://constrained-robot-fms.github.io

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация