Constrained Decoding for Robotics Foundation Models
2509.01728v1
cs.RO, cs.LG, cs.LO
2025-09-05
Авторы:
Parv Kapoor, Akila Ganlath, Changliu Liu, Sebastian Scherer, Eunsuk Kang
Резюме на русском
## Контекст
Роботические фундаментальные модели — это общероботные, нейронно-прикладные модели, основанные на крупных датасетах робототраекторий. Они обладают способностью обрабатывать многомодальные входные данные и выводить последовательность действий, которая сразу же реализуется в реальном мире. Это позволяет моделям обеспечивать универсальность поведения и перекрестную настройку всевозможных задач. Однако, несмотря на их удобство и широкое применение, эти модели остаются данныно-зависимыми. Они не имеют прямого представления о безопасности, точности или других ограничениях поведения. Эти недостатки могут привести к нежелательным или опасным действиям в реальных условиях. Мы предлагаем обходить этот недостаток, представив фреймворк констрейнд декодирования, который устанавливает ограничения на действия в динамических системах, применяя логические условия вида Signal Temporal Logic (STL).
## Метод
Мы предлагаем расширенную архитектуру для декодирования, которая включает в себя функционал проверки действий в реальном времени на соответствие логическим ограничениям, заданным в STL. Метод не требует переучивания модели, а вместо этого использует готовый модельный фреймворк, добавив слой ограничений на выход. Мы предлагаем алгоритм, который реализует это ограничение в ходе вывода действий в реальном времени, используя оптимизационные техники. Это позволяет гарантировать, что выходной траектории не только эффективны, но и соответствуют требованиям безопасности и функциональности. Мы также поддерживаем агностизм к основной модели, что делает нашу технику легко пригодной для различных моделей.
## Результаты
Мы проводили тщательную оценку нашей техники в рамках трех робототехнических моделей, основанных на фундаментальных моделях, работающих на основе пространственных и динамических задач. Мы показали, что наш метод может эффективно отфильтровать небезопасные действия, созданные моделью, при этом не приводя к потерям в производительности. Кроме того, мы продемонстрировали, что наша техника может быть использована для условного генерирования действий в зависимости от выполнения STL-условий. Эксперименты проводились на сложных, реальных данных, в том числе на задачах навигации в различных средах. Мы также разместили видео демонстраций на нашем сайте для демонстрации реальных применений.
## Значимость
Наша работа вносит вклад в развитие универсальных роботоведчиков, которые могут применяться в различных сферах, где требуется безопасность и точность действий. Нашим фреймворком легко могут воспользоваться разработчики моделей для динамических систем, не требуя полного пере
Abstract
Recent advances in the development of robotic foundation models have led to
promising end-to-end and general-purpose capabilities in robotic systems. These
models are pretrained on vast datasets of robot trajectories to process
multi-modal inputs and directly output a sequence of action that the system
then executes in the real world. Although this approach is attractive from the
perspective of improved generalization across diverse tasks, these models are
still data-driven and, therefore, lack explicit notions of behavioral
correctness and safety constraints. We address these limitations by introducing
a constrained decoding framework for robotics foundation models that enforces
logical constraints on action trajectories in dynamical systems. Our method
ensures that generated actions provably satisfy signal temporal logic (STL)
specifications at runtime without retraining, while remaining agnostic of the
underlying foundation model. We perform comprehensive evaluation of our
approach across state-of-the-art navigation foundation models and we show that
our decoding-time interventions are useful not only for filtering unsafe
actions but also for conditional action-generation. Videos available on our
website: https://constrained-robot-fms.github.io
Ссылки и действия
Дополнительные ресурсы: