RoboInspector: Unveiling the Unreliability of Policy Code for LLM-enabled Robotic Manipulation
2508.21378v1
cs.RO, cs.AI
2025-09-02
Авторы:
Chenduo Ying, Linkang Du, Peng Cheng, Yuanchao Shu
Резюме на русском
## Контекст
Large language models (LLMs) открыли новые возможности в области робототехники, особенно в робутической манипуляции, где могут генерировать политический код для управления роботами на основе простых инструкций. Однако, несмотря на выдающиеся возможности LLMs, получение надежных политических кодов для управления роботами остается значимой проблемой. Это связано с различием в пользовательских инструкциях, сложностью реализации задач в реальном мире и субъективным пониманием инструкций. Таким образом, необходимо выявить и исследовать проблемы, связанные с недостоверностью политического кода.
## Метод
Мы предлагаем **RoboInspector**, полноценную методологию для определения и анализа недостоверности политического кода в LLMs-сущностих робототехнических системах. Метод основывается на двух основных перспективах: сложности манипуляционной задачи и детализации инструкции. Для экспериментов использовались 168 различных комбинаций задач, инструкций и LLMs, протестированных в двух представительных робототехнических фреймворках. Эти эксперименты позволили выявить 4 типа недостоверности, приводящих к сбоям в манипуляциях.
## Результаты
RoboInspector выявил 4 типа недостоверности: (1) **несоответствие инструкции реальным требованиям**, (2) **неполнота информации в инструкции**, (3) **непоследовательность в поведении робота**, и (4) **ошибки при определении целей**. Эти недостоверности были тщательно проанализированы с учетом своих причин и последствий. Далее, мы представили метод улучшения на основе обратной связи от неудачных политик, который улучшил надежность политического кода до 35%. Эти результаты были подтверждены как в симуляционных, так и в реальных условиях.
## Значимость
Предложенная методология имеет значительное значение для развития надежных робототехнических систем. Она может быть применена в сценариях, где требуется высокая достоверность политического кода, например, в сферах автоматизированного производства, гражданской защиты и домашнего автоматизации. Выявление и устранение недостоверности политического кода не только повышают надежность, но и сокращают время разработки и тестирования.
## Выводы
Результаты экспериментов показали, что RoboInspector эффективно выявляет и анализирует недостоверности в политическом коде LLMs-enabled робототехнических системах. Наша методология и рефинементный подход не только улучшают надежность, но также облегчают практическое применение LLMs в робототехнике. Будущие исследования будут сфокусированы на улучшении точности определения недостоверностей и расширении RoboInspector для разнообразных робототехничес
Abstract
Large language models (LLMs) demonstrate remarkable capabilities in reasoning
and code generation, enabling robotic manipulation to be initiated with just a
single instruction. The LLM carries out various tasks by generating policy code
required to control the robot. Despite advances in LLMs, achieving reliable
policy code generation remains a significant challenge due to the diverse
requirements of real-world tasks and the inherent complexity of user
instructions. In practice, different users may provide distinct instructions to
drive the robot for the same task, which may cause the unreliability of policy
code generation. To bridge this gap, we design RoboInspector, a pipeline to
unveil and characterize the unreliability of the policy code for LLM-enabled
robotic manipulation from two perspectives: the complexity of the manipulation
task and the granularity of the instruction. We perform comprehensive
experiments with 168 distinct combinations of tasks, instructions, and LLMs in
two prominent frameworks. The RoboInspector identifies four main unreliable
behaviors that lead to manipulation failure. We provide a detailed
characterization of these behaviors and their underlying causes, giving insight
for practical development to reduce unreliability. Furthermore, we introduce a
refinement approach guided by failure policy code feedback that improves the
reliability of policy code generation by up to 35% in LLM-enabled robotic
manipulation, evaluated in both simulation and real-world environments.
Ссылки и действия
Дополнительные ресурсы: