RoboInspector: Unveiling the Unreliability of Policy Code for LLM-enabled Robotic Manipulation

2508.21378v1 cs.RO, cs.AI 2025-09-02
Авторы:

Chenduo Ying, Linkang Du, Peng Cheng, Yuanchao Shu

Резюме на русском

## Контекст Large language models (LLMs) открыли новые возможности в области робототехники, особенно в робутической манипуляции, где могут генерировать политический код для управления роботами на основе простых инструкций. Однако, несмотря на выдающиеся возможности LLMs, получение надежных политических кодов для управления роботами остается значимой проблемой. Это связано с различием в пользовательских инструкциях, сложностью реализации задач в реальном мире и субъективным пониманием инструкций. Таким образом, необходимо выявить и исследовать проблемы, связанные с недостоверностью политического кода. ## Метод Мы предлагаем **RoboInspector**, полноценную методологию для определения и анализа недостоверности политического кода в LLMs-сущностих робототехнических системах. Метод основывается на двух основных перспективах: сложности манипуляционной задачи и детализации инструкции. Для экспериментов использовались 168 различных комбинаций задач, инструкций и LLMs, протестированных в двух представительных робототехнических фреймворках. Эти эксперименты позволили выявить 4 типа недостоверности, приводящих к сбоям в манипуляциях. ## Результаты RoboInspector выявил 4 типа недостоверности: (1) **несоответствие инструкции реальным требованиям**, (2) **неполнота информации в инструкции**, (3) **непоследовательность в поведении робота**, и (4) **ошибки при определении целей**. Эти недостоверности были тщательно проанализированы с учетом своих причин и последствий. Далее, мы представили метод улучшения на основе обратной связи от неудачных политик, который улучшил надежность политического кода до 35%. Эти результаты были подтверждены как в симуляционных, так и в реальных условиях. ## Значимость Предложенная методология имеет значительное значение для развития надежных робототехнических систем. Она может быть применена в сценариях, где требуется высокая достоверность политического кода, например, в сферах автоматизированного производства, гражданской защиты и домашнего автоматизации. Выявление и устранение недостоверности политического кода не только повышают надежность, но и сокращают время разработки и тестирования. ## Выводы Результаты экспериментов показали, что RoboInspector эффективно выявляет и анализирует недостоверности в политическом коде LLMs-enabled робототехнических системах. Наша методология и рефинементный подход не только улучшают надежность, но также облегчают практическое применение LLMs в робототехнике. Будущие исследования будут сфокусированы на улучшении точности определения недостоверностей и расширении RoboInspector для разнообразных робототехничес

Abstract

Large language models (LLMs) demonstrate remarkable capabilities in reasoning and code generation, enabling robotic manipulation to be initiated with just a single instruction. The LLM carries out various tasks by generating policy code required to control the robot. Despite advances in LLMs, achieving reliable policy code generation remains a significant challenge due to the diverse requirements of real-world tasks and the inherent complexity of user instructions. In practice, different users may provide distinct instructions to drive the robot for the same task, which may cause the unreliability of policy code generation. To bridge this gap, we design RoboInspector, a pipeline to unveil and characterize the unreliability of the policy code for LLM-enabled robotic manipulation from two perspectives: the complexity of the manipulation task and the granularity of the instruction. We perform comprehensive experiments with 168 distinct combinations of tasks, instructions, and LLMs in two prominent frameworks. The RoboInspector identifies four main unreliable behaviors that lead to manipulation failure. We provide a detailed characterization of these behaviors and their underlying causes, giving insight for practical development to reduce unreliability. Furthermore, we introduce a refinement approach guided by failure policy code feedback that improves the reliability of policy code generation by up to 35% in LLM-enabled robotic manipulation, evaluated in both simulation and real-world environments.

Ссылки и действия