Interpretable Robot Control via Structured Behavior Trees and Large Language Models

2508.09621v1 cs.RO, cs.AI, cs.LG 2025-08-15
Авторы:

Ingrid Maéva Chekam, Ines Pastor-Martinez, Ali Tourani, Jose Andres Millan-Romera, Laura Ribeiro, Pedro Miguel Bastos Soares, Holger Voos, Jose Luis Sanchez-Lopez

Резюме на русском

#### Контекст Возрастающее внедрение интеллектуальных роботов в человеческие окружения требует разработки интуитивных и надежных систем взаимодействия (Human-Robot Interaction, HRI), которые были бы модульными и естественными для взаимодействия. Традиционные методы управления роботами часто требуют от пользователей адаптироваться к различным интерфейсам или запоминать предварительно заданные команды. Это ограничивает эффективность роботов в динамичных и неструктурированных средах. Данная работа предлагает новую фреймворк, который объединяет технологии облачных языковых моделей с системами управления Behavior Trees (BTs). Эта интеграция позволяет роботам интерпретировать управляющие намерения, выраженные в натуральном языке, и конвертировать их в исполнимые действия с помощью специализированных модулей. Такая архитектура поддерживает простой и гибкий способ реализации перцепционных функций, таких как слежение за людьми и распознавание жестов рук. #### Метод Фреймворк основывается на взаимодействии двух основных компонентов. Во-первых, языковая модель (LLM) обеспечивает понимание и интерпретацию желаний пользователя, выраженных в естественном языке. Затем, данные понимания передаются в систему управления BT, где они преобразуются в выполнимые команды для отдельных модулей. Эти модули могут представлять собой различные функции, такие как распознавание лиц или обнаружение руковыдержанных предметов. Архитектура является модульной, что позволяет добавлять новые функции с помощью дополнительных плагинов. Таким образом, система может быть легко сконфигурирована для различных сценариев. Для обеспечения удобства использования, набор данных для обучения был подготовлен, и утилиты для моделирования сценариев были разработаны. #### Результаты Исследования были проведены в реальных условиях, используя различные среды и задачи. Результаты показали, что система обеспечивает высокую точность распознавания и интерпретации естественного языка, с фактическим успехом в 94%. Это показывает хорошую надёжность предложенного подхода в реальных условиях. Была продемонстрирована гибкость системы при внедрении различных модулей, включая плагины для слежения за людьми и распознавания жестов рук. В результате, разработанная система доказала свою эффективность в преодолении текущих ограничений в сфере HRI и может стать основой для будущих развитий. #### Значимость Предложенная система может быть применена в различных сферах, включая роботизированные дома, производственные цепочки и системы поддержки в сложных и непредсказуемых сценария

Abstract

As intelligent robots become more integrated into human environments, there is a growing need for intuitive and reliable Human-Robot Interaction (HRI) interfaces that are adaptable and more natural to interact with. Traditional robot control methods often require users to adapt to interfaces or memorize predefined commands, limiting usability in dynamic, unstructured environments. This paper presents a novel framework that bridges natural language understanding and robotic execution by combining Large Language Models (LLMs) with Behavior Trees. This integration enables robots to interpret natural language instructions given by users and translate them into executable actions by activating domain-specific plugins. The system supports scalable and modular integration, with a primary focus on perception-based functionalities, such as person tracking and hand gesture recognition. To evaluate the system, a series of real-world experiments was conducted across diverse environments. Experimental results demonstrate that the proposed approach is practical in real-world scenarios, with an average cognition-to-execution accuracy of approximately 94%, making a significant contribution to HRI systems and robots. The complete source code of the framework is publicly available at https://github.com/snt-arg/robot_suite.

Ссылки и действия