Using Natural Language for Human-Robot Collaboration in the Real World

2508.11759v1 cs.RO, cs.AI, cs.CL 2025-08-19
Авторы:

Peter Lindes, Kaoutar Skiker

Резюме на русском

## Контекст Современная технология развивается в графе создания автономных роботов, способных сотрудничать с людьми в процессе выполнения сложных задач в реальном мире. Одна из ключевых задач в этой области – обеспечение надежного естественноязыкового взаимодействия между роботом и человеком. Несмотря на то, что традиционные системы интерактивного обучения заданиям (Interactive Task Learning, ITL) могут обрабатывать некоторые типы задач с помощью ограниченного языкового понимания, их возможности остаются недостаточными для реализации полноценного естественноязыкового взаимодействия. В связи с этим появляется необходимость в развитии систем, использующих роль крупных языковых моделей (LLM), чтобы улучшить понимание естественного языка роботами. Но интеграция таких моделей в системы, работающие в физическом мире, представляет собой сложную задачу. Целью данного исследования является изучение способов создания роботов, способных естественно языковому общению, и оценка потенциальных преимуществ этого подхода. ## Метод Для достижения целей исследования использовался подход, основанный на использовании роботов с центральной системой управления AI Cognitive Agent, которая способствует пониманию естественного языка, взаимодействию с человеком и сбору ситуационного знания во время выполнения задач. Работа системы основывается на использовании LLM, такого как ChatGPT, для разбора и восприятия естественного языка. Основными этапами методологии являются: сбор и анализ данных, разработка методов обработки естественного языка, интеграция LLM в систему управления роботом, и проведение экспериментов для проверки модели. ## Результаты В рамках исследования были проведены несколько простых экспериментов, обосновавших возможность применения LLM для роботов. Например, с использованием ChatGPT было продемонстрировано, что модель может понимать и воспринимать простые команды, отвечать на вопросы, а также взаимодействовать с роботом в логическом порядке. Также были проведены проверки на возможности синтеза естественного языка, чтобы робот мог генерировать ответы на вопросы или команды в доступном формате. Эксперименты показали, что модель LLM может улучшить понимание роботами естественных команд, но требуется продолжительная работа над системой для улучшения точности и реакции на контекст. ## Значимость Результаты работы открывают новые возможности для использования роботов в реальном мире, где естественное взаимодействие с людьми становится ключом к успеху. Использование LLM позволяет роботу не только выполнять задачи, но и общаться с человеком в естественной форме, что увеличивает удобство испо

Abstract

We have a vision of a day when autonomous robots can collaborate with humans as assistants in performing complex tasks in the physical world. This vision includes that the robots will have the ability to communicate with their human collaborators using language that is natural to the humans. Traditional Interactive Task Learning (ITL) systems have some of this ability, but the language they can understand is very limited. The advent of large language models (LLMs) provides an opportunity to greatly improve the language understanding of robots, yet integrating the language abilities of LLMs with robots that operate in the real physical world is a challenging problem. In this chapter we first review briefly a few commercial robot products that work closely with humans, and discuss how they could be much better collaborators with robust language abilities. We then explore how an AI system with a cognitive agent that controls a physical robot at its core, interacts with both a human and an LLM, and accumulates situational knowledge through its experiences, can be a possible approach to reach that vision. We focus on three specific challenges of having the robot understand natural language, and present a simple proof-of-concept experiment using ChatGPT for each. Finally, we discuss what it will take to turn these simple experiments into an operational system where LLM-assisted language understanding is a part of an integrated robotic assistant that uses language to collaborate with humans.

Ссылки и действия

Связанные статьи

Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Dr...

## Контекст Современные автономные системы движения сталкиваются с рядом сложностей в обеспечении безопасности и эффект...

2025-09-26

HARMONIC: A Content-Centric Cognitive Robotic Architecture

## Контекст Исследование HARMONIC адресовано развитию нового поколения роботов, входящих в состав гуманоидных команд. Ос...

2025-09-18

HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision...

Недавние достижения в области multimodal large language models (MLLMs) обеспечили богатый perceptual grounding для gener...

2025-08-09