Mixed-Initiative Dialog for Human-Robot Collaborative Manipulation
2508.05535v1
cs.RO, cs.CL, cs.HC, cs.LG, cs.MA, I.2.9; I.2.7; I.2.6
2025-08-09
Авторы:
Albert Yu, Chengshu Li, Luca Macesanu, Arnav Balaji, Ruchira Ray, Raymond Mooney, Roberto Martín-Martín
Резюме на русском
**Резюме**
В поиске эффективных систем развития коллаборативных задач в условиях долгосрочного сотрудничества между роботом и человеком возникает необходимость в гибкой и эффективной системе общения. Рассмотрена Mixed-Initiative dialog paradigm, которая позволяет как роботу, так и человеку, свободно предлагать, принимать или отклонять идеи в процессе работы. Мы представляем MICoBot — систему, решающую задачи в диалоге с роботом, который может предлагать решения и самостоятельно решать, кто лучше выполнит какой-то шаг задачи. MICoBot работает на трех уровнях: (1) метапланирование для формирования глобальной стратегии, (2) планирование для оптимального распределения действий между роботом и человеком, и (3) действия, реализуемые роботом. Успешность MICoBot была проверена в реальном мире с 18 участниками в тестировании на протяжении 27 часов. Эта методика демонстрирует высокую эффективность, превосходя базовый основанный на LLM и другие модели.
Abstract
Effective robotic systems for long-horizon human-robot collaboration must
adapt to a wide range of human partners, whose physical behavior, willingness
to assist, and understanding of the robot's capabilities may change over time.
This demands a tightly coupled communication loop that grants both agents the
flexibility to propose, accept, or decline requests as they coordinate toward
completing the task effectively. We apply a Mixed-Initiative dialog paradigm to
Collaborative human-roBot teaming and propose MICoBot, a system that handles
the common scenario where both agents, using natural language, take initiative
in formulating, accepting, or rejecting proposals on who can best complete
different steps of a task. To handle diverse, task-directed dialog, and find
successful collaborative strategies that minimize human effort, MICoBot makes
decisions at three levels: (1) a meta-planner considers human dialog to
formulate and code a high-level collaboration strategy, (2) a planner optimally
allocates the remaining steps to either agent based on the robot's capabilities
(measured by a simulation-pretrained affordance model) and the human's
estimated availability to help, and (3) an action executor decides the
low-level actions to perform or words to say to the human. Our extensive
evaluations in simulation and real-world -- on a physical robot with 18 unique
human participants over 27 hours -- demonstrate the ability of our method to
effectively collaborate with diverse human users, yielding significantly
improved task success and user experience than a pure LLM baseline and other
agent allocation models. See additional videos and materials at
https://robin-lab.cs.utexas.edu/MicoBot/.