INTENTION: Inferring Tendencies of Humanoid Robot Motion Through Interactive Intuition and Grounded VLM

2508.04931v1 cs.RO, cs.AI 2025-08-09
Авторы:

Jin Wang, Weijie Wang, Boyuan Deng, Heng Zhang, Rui Dai, Nikos Tsagarakis

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современная робототехника манипуляции сталкивается с фундаментальным противоречием между теоретической эффективностью и практической применимостью. Традиционные методы управления и планирования манипуляций роботов опираются на точные физические модели и предопределенные последовательности действий. Эти подходы демонстрируют высокую эффективность в структурированных, контролируемых средах, таких как производственные линии или лабораторные условия, где параметры окружающей среды можно точно измерить и предсказать. Однако при переходе в реальные неструктурированные условия эти методы сталкиваются с критическими ограничениями, связанными с неизбежными неточностями моделирования, неопределенностью параметров объектов взаимодействия и невозможностью заранее предусмотреть все возможные сценарии поведения. Проблема усложняется тем, что реальный мир характеризуется огромным разнообразием объектов, каждый из которых обладает уникальными физическими свойствами, геометрией и возможностями взаимодействия. Традиционные системы требуют ручного программирования правил для каждого нового объекта или задачи, что становится практически невозможным при масштабировании. Более того, предопределенные последовательности действий не обеспечивают необходимую адаптивность к изменяющимся условиям среды, что приводит к сбоям даже при незначительных отклонениях от ожидаемого сценария. В контрасте с роботами, человек демонстрирует поразительную способность интуитивно взаимодействовать с окружающей средой, быстро адаптируясь к новым условиям и принимая эффективные решения на основе неявного физического понимания. Человеческое взаимодействие опирается на богатый опыт предыдущих взаимодействий, позволяющий делать обоснованные предположения о свойствах объектов и возможных способах манипуляции без точного знания всех параметров. Это интуитивное понимание включает в себя распознавание физических связей между объектами, понимание их функциональных возможностей (аффордансов) и способность к обобщению знаний на новые ситуации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения описанных проблем авторы предлагают революционный фреймворк INTENTION (Inferring Tendencies of Humanoid Robot Motion Through Interactive Intuition and Grounded VLM), который синтезирует достижения в области моделей зрения-языка (VLMs) с механизмами интерактивного обучения. Центральной концепцией фреймворка является создание системы, способной к автономному обучению из взаимодействий с окружающей средой, формируя интуитивное понимание, аналогичное человеческому. Основой архитектуры является Memory Graph - графовая структура данных, которая систематически записывает и организует информацию о сценах из предыдущих взаимодействий с задачами. Этот компонент эмулирует человеческую память о взаимодействиях, сохраняя не только визуальные признаки сцен, но и структурированные представления о физических связях между объектами, последовательности действий и их результаты. Memory Graph использует графовую топологию для представления сложных отношений между элементами сцены, позволяя эффективно запрашивать похожие ситуации из прошлого опыта и делать обобщенные выводы для новых сцен. Следующим ключевым компонентом является Intuitive Perceptor - специализированный модуль, который извлекает физические отношения и аффордансы из визуальных сцен. Этот модуль использует продвинутые компьютерные зрительные техники в сочетании с возможностями современных VLM для понимания контекста сцены. Он способен идентифицировать не только объекты и их позиции, но и фундаментальные физические свойства - такие как масса, стабильность, возможность скольжения или вращения, а также функциональные возможности объектов (например, "ручка позволяет тянуть", "крышка может открываться"). Интеграция этих компонентов реализуется через сложную систему обратной связи, где Intuitive Perceptor обеспечивает текущее понимание сцены, а Memory Graph предлагает контекстуально-зависимые рекомендации на основе истории взаимодействий. Эта архитекктура позволяет роботу делать обоснованные предположения о наиболее эффективных способах взаимодействия с новыми объектами без необходимости в явных инструкциях или точных моделях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ Р

Abstract

Traditional control and planning for robotic manipulation heavily rely on precise physical models and predefined action sequences. While effective in structured environments, such approaches often fail in real-world scenarios due to modeling inaccuracies and struggle to generalize to novel tasks. In contrast, humans intuitively interact with their surroundings, demonstrating remarkable adaptability, making efficient decisions through implicit physical understanding. In this work, we propose INTENTION, a novel framework enabling robots with learned interactive intuition and autonomous manipulation in diverse scenarios, by integrating Vision-Language Models (VLMs) based scene reasoning with interaction-driven memory. We introduce Memory Graph to record scenes from previous task interactions which embodies human-like understanding and decision-making about different tasks in real world. Meanwhile, we design an Intuitive Perceptor that extracts physical relations and affordances from visual scenes. Together, these components empower robots to infer appropriate interaction behaviors in new scenes without relying on repetitive instructions. Videos: https://robo-intention.github.io

Ссылки и действия