RynnEC: Bringing MLLMs into Embodied World
2508.14160v1
cs.CV, cs.AI, cs.RO
2025-08-22
Авторы:
Ronghao Dang, Yuqian Yuan, Yunxuan Mao, Kehan Li, Jiangpin Liu, Zhikai Wang, Xin Li, Fan Wang, Deli Zhao
Резюме на русском
#### Контекст
Область исследования, связанная с embodied cognition, нацелена на развитие технологий, позволяющих системам понимать и взаимодействовать с физическим миром на более точном уровне. Однако существуют значительные проблемы в этой области, включая недостаточность данных для обучения моделей, ограниченные возможности понимания видеопоследовательностей и недостаточное развитие общих решений для обеспечения гранулярности и точности взаимодействия. Мотивация для этого исследования заключается в развитии моделей, которые могут эффективно обрабатывать видеоданные, обеспечивая глубокое понимание физического мира и поддерживая тонко настроенные взаимодействия.
#### Метод
RynnEC является видеомодульным большой языковой моделью, ориентированной на embodied cognition. Основной архитектурой является общего назначения модель видения и языка, дополненная региональным кодировщиком и масковым декодером. Эти компоненты позволяют модели взаимодействовать с видео на уровне регионов, обеспечивая гранулярность в обработке. Метод использует готовую модель видения и языка, улучшая ее для обработки видео с точки зрения регионов. Процесс обучения включает адаптацию модели к задачам, таким как обнаружение свойств объектов, сегментация объектов и пространственное рассуждение, используя новые данные, полученные с помощью предложенного пайплайна для генерирования 3D-данных.
#### Результаты
Результаты показывают, что RynnEC превосходит существующие модели по метрикам, таким как Precision, Recall и F1-score, в задачах, таких как обнаружение свойств объектов, сегментация и пространственное рассуждение. Эксперименты проводились на собственном RynnEC-Bench, специально разработанном для оценки embodied cognition. Эти результаты доказывают, что RynnEC не только эффективно обрабатывает видеоданные, но и может совершенствоваться в задачах, требующих тонкой обработки сложных визуальных и пространственных сигналов.
#### Значимость
Результаты RynnEC имеют широкие области применения, включая области, где требуется точная обработка видеоданных, такие как видеонаблюдение, интерактивные системы, проектирование интеллектуальных агентов. Одним из ключевых преимуществ является улучшение точности взаимодействия с физическим миром, что может повлиять на развитие робототехники, AR/VR и систем контроля. Благодаря предлагаемому подходу, модель может стать основой для развития общих центров обработки информации для embodied agents, что способствует расширению возможностей в различных областях.
#### Выводы
RynnEC достигает состояния лидера в области embodied cognition, демонстрируя свою эффективность в трех ключевых задачах. Она обеспечивает то
Abstract
We introduce RynnEC, a video multimodal large language model designed for
embodied cognition. Built upon a general-purpose vision-language foundation
model, RynnEC incorporates a region encoder and a mask decoder, enabling
flexible region-level video interaction. Despite its compact architecture,
RynnEC achieves state-of-the-art performance in object property understanding,
object segmentation, and spatial reasoning. Conceptually, it offers a
region-centric video paradigm for the brain of embodied agents, providing
fine-grained perception of the physical world and enabling more precise
interactions. To mitigate the scarcity of annotated 3D datasets, we propose an
egocentric video based pipeline for generating embodied cognition data.
Furthermore, we introduce RynnEC-Bench, a region-centered benchmark for
evaluating embodied cognitive capabilities. We anticipate that RynnEC will
advance the development of general-purpose cognitive cores for embodied agents
and facilitate generalization across diverse embodied tasks. The code, model
checkpoints, and benchmark are available at:
https://github.com/alibaba-damo-academy/RynnEC
Ссылки и действия
Дополнительные ресурсы: