#### Контекст
Область исследования, связанная с embodied cognition, нацелена на развитие технологий, позволяющих системам понимать и взаимодействовать с физическим миром на более точном уровне. Однако существуют значительные проблемы в этой области, включая недостаточность данных для обучения моделей, ограниченные возможности понимания видеопоследовательностей и недостаточное развитие общих решений для обеспечения гранулярности и точности взаимодействия. Мотивация для этого исследования заключается в развитии моделей, которые могут эффективно обрабатывать видеоданные, обеспечивая глубокое понимание физического мира и поддерживая тонко настроенные взаимодействия.
#### Метод
RynnEC является видеомодульным большой языковой моделью, ориентированной на embodied cognition. Основной архитектурой является общего назначения модель видения и языка, дополненная региональным кодировщиком и масковым декодером. Эти компоненты позволяют модели взаимодействовать с видео на уровне регионов, обеспечивая гранулярность в обработке. Метод использует готовую модель видения и языка, улучшая ее для обработки видео с точки зрения регионов. Процесс обучения включает адаптацию модели к задачам, таким как обнаружение свойств объектов, сегментация объектов и пространственное рассуждение, используя новые данные, полученные с помощью предложенного пайплайна для генерирования 3D-данных.
#### Результаты
Результаты показывают, что RynnEC превосходит существующие модели по метрикам, таким как Precision, Recall и F1-score, в задачах, таких как обнаружение свойств объектов, сегментация и пространственное рассуждение. Эксперименты проводились на собственном RynnEC-Bench, специально разработанном для оценки embodied cognition. Эти результаты доказывают, что RynnEC не только эффективно обрабатывает видеоданные, но и может совершенствоваться в задачах, требующих тонкой обработки сложных визуальных и пространственных сигналов.
#### Значимость
Результаты RynnEC имеют широкие области применения, включая области, где требуется точная обработка видеоданных, такие как видеонаблюдение, интерактивные системы, проектирование интеллектуальных агентов. Одним из ключевых преимуществ является улучшение точности взаимодействия с физическим миром, что может повлиять на развитие робототехники, AR/VR и систем контроля. Благодаря предлагаемому подходу, модель может стать основой для развития общих центров обработки информации для embodied agents, что способствует расширению возможностей в различных областях.
#### Выводы
RynnEC достигает состояния лидера в области embodied cognition, демонстрируя свою эффективность в трех ключевых задачах. Она обеспечивает то