📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Mano Report

2025-09-24

Авторы:

Tianyu Fu, Anyang Su, Chenxu Zhao, Hanning Wang, Minghui Wu, Zhe Yu, Fei Hu, Mingjia Shi, Wei Dong, Jiayao Wang, Yuyang Chen, Ruiyang Yu, Siran Peng, Menglin Li, Nan Huang, Haitian Wei, Jiawei Yu, Yi Xin, Xilin Zhao, Kai Gu, Ping Jiang, Sifan Zhou, Shuo Wang

## Контекст Графические пользовательские интерфейсы (GUI) являются основным средством взаимодействия между пользователем и компьютером. Однако автоматизация интерактивных GUI-задач остается значительной проблемой из-за сложности визуальных элементов, динамических обстановок и необходимости выполнять многоступенчатую логику решения. Существующие методы, основанные на визуально-языковых моделях (VLMs), сталкиваются с ограниченной разрешающей способностью, несоответствием доменов и недостаточной цепочкой последовательных решений. Для решения этих проблем предлагается Mano — современный GUI-агент, построенный на базе многомодальной основной модели, прошедшей предварительную обучение на большом множестве веб-данных и системных компонентов. Метод Mano включает в себя инновационный симулированный экспериментальный процесс для создания высококачественных данных, последовательную схему обучения (супервизированное тонкое настройка, оффлайн-рекурентное обучение и онлайн-рекурентное обучение), а также модуль проверки для определения ошибок. ## Метод Mano основывается на нескольких ключевых компонентах. Сначала используется многомодальная основная модель, прошедшая предварительное обучение на веб-данных и системных компонентах, что обеспечивает высокую точность в распознавании элементов GUI. Затем вводится симулированный экспериментальный процесс, который генерирует высококачественные данные для обучения в условиях контролируемой среды, уменьшая необходимость работы в настоящем времени. Обучение происходит в трех этапах: супервизированное тонкое настройка (для основного понимания данных), оффлайн-рекурентное обучение (для повышения логических рассуждений) и онлайн-рекурентное обучение (для улучшения реагирования в реальном времени). Наконец, Mano включает модуль проверки, который исправляет ошибки в реакции и обеспечивает согласованность при выполнении задач. ## Результаты Результаты Mano были проверены на нескольких GUI-бенчмарках, включая Mind2Web и OSWorld. Метод показал значительные улучшения в успешном выполнении задач и точности выполнения действий. Например, Mano показал увеличение успешности выполнения задач в сравнении с предшествующими методами на 15%-20%, что демонстрирует возможность метода для работы в реальных сложных ситуациях. Эти результаты подтверждают то, что Mano может адаптироваться к различным GUI-структурам и динамическим условиям взаимодействия. ## Значимость Mano предлагает новые возможности для автоматизации GUI-задач в различных областях, включая контроль программ, мониторинг систем и клиентскую поддержку. Он превосходит предыдущие

Annotation:

Graphical user interfaces (GUIs) are the primary medium for human-computer interaction, yet automating GUI interactions remains challenging due to the complexity of visual elements, dynamic environments, and the need for multi-step reasoning. Existing methods based on vision-language models (VLMs) often suffer from limited resolution, domain mismatch, and insufficient sequential decisionmaking capability. To address these issues, we propose Mano, a robust GUI agent built upon a multi-modal found...

ID: 2509.17336v1 cs.MM, cs.CL, cs.CV

arXiv PDF

📄 Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing Agents

2025-09-22

Авторы:

Xueqiao Zhang, Chao Zhang, Jingtao Xu, Yifan Zhu, Xin Shi, Yi Yang, Yawei Luo

## Контекст В последние годы возросло интерес к развитию ролевых агентов (Role-playing Agents, RPAs), которые способны эмулировать имимерсивные и интерактивные персонажи в различных ситуациях. Однако существующие подходы значительно ограничены, так как основываются только на статических характеристиках персонажей и не учитывают их динамические характеристики, такие как восприятие и реакция на внешний мир. Это существенно ограничивает возможности RPAs в создании более живых и натуральных общений. Мотивирует это тем, что человеческое восприятие и интерактивность характеризуются значительно более гибким, динамическим подходом, который недостаточно учтен в нынешних моделях. Наше исследование направлено на решение этой проблемы, вводя динамические ролевые профили, которые интегрируют видео модальность в RPAs. ## Метод Мы предлагаем Role-playing-Video60k — большой, высококачественный датасет, содержащий 60 тысяч видеозаписей и соответствующих им 700 тысяч диалогов. Для построения динамического ролевого профиля мы адаптивно выбираем кадры из видео и подаем их в трансформерные модели в порядке их воспроизведения. Для динамического ролевого профиля также включается контекстная информация из входных видео во время инференса. Для создания статического профиля используются диалоги персонажей из обучающих видео и краткий сводный контекст из входных видео для инференса. Наша фреймворк сочетает эти два подхода для генерирования более естественных и контекстуально верных ответов. Оценка эффективности проводится по 8 метрикам, чтобы гарантировать тщательное исследование возможностей фреймворка. ## Результаты Мы провели тщательное экспериментальное исследование, используя три основных набора данных, в том числе наш Role-playing-Video60k. Эксперименты показали, что интеграция динамических ролевых профилей значительно улучшает качество ответов RPAs. Мы также проверили различные аспекты нашей модели, включая точность восприятия контекста, гибкость в реагировании на видео, а также время и ресурсы, необходимые для обработки. Эти результаты отражают не только повышение качества ответов, но и эффективность нашей модели в условиях реальной ситуации. ## Значимость Предлагаемый подход может быть применен в различных областях, таких как виртуальные ассистенты, игровые персонажи и даже системы обучения через игровые сценарии. Он предоставляет значительные преимущества, такие как повышение точности и интерактивности в общении, а также расширение возможностей для пользователей. Будущие исследования смо

Annotation:

Role-playing agents (RPAs) have attracted growing interest for their ability to simulate immersive and interactive characters. However, existing approaches primarily focus on static role profiles, overlooking the dynamic perceptual abilities inherent to humans. To bridge this gap, we introduce the concept of dynamic role profiles by incorporating video modality into RPAs. To support this, we construct Role-playing-Video60k, a large-scale, high-quality dataset comprising 60k videos and 700k corre...

ID: 2509.15233v1 cs.MM, cs.CL, cs.CV

arXiv PDF