📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 History-Aware Reasoning for GUI Agents

2025-11-15

Авторы:

Ziwei Wang, Leyang Yang, Xiaoxuan Tang, Sheng Zhou, Dajun Chen, Wei Jiang, Yong Li

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Advances in Multimodal Large Language Models have significantly enhanced Graphical User Interface (GUI) automation. Equipping GUI agents with reliable episodic reasoning capabilities is essential for bridging the gap between users' concise task descriptions and the complexities of real-world execution. Current methods integrate Reinforcement Learning (RL) with System-2 Chain-of-Thought, yielding notable gains in reasoning enhancement. For long-horizon GUI tasks, historical interactions connect e...

ID: 2511.09127v1 cs.AI, cs.CL, cs.CV, cs.HC

arXiv PDF

📄 OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows

2025-10-30

Авторы:

Qiushi Sun, Mukai Li, Zhoumianze Liu, Zhihui Xie, Fangzhi Xu, Zhangyue Yin, Kanzhi Cheng, Zehao Li, Zichen Ding, Qi Liu, Zhiyong Wu, Zhuosheng Zhang, Ben Kao, Lingpeng Kong

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Computer-using agents powered by Vision-Language Models (VLMs) have demonstrated human-like capabilities in operating digital environments like mobile platforms. While these agents hold great promise for advancing digital automation, their potential for unsafe operations, such as system compromise and privacy leakage, is raising significant concerns. Detecting these safety concerns across the vast and complex operational space of mobile environments presents a formidable challenge that remains c...

ID: 2510.24411v1 cs.AI, cs.CL, cs.CV, cs.HC

arXiv PDF

📄 SparkUI-Parser: Enhancing GUI Perception with Robust Grounding and Parsing

2025-09-09

Авторы:

Hongyi Jing, Jiafu Chen, Chen Rao, Ziqiang Dang, Jiajie Teng, Tianyi Chu, Juncheng Mo, Shuo Fang, Huaizhong Lin, Rui Lv, Chenguang Ma, Lei Zhao

#### Контекст Multimodal Large Language Models (MLLMs) представляют собой мощный инструмент для обработки информации, объединяя текстовые данные с другими видами данных. Одна из перспективных областей использования MLLMs — обработка интерфейсов пользователей (GUI). Несмотря на прогресс, достигнутый существующими решениями, существуют недостатки. Многие методы оперируют дискретными координатами, используя авторегрессионные механизмы, что приводит к низкой точности локализации и дорогостоящему времени выполнения. Кроме того, эти модели способны распознавать только предопределенные элементы, не обладая возможностью полного парсинга интерфейса. Это ограничивает их применение в различных сценариях и ограничивает потенциал для поддержки подсистемных задач. Наша цель — разработать систему, обеспечивающую высокую точность и гибкость в распознавании интерфейсов. #### Метод Мы предлагаем SparkUI-Parser — новую модель, которая обеспечивает полный парсинг интерфейса и высокую точность локализации. Модель основывается на предварительно обученном MLLM и имеет два ключевых компонента: **токен-руссет** и **координатный декодер**. Вместо дискретного моделирования координат, SparkUI-Parser использует непрерывное моделирование, что позволяет избежать ограничений авторегрессионных методов. Для улучшения стабильности ввода вводится **режим реагирования**, основанный на модифицированном алгоритме Ханжамана. Это позволяет модели отбрасывать несуществующие элементы, уменьшая ложные срабатывания. Также мы представляем **ScreenParse**, новую базу данных для оценки структурного распознавания GUI, которая позволяет сравнивать модели в различных сценариях. #### Результаты Мы провели ряд экспериментов на множестве задач, включая ScreenSpot, ScreenSpot-v2, CAGUI-Grounding и ScreenParse. Модель SparkUI-Parser показала значительное превосходство по сравнению с состоянием технологий (SOTA) во всех этих зонах. Она достигла высокой точности локализации, быстроты выполнения и общей гибкости при обработке различных типов интерфейсов. Эксперименты подтвердили, что наш подход не только повышает точность, но и увеличивает скорость работы, что делает его применимым для реального времени. #### Значимость SparkUI-Parser может быть применен в различных областях, где требуется автоматизированное распознавание интерфейсов, например, в системах автоматического тестирования, видеоидентификации и разработке пользовательских интерфейсов. Он предлагает ряд преимуществ, включая высокую точность, быстроту и гибкость. Благодаря этому, модель может существенно улучшить производительность и надежность приложений, основанных на распозна

Annotation:

The existing Multimodal Large Language Models (MLLMs) for GUI perception have made great progress. However, the following challenges still exist in prior methods: 1) They model discrete coordinates based on text autoregressive mechanism, which results in lower grounding accuracy and slower inference speed. 2) They can only locate predefined sets of elements and are not capable of parsing the entire interface, which hampers the broad application and support for downstream tasks. To address the ab...

ID: 2509.04908v1 cs.AI, cs.CL, cs.CV, cs.HC

arXiv PDF

📄 AppCopilot: Toward General, Accurate, Long-Horizon, and Efficient Mobile Agent

2025-09-05

Авторы:

Jingru Fan, Yufan Dang, Jingyao Wu, Huatao Li, Runde Yang, Xiyuan Yang, Yuheng Wang, Zhong Zhang, Yaxi Lu, Yankai Lin, Zhiyuan Liu, Dahai Li, Chen Qian

#### Контекст Мобильные агенты, поддерживающие взаимодействие с пользователями через мобильные приложения, становятся все более важной частью современных систем. Однако существуют некоторые значительные проблемы, которые должны быть решены для того, чтобы эти системы могли обеспечить практический и масштабируемый вклад. Основными вызовами являются: (1) общействование по всему спектру задач, моделей и устройств; (2) высокая точность выполнения напрямую на экране устройства; (3) устойчивость в ходе выполнения многошаговых задач; (4) эффективность, чтобы работать с ограниченными ресурсами и занимать минимальное время. Наше исследование направлено на развитие системы, которая бы решала эти проблемы и позволяла построить более универсальные и эффективные мобильные агенты. #### Метод Мы предлагаем AppCopilot, который представляет собой многомодальную, многоагентную модель, работающую на устройстве, позволяющую удовлетворить потребности пользователей в различных приложениях. Эта модель работает в рамках полного цикла, начиная с сбора данных и заканчивая развертыванием модели и разработкой приложений. Мы использовали архитектуру, основанную на цепочке мышления, цепочке задач и взаимодействии многоагентной системы для решения задач. Многомодальность позволяет AppCopilot работать с текстом, изображениями и другими модальностями, что делает его универсальным. Мы также оптимизировали модель для эффективности в терминах загрузки процессора, памяти и энергопотребления на ресурсно-ограниченных устройствах. #### Результаты Мы провели эксперименты для оценки AppCopilot, сопоставив его с другими моделями в пределах тех же задач. Мы использовали реальные данные, собранные из различных мобильных приложений, и оценили его на точности выполнения задач, возможности общействования, многошаговых задач и эффективности работы. Опытными результатами показано, что AppCopilot превосходит другие модели по всем основным критериям: он демонстрирует более высокую общинность, точность внутри приложений, долгосрочную надежность и эффективность выполнения. #### Значимость AppCopilot может применяться в различных областях, таких как управление устройствами, помощь в жизненных ситуациях, улучшение работы мобильных приложений и автоматизация рутинных задач. Он обеспечивает высокую точность, универсальность и эффективность, что делает его привлекательным для разработчиков мобильных приложений и пользователей, желающих использовать более мощные и надежные мобильные агенты. #### Выводы Наше исследование показало, что AppCopilot является прорывным в области мобильных а

Annotation:

With the raid evolution of large language models and multimodal foundation models, the mobile-agent landscape has proliferated without converging on the fundamental challenges. This paper identifies four core problems that must be solved for mobile agents to deliver practical, scalable impact: (1) generalization across tasks, modalities, apps, and devices; (2) accuracy, specifically precise on-screen interaction and click targeting; (3) long-horizon capability for sustained, multi-step goals; an...

ID: 2509.02444v1 cs.AI, cs.CL, cs.CV, cs.HC

arXiv PDF

📄 UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

2025-09-05

Авторы:

Haoming Wang, Haoyang Zou, Huatong Song, Jiazhan Feng, Junjie Fang, Junting Lu, Longxiang Liu, Qinyu Luo, Shihao Liang, Shijue Huang, Wanjun Zhong, Yining Ye, Yujia Qin, Yuwen Xiong, Yuxin Song, Zhiyong Wu, Bo Li, Chen Dun, Chong Liu, Fuxing Leng, Hanbin Wang, Hao Yu, Haobin Chen, Hongyi Guo, Jing Su, Jingjia Huang, Kai Shen, Kaiyu Shi, Lin Yan, Peiyao Zhao, Pengfei Liu, Qinghao Ye, Renjie Zheng, Wayne Xin Zhao, Wen Heng, Wenhao Huang, Wenqian Wang, Xiaobo Qin, Yi Lin, Youbin Wu, Zehui Chen, Zihao Wang, Baoquan Zhong, Xinchun Zhang, Xujing Li, Yuanfan Li, Zhongkai Zhao, Chengquan Jiang, Faming Wu, Haotian Zhou, Jinlin Pang, Li Han, Qianli Ma, Siyao Liu, Songhua Cai, Wenqi Fu, Xin Liu, Zhi Zhang, Bo Zhou, Guoliang Li, Jiajun Shi, Jiale Yang, Jie Tang, Li Li, Taoran Lu, Woyu Lin, Xiaokang Tong, Xinyao Li, Yichi Zhang, Yu Miao, Zhengxuan Jiang, Zili Li, Ziyuan Zhao, Chenxin Li, Dehua Ma, Feng Lin, Ge Zhang, Haihua Yang, Hangyu Guo, Hongda Zhu, Jiaheng Liu, Junda Du, Kai Cai, Kuanye Li, Lichen Yuan, Meilan Han, Minchao Wang, Shuyue Guo, Tianhao Cheng, Xiaobo Ma, Xiaojun Xiao, Xiaolong Huang, Xinjie Chen, Yidi Du, Yilin Chen, Yiwen Wang, Zhaojian Li, Zhenzhu Yang, Zhiyuan Zeng, Chaolin Jin, Chen Li, Hao Chen, Haoli Chen, Jian Chen, Qinghao Zhao, Guang Shi

## Контекст На визуальных интерфейсах (GUI) происходит большая часть современного взаимодействия с компьютерами. Однако создание автономных агентов для работы с GUI остается вызовом в области искусственного интеллекта (AI). Решение этой задачи требует реализации сложных процессов, таких как визуальное восприятие, решение задач и запоминание. Несмотря на некоторые успехи, существуют проблемы, такие как нехватка масштабируемых данных, нестабильность среды, ограниченность GUI-только операций, а также недостаточное удовлетворение многократных задач. UI-TARS-2 является новым GUI-агентом, который рассчитан на то, чтобы решить эти проблемы и улучшить производительность в различных сценариях взаимодействия. ## Метод UI-TARS-2 является результатом систематического развития GUI-агента. Он основывается на использовании **двухтактного подхода** для улучшения масштабируемости данных. Используется **интегрированная среда**, включающая в себя файловые системы и терминалы. Агент тренируется в рамках **органичной тренировки**, что позволяет ему выполнять более сложные задачи в течение нескольких шагов. Благодаря **эволюционному движку**, UI-TARS-2 может быть масштабирован на больших данных. Кроме того, **платформа для моделирования рисков** и **обучение с подкреплением** позволяют агенту решать сложные задачи в различных средах, включая игровые и профессиональные. ## Результаты Проведены эксперименты для оценки производительности UI-TARS-2. На бенчмарках, таких как **Online-Mind2Web**, **OSWorld**, **WindowsAgentArena** и **AndroidWorld**, UI-TARS-2 показал признаки улучшения в сравнении с предшественником, достигнув оценки 88.2, 47.5, 50.6 и 73.3, соответственно. На игровых бенчмарках он достиг значения 59.8, что составляет около 60% от значения на уровне человека, и оказался конкурентоспособным с такими фронтерными моделями, как **OpenAI o3**. Агент также показал хорошую общинность на задачах, таких как **long-horizon information-seeking tasks** и **software engineering benchmarks**, значительно увеличив производительность в этих областях. ## Значимость UI-TARS-2 может быть применен в различных областях, включая **игровые окружения**, **GUI-операции**, **информационные поисковые задачи** и **профессиональные приложения**. Он обеспечивает улучшение производительности, устойчивость и возможность решения более сложных задач. Для развития AI в области GUI он представляет собой показательный шаг вперед. Улучшение обучения с подкреплением, объединение различных сред и масштабирование данных делают этот агент более универсальным и эффективным для реальных сценариев. ## Выводы Результаты показывают, что UI-TARS-

Annotation:

The development of autonomous agents for graphical user interfaces (GUIs) presents major challenges in artificial intelligence. While recent advances in native agent models have shown promise by unifying perception, reasoning, action, and memory through end-to-end learning, open problems remain in data scalability, multi-turn reinforcement learning (RL), the limitations of GUI-only operation, and environment stability. In this technical report, we present UI-TARS-2, a native GUI-centered agent m...

ID: 2509.02544v1 cs.AI, cs.CL, cs.CV, cs.HC

arXiv PDF

📄 E3RG: Building Explicit Emotion-driven Empathetic Response Generation System with Multimodal Large Language Model

2025-08-20

Авторы:

Ronghao Lin, Shuai Shen, Weipeng Hu, Qiaolin He, Aolin Xiong, Li Huang, Haifeng Hu, Yap-peng Tan

## Контекст Многомодальная эмпатическая генерация ответов (MERG) является ключевым компонентом создания эмоционально интеллектуальных взаимодействий между людьми и компьютерами. Несмотря на то, что большие языковые модели (LLMs) улучшили текстовую эмоциональную генерацию ответов, остаются сложности в обработке многомодального эмоционального контента и сохранении консистентности личности. Эти проблемы ограничивают эффективность текущих систем. Чтобы сделать MERG более эмоционально богатым и идентичным, необходимо использовать более совершенные подходы, которые учитывают комплексность эмоциональных сигналов и поддерживают консистентность личности в ходе взаимодействия. ## Метод Мы предлагаем E3RG, систему эмоционального эмпатического генерирования ответов на основе многомодальных LLMs. Методология E3RG декомпозирует задачу MERG на три модуля: понимание эмоций многомодального контента, восстановление эмоциональной памяти и многомодальное генерирование ответов. Эти модули используют новейшие модели для генерации речи и видео, что позволяет E3RG генерировать ответы, описывающие эмоциональное состояние, без дополнительной подготовки. Благодаря этому, E3RG обеспечивает натуральность, эмоциональную богатство и консистентность личности в ответах. ## Результаты В ходе экспериментов мы проверили E3RG на двух уровнях: zero-shot и few-shot. Мы использовали различные наборы данных для оценки системы на способности понимать эмоции и генерировать ответы. Результаты показали, что E3RG показывает высокую точность и эмоциональную корректность в сравнении с другими подходами. Наша система стала лидером на соревновании Avatar-based Multimodal Empathy Challenge в рамках ACM MM 2025. ## Значимость E3RG может применяться в различных сферах, включая области социальных роботов, виртуальных ассистентов и медицинских приложений, где эмоциональная коммуникация играет ключевую роль. Основные преимущества E3RG заключаются в том, что он сохраняет консистентность личности, быстро реагирует на эмоциональные сигналы и обеспечивает натуральную эмоциональную реакцию. Его потенциал заключается в улучшении качества взаимодействия с пользователем и создании более эмоционально приятных и естественных интерфейсов. ## Выводы Мы представили E3RG, мощную многомодальную систему для эмоционального эмпатического генерирования ответов. Наши эксперименты показали, что E3RG превосходит другие подходы в zero-shot и few-shot режимах. Мы посвятим будущим исследованиям улучшение моделей и их применение в различных сценариях, чтобы дальше улучшить эмоциональное понимание и генерирова

Annotation:

Multimodal Empathetic Response Generation (MERG) is crucial for building emotionally intelligent human-computer interactions. Although large language models (LLMs) have improved text-based ERG, challenges remain in handling multimodal emotional content and maintaining identity consistency. Thus, we propose E3RG, an Explicit Emotion-driven Empathetic Response Generation System based on multimodal LLMs which decomposes MERG task into three parts: multimodal empathy understanding, empathy memory re...

ID: 2508.12854v1 cs.AI, cs.CL, cs.CV, cs.HC, cs.MM

arXiv PDF