📚 Саммари научных статей из arXiv

Найдено 162 результатов по запросу 'cs.CL, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games

2025-09-05

Авторы:

Jaewoo Ahn, Junseo Kim, Heeseung Yun, Jaehyeon Son, Dongmin Park, Jaewoong Cho, Gunhee Kim

## Контекст FlashAdventure — это инновационный бенчмарк, разработанный для оценки возможностей GUI-агентов, основанных на лоLМ, в управлении интерфейсами различных видеоигр. Особое внимание уделяется жанру приключенческих игр, требующим не только обработки различных интерфейсов, но и комплексного понимания развивающихся сюжетных линий. Несмотря на прогресс в области графических интерфейсов, существующие бенчмарки либо не достаточно разнообразны, либо не оценивают способность агентов решать задачи в рамках полных сюжетных линий. FlashAdventure решает эту проблему, предоставляя 34 Flash-based приключенческих игры с различными уровнями сложности и задачами, подвергая агенты тестированию на выполнение полных сюжетных линий. Это позволяет адресовать проблему **observation-behavior gap** — сложность запоминания и использования элементов игровых сценариев, распространяющихся на большой промежуток времени. ## Метод FlashAdventure использует 34 игр с Flash-based интерфейсами, каждая из которых представляет собой полную сюжетную линию. Для оценки способности агентов используется CUA-as-a-Judge — автоматизированная система оценки, которая детально измеряет прогресс и точность выполнения задач. COAST, современный агентский фреймворк, разработанный в рамках проекта, основывается на логике последовательного планирования и удерживает долгосрочную память для ключевых моментов игры. Эта технология позволяет улучшить способность агента не только решать элементарные задачи, но и успешно комплексно взаимодействовать в ходе сложных сюжетных линий. ## Результаты Эксперименты показали, что текущие GUI-агенты сталкиваются с значительными сложностями при решении задач, связанных с полными сюжетными линиями в FlashAdventure. Использование COAST улучшило процент успешного выполнения задач и сократило время на решение, но несмотря на это, большой gap между результатами лучших агентов и человеческой производительностью свидетельствует о необходимости продолжительных усилий в области усовершенствования агентских систем. Эксперименты также демонстрируют, что FlashAdventure — это наглядный инструмент для выявления недостатков в существующих агентских моделях. ## Значимость FlashAdventure может быть использован в различных областях, включая искусственный интеллект, игровые исследования, а также в обучение системам взаимодействия с графическими пользовательскими интерфейсами. Он предоставляет детализированные тестовые среды для изучения проблем, связанных с долгосрочным планированием и знанием игровых сценариев. Его преимущества заключаются в возможности выявления слабых мест в GUI-агентах, стимулируя развитие систем,

Annotation:

GUI agents powered by LLMs show promise in interacting with diverse digital environments. Among these, video games offer a valuable testbed due to their varied interfaces, with adventure games posing additional challenges through complex, narrative-driven interactions. Existing game benchmarks, however, lack diversity and rarely evaluate agents on completing entire storylines. To address this, we introduce FlashAdventure, a benchmark of 34 Flash-based adventure games designed to test full story ...

ID: 2509.01052v1 cs.AI, cs.CL, cs.CV

arXiv PDF

📄 VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use

2025-09-05

Авторы:

Dongfu Jiang, Yi Lu, Zhuofeng Li, Zhiheng Lyu, Ping Nie, Haozhe Wang, Alex Su, Hui Chen, Kai Zou, Chao Du, Tianyu Pang, Wenhu Chen

#### Контекст Рейнфорсментное обучение с верифируемыми наградами (RLVR) доказало свою эффективность в улучшении применимости глубоких нейронных сетей (LLM), однако оно ограничивается однопересеченными интеракциями и не учитывает интеграцию инструментов. Агентное рейнфорсментное обучение с использованием инструментов (ARLT), как стратегия для многопересеченных интеракций, также столкнулось с проблемами, включая распространенную фрагментацию кодовых баз, синхронные выполнения, которые приводят к бутылкам в производительности, и ограниченную модульность для расширения в различных областях. Из-за этих проблем недостаточно развиты методы, облегчающие развитие инструмент-агентных систем. Мы предлагаем VerlTool — модульную и систематическую систему, которая решает эти проблемы, позволяя формализовать ARLT в многошаговых траекториях с многомодальными наблюдениями (текст, изображения, видео). #### Метод VerlTool разработана как модульная и архитектурно универсальная система, которая предоставляет значительные улучшения в производительности и модульности. Основные компоненты подхода включают: (1) систематическую интеграцию с VeRL для обеспечения стабильности и удобства в обслуживании, (2) стандартизированные API для управления инструментами, покрывающие различные модальности, такие как код, поиск, SQL-базы данных и выводы визуальных данных, (3) асинхронное исполнение роллаутов для увеличения скорости выполнения и устранения бутылок в синхронизации, и (4) подробную оценку производительности в 6 областях, включая математическое обучение, вопросы и ответы, SQL-генерацию, визуальное обучение, поиск в Интернете и разработку программного обеспечения. Мы также формализуем ARLT как многошаговые траектории с многомодальными обозначениями, позволяя расширить подходы RLVR в многотурных сценариях. #### Результаты Мы проводили эксперименты, используя различные данные в многомодальных задачах, включая математическое обучение, вопросы и ответы, SQL-генерацию, визуальное обучение, поиск в Интернете и разработку программного обеспечения. Наши результаты показывают, что VerlTool достигает результатов, которые не уступают специализированным системам в этих областях, при этом обеспечивая значительные выгоды в скорости и модульности. Модульная структура и стандартизированные API позволяют быстро интегрировать новые инструменты, чтобы упростить развитие и обеспечить модульность, необходимую для будущих исследований в области инструмент-агентных систем. #### Значимость Предлагаемая система может применяться в многомодальных задачах, включая видеоинтерпретацию,

Annotation:

Reinforcement Learning with Verifiable Rewards (RLVR) has demonstrated success in enhancing LLM reasoning capabilities, but remains limited to single-turn interactions without tool integration. While recent Agentic Reinforcement Learning with Tool use (ARLT) approaches have emerged to address multi-turn tool interactions, existing works develop task-specific codebases that suffer from fragmentation, synchronous execution bottlenecks, and limited extensibility across domains. These inefficiencies...

ID: 2509.01055v1 cs.AI, cs.CL, cs.CV

arXiv PDF

📄 AppCopilot: Toward General, Accurate, Long-Horizon, and Efficient Mobile Agent

2025-09-05

Авторы:

Jingru Fan, Yufan Dang, Jingyao Wu, Huatao Li, Runde Yang, Xiyuan Yang, Yuheng Wang, Zhong Zhang, Yaxi Lu, Yankai Lin, Zhiyuan Liu, Dahai Li, Chen Qian

#### Контекст Мобильные агенты, поддерживающие взаимодействие с пользователями через мобильные приложения, становятся все более важной частью современных систем. Однако существуют некоторые значительные проблемы, которые должны быть решены для того, чтобы эти системы могли обеспечить практический и масштабируемый вклад. Основными вызовами являются: (1) общействование по всему спектру задач, моделей и устройств; (2) высокая точность выполнения напрямую на экране устройства; (3) устойчивость в ходе выполнения многошаговых задач; (4) эффективность, чтобы работать с ограниченными ресурсами и занимать минимальное время. Наше исследование направлено на развитие системы, которая бы решала эти проблемы и позволяла построить более универсальные и эффективные мобильные агенты. #### Метод Мы предлагаем AppCopilot, который представляет собой многомодальную, многоагентную модель, работающую на устройстве, позволяющую удовлетворить потребности пользователей в различных приложениях. Эта модель работает в рамках полного цикла, начиная с сбора данных и заканчивая развертыванием модели и разработкой приложений. Мы использовали архитектуру, основанную на цепочке мышления, цепочке задач и взаимодействии многоагентной системы для решения задач. Многомодальность позволяет AppCopilot работать с текстом, изображениями и другими модальностями, что делает его универсальным. Мы также оптимизировали модель для эффективности в терминах загрузки процессора, памяти и энергопотребления на ресурсно-ограниченных устройствах. #### Результаты Мы провели эксперименты для оценки AppCopilot, сопоставив его с другими моделями в пределах тех же задач. Мы использовали реальные данные, собранные из различных мобильных приложений, и оценили его на точности выполнения задач, возможности общействования, многошаговых задач и эффективности работы. Опытными результатами показано, что AppCopilot превосходит другие модели по всем основным критериям: он демонстрирует более высокую общинность, точность внутри приложений, долгосрочную надежность и эффективность выполнения. #### Значимость AppCopilot может применяться в различных областях, таких как управление устройствами, помощь в жизненных ситуациях, улучшение работы мобильных приложений и автоматизация рутинных задач. Он обеспечивает высокую точность, универсальность и эффективность, что делает его привлекательным для разработчиков мобильных приложений и пользователей, желающих использовать более мощные и надежные мобильные агенты. #### Выводы Наше исследование показало, что AppCopilot является прорывным в области мобильных а

Annotation:

With the raid evolution of large language models and multimodal foundation models, the mobile-agent landscape has proliferated without converging on the fundamental challenges. This paper identifies four core problems that must be solved for mobile agents to deliver practical, scalable impact: (1) generalization across tasks, modalities, apps, and devices; (2) accuracy, specifically precise on-screen interaction and click targeting; (3) long-horizon capability for sustained, multi-step goals; an...

ID: 2509.02444v1 cs.AI, cs.CL, cs.CV, cs.HC

arXiv PDF

📄 UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

2025-09-05

Авторы:

Haoming Wang, Haoyang Zou, Huatong Song, Jiazhan Feng, Junjie Fang, Junting Lu, Longxiang Liu, Qinyu Luo, Shihao Liang, Shijue Huang, Wanjun Zhong, Yining Ye, Yujia Qin, Yuwen Xiong, Yuxin Song, Zhiyong Wu, Bo Li, Chen Dun, Chong Liu, Fuxing Leng, Hanbin Wang, Hao Yu, Haobin Chen, Hongyi Guo, Jing Su, Jingjia Huang, Kai Shen, Kaiyu Shi, Lin Yan, Peiyao Zhao, Pengfei Liu, Qinghao Ye, Renjie Zheng, Wayne Xin Zhao, Wen Heng, Wenhao Huang, Wenqian Wang, Xiaobo Qin, Yi Lin, Youbin Wu, Zehui Chen, Zihao Wang, Baoquan Zhong, Xinchun Zhang, Xujing Li, Yuanfan Li, Zhongkai Zhao, Chengquan Jiang, Faming Wu, Haotian Zhou, Jinlin Pang, Li Han, Qianli Ma, Siyao Liu, Songhua Cai, Wenqi Fu, Xin Liu, Zhi Zhang, Bo Zhou, Guoliang Li, Jiajun Shi, Jiale Yang, Jie Tang, Li Li, Taoran Lu, Woyu Lin, Xiaokang Tong, Xinyao Li, Yichi Zhang, Yu Miao, Zhengxuan Jiang, Zili Li, Ziyuan Zhao, Chenxin Li, Dehua Ma, Feng Lin, Ge Zhang, Haihua Yang, Hangyu Guo, Hongda Zhu, Jiaheng Liu, Junda Du, Kai Cai, Kuanye Li, Lichen Yuan, Meilan Han, Minchao Wang, Shuyue Guo, Tianhao Cheng, Xiaobo Ma, Xiaojun Xiao, Xiaolong Huang, Xinjie Chen, Yidi Du, Yilin Chen, Yiwen Wang, Zhaojian Li, Zhenzhu Yang, Zhiyuan Zeng, Chaolin Jin, Chen Li, Hao Chen, Haoli Chen, Jian Chen, Qinghao Zhao, Guang Shi

## Контекст На визуальных интерфейсах (GUI) происходит большая часть современного взаимодействия с компьютерами. Однако создание автономных агентов для работы с GUI остается вызовом в области искусственного интеллекта (AI). Решение этой задачи требует реализации сложных процессов, таких как визуальное восприятие, решение задач и запоминание. Несмотря на некоторые успехи, существуют проблемы, такие как нехватка масштабируемых данных, нестабильность среды, ограниченность GUI-только операций, а также недостаточное удовлетворение многократных задач. UI-TARS-2 является новым GUI-агентом, который рассчитан на то, чтобы решить эти проблемы и улучшить производительность в различных сценариях взаимодействия. ## Метод UI-TARS-2 является результатом систематического развития GUI-агента. Он основывается на использовании **двухтактного подхода** для улучшения масштабируемости данных. Используется **интегрированная среда**, включающая в себя файловые системы и терминалы. Агент тренируется в рамках **органичной тренировки**, что позволяет ему выполнять более сложные задачи в течение нескольких шагов. Благодаря **эволюционному движку**, UI-TARS-2 может быть масштабирован на больших данных. Кроме того, **платформа для моделирования рисков** и **обучение с подкреплением** позволяют агенту решать сложные задачи в различных средах, включая игровые и профессиональные. ## Результаты Проведены эксперименты для оценки производительности UI-TARS-2. На бенчмарках, таких как **Online-Mind2Web**, **OSWorld**, **WindowsAgentArena** и **AndroidWorld**, UI-TARS-2 показал признаки улучшения в сравнении с предшественником, достигнув оценки 88.2, 47.5, 50.6 и 73.3, соответственно. На игровых бенчмарках он достиг значения 59.8, что составляет около 60% от значения на уровне человека, и оказался конкурентоспособным с такими фронтерными моделями, как **OpenAI o3**. Агент также показал хорошую общинность на задачах, таких как **long-horizon information-seeking tasks** и **software engineering benchmarks**, значительно увеличив производительность в этих областях. ## Значимость UI-TARS-2 может быть применен в различных областях, включая **игровые окружения**, **GUI-операции**, **информационные поисковые задачи** и **профессиональные приложения**. Он обеспечивает улучшение производительности, устойчивость и возможность решения более сложных задач. Для развития AI в области GUI он представляет собой показательный шаг вперед. Улучшение обучения с подкреплением, объединение различных сред и масштабирование данных делают этот агент более универсальным и эффективным для реальных сценариев. ## Выводы Результаты показывают, что UI-TARS-

Annotation:

The development of autonomous agents for graphical user interfaces (GUIs) presents major challenges in artificial intelligence. While recent advances in native agent models have shown promise by unifying perception, reasoning, action, and memory through end-to-end learning, open problems remain in data scalability, multi-turn reinforcement learning (RL), the limitations of GUI-only operation, and environment stability. In this technical report, we present UI-TARS-2, a native GUI-centered agent m...

ID: 2509.02544v1 cs.AI, cs.CL, cs.CV, cs.HC

arXiv PDF

📄 Can Multimodal LLMs Solve the Basic Perception Problems of Percept-V?

2025-09-02

Авторы:

Samrajnee Ghosh, Naman Agarwal, Hemanshu Garg, Chinmay Mittal, Mausam, Parag Singla

## Контекст В последнее время много внимания уделяется развитию многомодальных значительно масштабных языковых моделей (Multimodal Large Language Models, MLLMs), которые показали отличные результаты в подходах к решению задач в области кодинга, математики и науки. Однако, несмотря на их достижения в области высокосложности, гораздо меньше экспериментов проводились для оценки их потенциала в базовых задачах восприятия, таких как распознавание простых образов и структур. Это недостаток подчеркивает важность расширения исследований в этом направлении, так как качество их выполнения в базовых задачах способствует улучшению их решений даже для более сложных случаев. Одним из основных мотивов для разработки этого исследования является необходимость оценить, насколько эффективны MLLMs в решении задач, требующих простого восприятия. Данный вопрос имеет большую значимость в связи с тем, что хорошо проработанное восприятие является фундаментом для успеха в более сложных задачах, таких как логическое моделирование и вывод. Таким образом, этот аспект требует дополнительного изучения. ## Метод Для этого исследования был разработан набор данных **Percept-V**, содержащий 7200 программно-генерируемых изображений, разделенных на 30 категорий. Каждая категория представляет собой задачу, требующую разных уровней восприятия, включая распознавание фигур, отношений между объектами, цветов и т.д. Изображения были специально созданы для того, чтобы оценить простые, но важные восприятие реальных объектов и ситуаций. Для оценки эффективности MLLMs в решении этих задач, использовались современные модели, такие как GPT-4o, Gemini, Claude, OpenAI o4-mini и DeepSeek R1. Эти модели были применены для предсказания ответов на задачи Percept-V, а достигнутые результаты были измерены с помощью метрик точности и достоверности. Эксперименты проводились с разными уровнями сложности задач, чтобы определить, насколько эффективно модели справляются с задачами восприятия на разных уровнях. ## Результаты Изучение результатов показывает, что MLLMs, несмотря на их выдающиеся результаты в сложных задачах, имеют значительные ограничения в решении задач, требующих базового восприятия. Точность работы моделей снижается с увеличением сложности задачи в каждой категории. Было выявлено, что некоторые типы задач восприятия, например, распознавание отношений между фигурами, требуют большего усилия моделей, чем другие. Проанализировав результаты, было отмечено, что современные MLLMs демонстрируют схожую тенденцию по результатам в различных категориях, но предлагают различные уровни точности в работе. Э

Annotation:

The reasoning abilities of Multimodal Large Language Models (MLLMs) have garnered a lot of attention in recent times, with advances made in frontiers like coding, mathematics, and science. However, very limited experiments have been done to assess their performance in simple perception tasks performed over uncontaminated, generated images containing basic shapes and structures. To address this issue, the paper introduces a dataset, Percept-V, containing a total of 7200 program-generated images e...

ID: 2508.21143v1 cs.CL, cs.CV

arXiv PDF

📄 Morae: Proactively Pausing UI Agents for User Choices

2025-09-02

Авторы:

Yi-Hao Peng, Dingzeyu Li, Jeffrey P. Bigham, Amy Pavel

## Контекст Область исследования сосредоточена на развитии пользовательских интерфейсов (UI), которые облегчают доступ к сложной или недоступной информации для людей с ограниченным зрением (BLV). Несмотря на преимущества UI-агентов, их текущая реализация часто приводит к уменьшению пользовательского влияния. Они выполняют задачи с искусственным интеллектом без участия пользователя в критических выборах или предупреждении о важной контекстной информации. Например, в одном из исследований BLV-участник хотел купить спарклинг-воду по самой низкой цене, но агент автоматически выбрал одну без упоминания других вариантов с разными вкусами или лучшими оценками. Эта проблема мешает пользователям эффективно использовать агенты, что является мотивацией для разработки Morae. ## Метод Morae — это инновационный подход, который активно вовлекает пользователей в ключевые решения. Он использует мощные модели мультимодального анализа для интерпретации пользовательских запросов, разбора кода UI и скриншотов. Когда агент обнаруживает решающий момент, он приостанавливает свою работу, чтобы пользователь мог внести вклад в выбор. Это стратегия гармонизирует выгоду от автоматизации с возможностью выражения пользовательских предпочтений. Архитектура Morae основана на динамической идентификации решений и интерактивном взаимодействии с пользователем. ## Результаты Модель была проверена на реальных задачах в интернете с участием BLV-участников. Результаты показали, что Morae позволила выполнить больше задач по сравнению с базовыми агентами, включая OpenAI Operator. Кроме того, пользователи Morae сделали выбор, более соответствующий их предпочтениям. Эти результаты демонстрируют улучшенную эффективность и преимущества в смешанной инициативе, где автоматизация и пользовательские предпочтения одновременно применяются. ## Значимость Morae может применяться в различных сферах, где требуется оптимизация пользовательского опыта, таких как доступ к сложной информации, торговля и управление информационными системами. Он предоставляет более интерактивную и удобную платформу для пользователей, повышая их самостоятельность. Этот подход может стать пионерским в развитии новых пользовательских интерфейсов, которые будут учитывать не только технические возможности, но и потребности пользователей, обеспечивая более эффективное и точное выполнение задач. ## Выводы Morae продемонстрировал эффективность в улучшении доступности и эффективности пользовательских интерфейсов для BLV-пользователей. Будущие исследования будут направлены на улуч

Annotation:

User interface (UI) agents promise to make inaccessible or complex UIs easier to access for blind and low-vision (BLV) users. However, current UI agents typically perform tasks end-to-end without involving users in critical choices or making them aware of important contextual information, thus reducing user agency. For example, in our field study, a BLV participant asked to buy the cheapest available sparkling water, and the agent automatically chose one from several equally priced options, with...

ID: 2508.21456v1 cs.HC, cs.CL, cs.CV

arXiv PDF

📄 Is this chart lying to me? Automating the detection of misleading visualizations

2025-09-02

Авторы:

Jonathan Tonglet, Jan Zimny, Tinne Tuytelaars, Iryna Gurevych

#### Контекст В настоящее время информационная пандемия в науке, политике и общественной сфере способствует появлению многочисленных мифов и устаревшей информации. Одним из основных источников данной проблемы является скамья мишур, которая активно используются в социальных сетях и веб-ресурсах. Известно, что такие графики искажают данные и приводят читателей к неверным выводам. Несмотря на то, что обнаружение таких изображений может быть полезно для борьбы с фальсификацией информации, существуют существенные проблемы, в том числе отсутствие многогранных и открытых баз данных для обучения AI. #### Метод Авторы предлагают Misviz, бенчмарк, состоящий из 2 604 реальных графиков с пометками по 12 типам ошибок. Для подготовки данных и обучения моделей также предлагается Misviz-synth — синтетическая коллекция 81 814 графиков созданных с помощью Matplotlib на основе настоящих таблиц данных. Методология включает в себя использование моделей MLLM, правил-баз и методов тюннинга для оценки и анализа графических подходов. #### Результаты Исследование проводилось на двух датасетах Misviz и Misviz-synth. Модели были оценены на возможности выявления 12 типов мишур, включая искажения масштаба, неверное использование шкал, выбросы и другие. Тестирование проводилось на state-of-the-art MLLMs, таких как Flan-T5 и LLaMA, а также на правилах, определяющих нарушения графических правил. Результаты показали, что даже наиболее современные модели часто не выявляют мишуры или ошибаются в определении типа. #### Значимость Предложенный подход имеет перспективы в области борьбы с фальсификацией данных в графической форме. Он может применяться для фильтрации социальных медиа-постов, анализа веб-страниц и обучения пользователей критического мышления. Одним из ключевых преимуществ является возможность автоматического обнаружения и классификации мишур, что может способствовать уменьшению распространения устаревшей информации. #### Выводы Изучение авторов показало, что автоматическое выявление мишур остается высоко сложным заданием. Однако предложенные датасеты и вычислительные модели являются значительным шагом в этом направлении. Будущие исследования будут сконцентрированы на усовершенствовании методики, обобщении моделей и расширении датасетов для более широкого применения.

Annotation:

Misleading visualizations are a potent driver of misinformation on social media and the web. By violating chart design principles, they distort data and lead readers to draw inaccurate conclusions. Prior work has shown that both humans and multimodal large language models (MLLMs) are frequently deceived by such visualizations. Automatically detecting misleading visualizations and identifying the specific design rules they violate could help protect readers and reduce the spread of misinformation...

ID: 2508.21675v1 cs.CL, cs.CV, cs.GR

arXiv PDF

📄 Bangla-Bayanno: A 52K-Pair Bengali Visual Question Answering Dataset with LLM-Assisted Translation Refinement

2025-08-29

Авторы:

Mohammed Rakibul Hasan, Rafi Majid, Ahanaf Tahmid

## Контекст В последние годы искусственный интеллект (ИИ) находится в центре внимания широкого спектра научных и практических задач. Одна из самых затруднительных областей — многомодальное обучение (multimodal learning), которая предполагает обработку и анализ данных, имеющих различные модальности (текст, изображения, звук). Одна из важных задач в этой области — визуальный вопросно-ответный анализ (Visual Question Answering, VQA). Однако существующие VQA-датасеты часто страдают от ограниченного числа ответов, проблем с качеством перевода или же сильно ограничены конкретными языками. Для низкоресурсных языков, таких как бенгальский (Bangla), отсутствуют качественные датасеты, что существенно ограничивает их применение в ИИ. Было решено создать датасет Bangla-Bayanno, опираясь на цель создания высококачественной, высокопокрытой и открытого доступа VQA-датасета для бенгальского языка. ## Метод Для создания датасета Bangla-Bayanno использовалась многоэтапная методология. На первом этапе проводился сбор изображений с открытых источников (таких как Flickr и COCO). Затем проводился предварительный анализ изображений для определения подходящих вопросов. На следующем этапе создавались вопросы и ответы, которые были проверены и исправлены с помощью многоязычного LL-системы (Large Language Model). Это позволило избежать ошибок, присущих ручному переводу, и обеспечить высокое качество аннотаций. Были созданы три класса ответов: nominal (короткие описательные), quantitative (численные) и polar (да/нет). Результатом является датасет, состоящий из 52,650 вопросов-ответов для 4750+ изображений. ## Результаты В результате работы был создан Bangla-Bayanno — датасет, содержащий 52,650 вопросов-ответов для 4750+ изображений с классификацией ответов. Этапы сбора и преобразования данных позволили обеспечить высокое качество данных. Было проведено несколько экспериментов, включая оценку качества перевода и точности ответов, которые показали высокую точность и степень точности. Эти результаты подтверждают эффективность и качество датасета. ## Значимость Bangla-Bayanno является открытым и доступным датасетом, предназначенным для развития ИИ в низкоресурсных языках. Его значимость заключается в том, что он предлагает высококачественный Бенгальский VQA-датасет, который может быть использован для развития многомодальных систем. Его применение может помочь в развитии ИИ для низкоресурсных языков, улучшение точности визуального анализа и стимулировать дальнейшие исследования в области многомодального обучения. ## Выводы В результате работы был создан Bangla-Bayanno, что является совершенным ресу

Annotation:

In this paper, we introduce Bangla-Bayanno, an open-ended Visual Question Answering (VQA) Dataset in Bangla, a widely used, low-resource language in multimodal AI research. The majority of existing datasets are either manually annotated with an emphasis on a specific domain, query type, or answer type or are constrained by niche answer formats. In order to mitigate human-induced errors and guarantee lucidity, we implemented a multilingual LLM-assisted translation refinement pipeline. This datase...

ID: 2508.19887v1 cs.CL, cs.CV

arXiv PDF

📄 11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysis

2025-08-29

Авторы:

Chengzu Li, Wenshan Wu, Huanyu Zhang, Qingtao Li, Zeyu Gao, Yan Xia, José Hernández-Orallo, Ivan Vulić, Furu Wei

#### Контекст Многомодальные большие языковые модели (MLLMs) показали впечатляющий прогресс в различных задачах, включая абстрактное моделирование, специальную обработку языка и моделирование знаний. Однако их возможности в области пространственного рассуждения остаются мало исследоваными. Хотя пространственное рассуждение и пространственное восприятие человека тесно связаны, их естественное сочетание в поведении MLLMs еще не полностью понято. Это создает необходимость в разработке рамок экспериментов для оценки их производительности в этой области. Мы предлагаем 11Plus-Bench, бенчмарк, основанный на реальных стандартизированных тестах пространственного рассуждения. Он детально анализирует модельное поведение с помощью тонкого аннотирования как перцептивного, так и рассуждательного уровня. #### Метод 11Plus-Bench представляет собой коллекцию задач, специально разработанных для оценки пространственной рациональности MLLMs. Он включает в себя задачи, которые подражают реальным стандартизированным тестам, а также подробные аннотации, такие как рассуждательная сложность, перцептивная сложность и многоуровневый анализ процесса рассуждения. Модели экспериментально проверяются в пяти различных режимах, чтобы собрать объемные данные для анализа моделей. Бенчмарк также разработан с учетом возможности сравнения моделей с поведением человека, что дает возможность получить глубокий пониманий касательно их сходства и различий. #### Результаты Мы провели эксперименты с 14 MLLMs и человеческими ответами. Наши результаты показали, что MLLMs могут выполнять пространственное рассуждение на ранней стадии, но существует существенный провал в их производительности по сравнению с человеческими результатами. Мы также обнаружили, что производительность MLLMs взаимосвязана с уровнем сложности при рассуждении, подобно человеческим моделям. Однако их результаты часто являются случайными на уровне индивидуальных задач, в то время как человеческая производительность значительно более предсказуема и связана с уровнем абстрактности логических схем. #### Значимость 11Plus-Bench обеспечивает широкие возможности для исследования пространственного рассуждения в MLLMs. Он может использоваться для оценки производительности моделей в различных сферах, включая абстрактное моделирование и пространственное восприятие. Бенчмарк также открывает новые возможности для разработки моделей, которые могут более близок подходить к человеческому пространственному рассуждению. Это может привести к развитию новых архитектур, более эффективным использованию ресурсов и повышению понимания пространств

Annotation:

For human cognitive process, spatial reasoning and perception are closely entangled, yet the nature of this interplay remains underexplored in the evaluation of multimodal large language models (MLLMs). While recent MLLM advancements show impressive performance on reasoning, their capacity for human-like spatial cognition remains an open question. In this work, we introduce a systematic evaluation framework to assess the spatial reasoning abilities of state-of-the-art MLLMs relative to human per...

ID: 2508.20068v1 cs.CL, cs.CV, cs.LG

arXiv PDF

📄 SWIRL: A Staged Workflow for Interleaved Reinforcement Learning in Mobile GUI Control

2025-08-29

Авторы:

Quanfeng Lu, Zhantao Ma, Shuai Zhong, Jin Wang, Dahai Yu, Michael K. Ng, Ping Luo

## Контекст Область исследований, связанная с mobile GUI control (контролем пользовательских интерфейсов мобильных приложений), получила значительный интерес в последние годы, особенно в связи с развитием крупных моделей визуального языка (LVLMs) и их возможностями в области естественных языков. Несмотря на этот прогресс, существующие методы либо ограничены в своих возможностях, либо неэффективны в условиях реального времени. Это приводит к необходимости разработки более устойчивых и мощных систем, которые могут легко переключаться между высокоуровневыми и низкоуровневыми задачами. Целью данной работы является разработка методологии, которая могла бы оптимизировать многоагентные системы, обеспечивая их эффективную координацию и устойчивость в различных сценариях. ## Метод SWIRL (Staged Workflow for Interleaved Reinforcement Learning) представляет собой инновационный подход к обучению многоагентных систем. Он преобразует задачи многоагентного обучения в последовательность задач обучения одного агента. В этой модели каждый агент обучается по очереди, при этом другие агенты остаются неизменными. Этот подход обеспечивает стабильность обучения и позволяет достичь эффективного взаимодействия между агентами. Для гарантии качества и корректности решений в SWIRL внедрены такие теоретические примитивы, как шаг защиты обучения, теорема о монотонном улучшении и гарантии на возврат при оптимизации. Метод также включает в себя Navigator, который преобразует естественный язык и контекст экрана в структурированные планы, и Interactor, который реализует эти планы на уровне атомарных действий. ## Результаты SWIRL протестирован на широком спектре задач, включая обработку естественного языка и контроль низкоуровневых элементов GUI. Обширные эксперименты показали, что SWIRL превосходит существующие методы в выполнении задач, обеспечивая более высокую точность и устойчивость в решении задач. В частности, на мобильных GUI бенчмарках SWIRL демонстрирует улучшение производительности, уменьшая количество ошибок и увеличивая скорость выполнения задач. Этот подход также продемонстрировал свою эффективность в задачах многоагентного математического разумания, подтверждая широкий потенциал SWIRL как основы для развития многоагентных систем. ## Значимость Помимо мобильных GUI-систем, SWIRL может быть применен в таких областях, как управление роботами, системы автоматизированного обучения и обработка изображений. Особенностью SWIRL является его гибкость и мощь, позволяющие применять его в различных контекстах. Этот подход обеспечивает эффективность, стабильность и гарантированные результаты в различных зада

Annotation:

The rapid advancement of large vision language models (LVLMs) and agent systems has heightened interest in mobile GUI agents that can reliably translate natural language into interface operations. Existing single-agent approaches, however, remain limited by structural constraints. Although multi-agent systems naturally decouple different competencies, recent progress in multi-agent reinforcement learning (MARL) has often been hindered by inefficiency and remains incompatible with current LVLM ar...

ID: 2508.20018v1 cs.AI, cs.CL, cs.CV, cs.MA

arXiv PDF

1
2
12
13
14
15
16
17

Показано 131 - 140 из 162 записей