📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Chengyao Wang, Zhisheng Zhong, Bohao Peng, Senqiao Yang, Yuqi Liu, Haokun Gui, Bin Xia, Jingyao Li, Bei Yu, Jiaya Jia

## Контекст Область исследования, связанная с omni-modal understanding и long-horizon speech generation, является ключевой в современных технологиях синтеза речи и обработки звука. Существующие подходы часто ограничиваются разбиением задачи на отдельные этапы, что приводит к неэффективности и снижению качества результатов. Особенно важной проблемой является способность систем синтезировать длительные и естественные аудиопотоки с целостным звуковым тоном и контекстно-ориентированным содержанием. MGM-Omni предлагает решение этих проблем, сфокусировавшись на создании универсальной модели, которая объединяет мощность многомодального понимания и высококачественного генерирования речи на персонифицированном уровне. Мотивация заключается в развитии системы, которая не только понимает и воспроизводит речь, но также делает это с учётом персонализации и длительных горизонтов. ## Метод MGM-Omni основывается на двойной архитектуре "brain-mouth", где "brain" отвечает за мультимодальное обобщение, а "mouth" за реалистичное генерирование речи. В "brain" входит двухшаговый приём распознавания аудио, включающий в себя двойной аудио-енкодер для обработки длинных аудиопотоков с разными активностями. "Mouth", в свою очередь, использует chunk-based parallel decoding, который существенно ускоряет процесс генерации речи, позволяя её производить потоково, даже при длительных задачах. Этот подход позволяет MGM-Omni обеспечивать эффективное интерактивное взаимодействие между модалами и снижать задержки в реальном времени. Кроме того, система может выполнять voice cloning с точным сохранением голоса, даже в продолжительных сценариях. ## Результаты Эксперименты проводились на специально подготовленных датасетах, включающих длительные аудиопотоки и задачи персонализированного синтеза речи. Модель MGM-Omni показала существенное превосходство по сравнению с другими моделями, особенно в поддержании тональности и естественности речи на длинных потоках. Модель существенно повысила эффективность обучения, используя меньше данных для достижения того же уровня качества, чем свои конкуренты. Она также продемонстрировала высокую точность в voice cloning и может стабильно воспроизводить тональность голоса даже на длительных сегментах. Эти результаты подчёркивают значительное преимущество MGM-Omni в области голосовой синтеза и мультимодального понимания. ## Значимость MGM-Omni открывает новые горизонты в приложениях, требующих естественного и персонализированного голосового синтеза. Она имеет широкие перспективы в области обработки звука, где требуется потоковая синтеза речи с высоким качеством и персонализацией. Эта модель также может применяться в сфере развития сист
Annotation:
We present MGM-Omni, a unified Omni LLM for omni-modal understanding and expressive, long-horizon speech generation. Unlike cascaded pipelines that isolate speech synthesis, MGM-Omni adopts a "brain-mouth" design with a dual-track, token-based architecture that cleanly decouples multimodal reasoning from real-time speech generation. This design enables efficient cross-modal interaction and low-latency, streaming speech generation. For understanding, a unified training strategy coupled with a dua...
ID: 2509.25131v1 cs.SD, cs.AI, cs.CL, cs.CV, cs.MM
Авторы:

Hude Liu, Jerry Yao-Chieh Hu, Jennifer Yuntong Zhang, Zhao Song, Han Liu

## Контекст Генерирующие модели, такие как текстовые модели и генераторы изображений, широко применяются в различных областях, но сталкиваются с проблемами, известными как "халлуцинации" (hallucinations). Это возникают, когда модель генерирует выводы, которые не имеют никакого подкрепления в данных или в реальности. Хотя такие модели достигли высокого качества в обработке естественного языка и генерации изображений, халлуцинации остаются недоизбежным недочетом. Необходимо понять причины этого явления и его влияния на качество использования моделей в реальной жизни. Мотивацией для исследования является поиск ответа на вопрос, являются ли халлуцинации просто мерой недостатка моделей или есть в ней структурные причины, связанные с оптимальным оцениванием. ## Метод В данном исследовании проводится формализация халлуцинаций в генерирующих моделях как ситуации, когда модель не может привязать свой вывод к какому-либо реальному или возможному причинам. Методология включает в себя анализ метода оптимального оценивания, используя теории вероятности и математические модели. Архитектура исследования основывается на теории контрольных точек и анализе структурных несовпадений между потерями в моделях и желаемым поведением для пользователей. Для тестирования использовались различные методы, включая модели текста и изображений, а также ситуации с открытым вопросом (open-ended QA). ## Результаты Исследование показало, что даже при оптимальном оценивании модели продолжают проявлять халлуцинации. Это связано с тем, что модели стремятся к минимизации потерь, но это не всегда идеально соответствует потребностям и ожиданиям пользователей. Эксперименты проводились с использованием разных данных, включая модели текста и генерации изображений, а также задачи открытых вопросов. Результаты показали, что халлуцинации являются структурным мизалингалом между потерями в модели и выводами, которые приемлемы для человека. Также была построена общая нижняя оценка на частоту халлуцинаций для различных данных. ## Значимость Результаты имеют большую значимость в области глубокого обучения, так как они помогают понять природу проблемы халлуцинаций и не только. Это может привести к разработке новых методов, которые будут учитывать не только оптимальность оценивания, но и качество выводов с точки зрения пользователя. Такой подход может повысить доверие к моделям и улучшить их применение в реальных ситуациях, таких как системы открытого вопроса, генерация текста и изображений. Также это открывает путь к развитию более интеллектуальных, качественных и поня
Annotation:
We formalize hallucinations in generative models as failures to link an estimate to any plausible cause. Under this interpretation, we show that even loss-minimizing optimal estimators still hallucinate. We confirm this with a general high probability lower bound on hallucinate rate for generic data distributions. This reframes hallucination as structural misalignment between loss minimization and human-acceptable outputs, and hence estimation errors induced by miscalibration. Experiments on coi...
ID: 2509.21473v1 cs.LG, cs.AI, cs.CL, cs.CV, stat.ML
Авторы:

Yulei Qin, Xiaoyu Tan, Zhengbao He, Gang Li, Haojia Lin, Zongyi Li, Zihan Xu, Yuchen Shi, Siqi Cai, Renting Rui, Shaofei Cai, Yuzheng Cai, Xuan Zhang, Sheng Ye, Ke Li, Xing Sun

#### Контекст Reinforcement learning (RL) является ключевым подходом для развития стратегических навыков у глубоких нейронных сетей над задачами с длинным горизонтом и редкими наградами. Однако он сталкивается с проблемой trade-off между exploration (исследованием) и exploitation (использованием), которая мешает эффективному обучению. Предыдущие исследования стимулируют exploration с помощью максимизации политики, но это проблематично из-за потенциальной instability при многократном shiftе дистрибуции. В данной работе мы фокусируемся на стабильном балансе между exploration и exploitation, используя собственные опыты агента. #### Метод Мы предлагаем SPEAR — curriculum-based self-imitation learning (SIL) framework, который расширяет vanilla SIL, хранящий self-generated promising trajectories в replay buffer для off-policy обновления. SPEAR включает curriculum-based steering для управления process exploration. Он использует intrinsic rewards для skill-level exploration и action-level exploration через SIL. В начале, reward-based reward помогает агенту накопить tool-use skills, расширяя его exposure к разным средствам среды с растущим entropy. Затем, self-imitation усиливается для эксплуатации успешных шагов из replay buffer, ускоряя iterative solution. Для stabilizing обучения, мы recalibrate advantages в replay buffer и вводим regularizations, такие как clipping high-covariance tokens, уменьшая over-confidence. #### Результаты Мы провели эксперименты на сетях с agentic capabilities, используя сложные задачи с горизонтом действий. SPEAR стабилизировал training и улучшил exploration-exploitation balance, показав значительное превосходство по metricам в сравнении с baselineami. Мы также проанализировали качество решений, наблюдая улучшение в динамической среде. #### Значимость SPEAR может применяться в областях, где требуется агентское поведение, такие как robotics, game-playing и conversational agents. Он обеспечивает более стабильное обучение, эффективное использование ресурсов и лучшую adaptability в разных средах. Potential implications включают улучшение agentic skills в широком диапазоне задач. #### Выводы SPEAR достигает стабильного и эффективного обучения agentic RL через self-imitation и progressive exploration. Наши результаты открывают новые направления в исследованиях обучения с agentic capabilities, направленных на улучшение stability и adaptability в RL. Будущие работы будут фокусироваться на улучшении curriculum design и exploration strategies для устранения препятствий в итоге.
Annotation:
Reinforcement learning (RL) is the dominant paradigm for sharpening strategic tool use capabilities of LLMs on long-horizon, sparsely-rewarded agent tasks, yet it faces a fundamental challenge of exploration-exploitation trade-off. Existing studies stimulate exploration through the lens of policy entropy, but such mechanical entropy maximization is prone to RL training instability due to the multi-turn distribution shifting. In this paper, we target the progressive exploration-exploitation balan...
ID: 2509.22601v1 cs.LG, cs.AI, cs.CL, cs.CV, cs.MA
Авторы:

Chih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu

#### Контекст В последние годы возникло значительное интерес к видным-языковым моделям (VLMs) в различных областях, включая управление непилотируемыми летательными аппаратами (UAV). Однако существующие VLM-подобные подходы для авиационной визуальной лингвистики (AVLN) часто требуют кастомизации и сложности в обучении, что ограничивает их универсальность и применимость. Кроме того, нетрудно заметить, что большинство текущих систем требуют значительного обучения для адаптации к различным средам и задачам, что снижает их эффективность. Таким образом, возникает потребность в разработке универсального, без обучения фреймворка для AVLN, который мог бы преодолеть эти ограничения и обеспечивать более гибкое управление UAV. #### Метод Мы предлагаем See, Point, Fly (SPF) — универсальный фреймворк для AVLN, основанный на VLMs, который не требует значительного обучения. Фреймворк SPF использует визуально-языковую модель для разбиения неоднозначных текстовых инструкций на последовательность команд навигации. В частности, SPF преобразует текстовые команды навигации в 2D-способность, позволяя UAV представить целевую точку в пространстве в виде последовательных 2D-waypoints. Далее, SPF преобразует эти 2D-waypoints в 3D-дисплесности и трансформирует их в команды для UAVs. Этот подход обеспечивает универсальную навигацию, включая динамическую среду и dynamic target tracking. Также SPF использует adaptive distance control, чтобы сделать навигацию более эффективной. Эта архитектура может быть применена к различным VLMs без потери эффективности. #### Результаты Мы провели различные эксперименты, чтобы продемонстрировать эффективность SPF. Использовались данные из DRL-симулятора и реального мира для оценки производительности. На DRL-бенчмарке SPF показал существенное улучшение по сравнению с предыдущим лучшим методом, повысив до 63% в абсолютных числах. В реальном мире SPF также показал значительные выигрыши по сравнению с другими сильными базисами. Мы также провели аблационные исследования, чтобы подтвердить эффективность нашего подхода. Дополнительно, SPF показал надежную общность с различными VLMs, что демонстрирует его универсальность. #### Значимость SPF представляет собой значительный прорыв в области AVLN, обеспечивая универсальную, без обучения систему, которая может работать в различных средах и задачах. Он может быть применен в сферах, таких как поиск и спасательные операции, разведка, доставка и другие. SPF обеспечивает более эффективное и универсальное управление UAV, в том числе в динамических средах. Благодаря своей гибкости
Annotation:
We present See, Point, Fly (SPF), a training-free aerial vision-and-language navigation (AVLN) framework built atop vision-language models (VLMs). SPF is capable of navigating to any goal based on any type of free-form instructions in any kind of environment. In contrast to existing VLM-based approaches that treat action prediction as a text generation task, our key insight is to consider action prediction for AVLN as a 2D spatial grounding task. SPF harnesses VLMs to decompose vague language in...
ID: 2509.22653v1 cs.RO, cs.AI, cs.CL, cs.CV, cs.LG
Авторы:

Yunheng Wang, Yuetong Fang, Taowen Wang, Yixiao Feng, Yawen Tan, Shuning Zhang, Peiran Liu, Yiding Ji, Renjing Xu

## Контекст Vision-and-Language Navigation in Continuous Environments (VLN-CE) является одной из ключевых функций для обеспечения взаимодействия облегчённых роботов с реальным миром. Она связывает языковые инструкции с восприятием и действиями в реальной среде. Несмотря на то, что последние годы данная область получила значительный прогресс, существуют трудности, связанные с ограниченным доступом к данным, высокой стоимостью восприятия и неэффективностью планирования. В попытках улучшить эти аспекты, данная работа предлагает инновационный подход, который нацелен на повышение точности и эффективности в VLN-CE. ## Метод DreamNav — это архитектура, основанная на прогностическом планировании, которая включает в себя три основных компонента: (1) **EgoView Corrector** для корректировки нарушений в зрении и улучшения его стабильности, (2) **Trajectory Predictor**, который реализует глобальное планирование на более высоком уровне, чтобы улучшить соответствие активности инструкциям, и (3) **Imagination Predictor**, который добавляет в систему прогностическую способность, позволяющую роботу предполагать дальнейшие действия на более длительные периоды времени. Эти компоненты объединены в единую систему, чтобы обеспечить более эффективное и точное взаимодействие робота с реальным миром. ## Результаты На основе экспериментов на VLN-CE и реальных тестах DreamNav показал выдающиеся результаты. Он завоевал новый zero-shot state-of-the-art (SOTA), повысив результаты по метрикам Success Rate (SR) и Success weighted by Path Length (SPL) на 7.49% и 18.15% соответственно, в сравнении с самым близким конкурентом, использующим дополнительную информацию. Эти результаты отвечают высоким стандартам эффективности и реалистичности в VLN-CE. ## Значимость Данный подход может быть применён в различных областях, включая робототехнику, виртуальную реальность и интеллектуальные системы управления. Он обеспечивает более точное планирование, экономичность в реализации и улучшенную стабильность. Таким образом, он открывает новые возможности для применения в реальном мире, улучшая качество и эффективность взаимодействия роботов с окружающим миром. ## Выводы Разработанная система DreamNav представляет собой новую модель zero-shot VLN, которая стабильно улучшает результаты в многих аспектах. В дальнейшем, авторы планируют расширить возможности данного подхода, ориентируясь на более сложные сценарии и более высокую степень интеграции с окружающим миром.
Annotation:
Vision-and-Language Navigation in Continuous Environments (VLN-CE), which links language instructions to perception and control in the real world, is a core capability of embodied robots. Recently, large-scale pretrained foundation models have been leveraged as shared priors for perception, reasoning, and action, enabling zero-shot VLN without task-specific training. However, existing zero-shot VLN methods depend on costly perception and passive scene understanding, collapsing control to point-l...
ID: 2509.11197v1 cs.RO, cs.AI, cs.CL, cs.CV
Авторы:

Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan

## Контекст В последние годы, развитие многомодальных больших языковых моделей (MLLMs) обеспечило новые возможности для развития обеспечивает моделей, обладающих способностью к объединению разных модальностей, выполнять логическое рассуждение и взаимодействовать в реальном мире. Тем не менее, существуют две ключевые проблемы в существующих MLLM-ориентированных обеспеченных системах. Во-первых, **Geometric Adaptability Gap**: модели, обученные только на 2D-входных данных или жестко инжектированных с 3D-геометрией, либо не могут достаточно интеллектуально справляться с пространственными задачами, либо ограничиваются лишь 2D-ограниченным генерализированным подходом. Во-вторых, **Embodiment Constraint Gap**: существующие системы часто игнорируют практические ограничения реальных роботов, что приводит к планам, которые теоретически могут быть верны, но невыполнимы в реальности. Данная работа предлагает решение этих проблем через разработку OmniEVA — универсального планировщика, который включает в себя развитые инновационные подходы к обеспеченному планированию. ## Метод OmniEVA основывается на двух ключевых инновационных механизмах: 1. **Task-Adaptive 3D Grounding**: Этот механизм включает в себя гейтед рутор, который регулирует селективное включение 3D-данных в зависимости от контекста. Это позволяет модели сделать контекстуально-адаптивные 3D-определения, делая ее более универсальной для различных задач. 2. **Embodiment-Aware Reasoning**: Рамочная модель включает в себя как цели задачи, так и ограничения физических возможностей робота в процессе логического рассуждения. Это приводит к решениям, которые как придерживаются целей, так и выполнены в соответствии с техническими возможностями робота. ## Результаты Для оценки OmniEVA, авторы проводили ряд экспериментов на имитационных и реальных средах. Были использованы следующие наборы данных: - **Task-Adaptive 3D Grounding**: Модель продемонстрировала улучшения в задачах, требующих высокого пространственного разума, таких как перемещение предметов и обнаружение. - **Embodiment-Aware Reasoning**: Анализ показал, что OmniEVA превосходит конкурентные модели в ситуациях, где требуется жесткое соблюдение физических ограничений, таких как ограничения на роботов в реальной зоне. В результате, OmniEVA показала значительные улучшения в общем embodied reasoning и демонстрирует высокую гибкость при решении различных задач. ## Значимость OmniEVA имеет широкое применение в различных областях: - Робототехника: Она может быть использована для планирования поведения роботов в различных пространственных конфигурациях. - Домашний ассистент: Модель может по
Annotation:
Recent advances in multimodal large language models (MLLMs) have opened new opportunities for embodied intelligence, enabling multimodal understanding, reasoning, and interaction, as well as continuous spatial decision-making. Nevertheless, current MLLM-based embodied systems face two critical limitations. First, Geometric Adaptability Gap: models trained solely on 2D inputs or with hard-coded 3D geometry injection suffer from either insufficient spatial information or restricted 2D generalizati...
ID: 2509.09332v2 cs.RO, cs.AI, cs.CL, cs.CV
Авторы:

Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan

#### Контекст Комбинация multimodal large language models (MLLMs) с обзорными возможностями обнаружения и интерпретации сложных сценариев может вдохновить развитие объёмных моделей рассуждения. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. #### Метод Методика OmniEVA включает в себя два ключевых компонента: Task-Adaptive 3D Grounding и Embodiment-Aware Reasoning. Task-Adaptive 3D Grounding использует gated router для регулирования 3D-фузирования, что позволяет выполнять специфический контекстный 3D-grounding для разных обстановок. Embodiment-Aware Reasoning оптимизирует решения планирования, включая в рассуждение не только цели, но и физические ограничения реальных роботов. #### Результаты Результаты показали, что OmniEVA увеличивает скорость выполнения задач, повышает точность решений и способствует более эффективному использованию ресурсов. Измерения проводились в различных обстановках, в том числе и сложных. #### Значимость OmniEVA может быть применено в сферах, требующих обеспечения эффективности и безопасности в работе роботов. Он повышает качество выполнения единичных задач и упрощает работу в классах задач. #### Выводы Работа OmniEVA демонстрирует роль объёмных моделей в развитии обзорных моделей рассуждения в области робототехники. Будущие исследования будут фокусироваться на улучшении модели за счёт добавления дополнительных параметров и улучшения её чувствительности.
Annotation:
Recent advances in multimodal large language models (MLLMs) have opened new opportunities for embodied intelligence, enabling multimodal understanding, reasoning, and interaction, as well as continuous spatial decision-making. Nevertheless, current MLLM-based embodied systems face two critical limitations. First, Geometric Adaptability Gap: models trained solely on 2D inputs or with hard-coded 3D geometry injection suffer from either insufficient spatial information or restricted 2D generalizati...
ID: 2509.09332v1 cs.RO, cs.AI, cs.CL, cs.CV
Авторы:

Hongyi Jing, Jiafu Chen, Chen Rao, Ziqiang Dang, Jiajie Teng, Tianyi Chu, Juncheng Mo, Shuo Fang, Huaizhong Lin, Rui Lv, Chenguang Ma, Lei Zhao

#### Контекст Multimodal Large Language Models (MLLMs) представляют собой мощный инструмент для обработки информации, объединяя текстовые данные с другими видами данных. Одна из перспективных областей использования MLLMs — обработка интерфейсов пользователей (GUI). Несмотря на прогресс, достигнутый существующими решениями, существуют недостатки. Многие методы оперируют дискретными координатами, используя авторегрессионные механизмы, что приводит к низкой точности локализации и дорогостоящему времени выполнения. Кроме того, эти модели способны распознавать только предопределенные элементы, не обладая возможностью полного парсинга интерфейса. Это ограничивает их применение в различных сценариях и ограничивает потенциал для поддержки подсистемных задач. Наша цель — разработать систему, обеспечивающую высокую точность и гибкость в распознавании интерфейсов. #### Метод Мы предлагаем SparkUI-Parser — новую модель, которая обеспечивает полный парсинг интерфейса и высокую точность локализации. Модель основывается на предварительно обученном MLLM и имеет два ключевых компонента: **токен-руссет** и **координатный декодер**. Вместо дискретного моделирования координат, SparkUI-Parser использует непрерывное моделирование, что позволяет избежать ограничений авторегрессионных методов. Для улучшения стабильности ввода вводится **режим реагирования**, основанный на модифицированном алгоритме Ханжамана. Это позволяет модели отбрасывать несуществующие элементы, уменьшая ложные срабатывания. Также мы представляем **ScreenParse**, новую базу данных для оценки структурного распознавания GUI, которая позволяет сравнивать модели в различных сценариях. #### Результаты Мы провели ряд экспериментов на множестве задач, включая ScreenSpot, ScreenSpot-v2, CAGUI-Grounding и ScreenParse. Модель SparkUI-Parser показала значительное превосходство по сравнению с состоянием технологий (SOTA) во всех этих зонах. Она достигла высокой точности локализации, быстроты выполнения и общей гибкости при обработке различных типов интерфейсов. Эксперименты подтвердили, что наш подход не только повышает точность, но и увеличивает скорость работы, что делает его применимым для реального времени. #### Значимость SparkUI-Parser может быть применен в различных областях, где требуется автоматизированное распознавание интерфейсов, например, в системах автоматического тестирования, видеоидентификации и разработке пользовательских интерфейсов. Он предлагает ряд преимуществ, включая высокую точность, быстроту и гибкость. Благодаря этому, модель может существенно улучшить производительность и надежность приложений, основанных на распозна
Annotation:
The existing Multimodal Large Language Models (MLLMs) for GUI perception have made great progress. However, the following challenges still exist in prior methods: 1) They model discrete coordinates based on text autoregressive mechanism, which results in lower grounding accuracy and slower inference speed. 2) They can only locate predefined sets of elements and are not capable of parsing the entire interface, which hampers the broad application and support for downstream tasks. To address the ab...
ID: 2509.04908v1 cs.AI, cs.CL, cs.CV, cs.HC
Авторы:

Jaewoo Ahn, Junseo Kim, Heeseung Yun, Jaehyeon Son, Dongmin Park, Jaewoong Cho, Gunhee Kim

## Контекст FlashAdventure — это инновационный бенчмарк, разработанный для оценки возможностей GUI-агентов, основанных на лоLМ, в управлении интерфейсами различных видеоигр. Особое внимание уделяется жанру приключенческих игр, требующим не только обработки различных интерфейсов, но и комплексного понимания развивающихся сюжетных линий. Несмотря на прогресс в области графических интерфейсов, существующие бенчмарки либо не достаточно разнообразны, либо не оценивают способность агентов решать задачи в рамках полных сюжетных линий. FlashAdventure решает эту проблему, предоставляя 34 Flash-based приключенческих игры с различными уровнями сложности и задачами, подвергая агенты тестированию на выполнение полных сюжетных линий. Это позволяет адресовать проблему **observation-behavior gap** — сложность запоминания и использования элементов игровых сценариев, распространяющихся на большой промежуток времени. ## Метод FlashAdventure использует 34 игр с Flash-based интерфейсами, каждая из которых представляет собой полную сюжетную линию. Для оценки способности агентов используется CUA-as-a-Judge — автоматизированная система оценки, которая детально измеряет прогресс и точность выполнения задач. COAST, современный агентский фреймворк, разработанный в рамках проекта, основывается на логике последовательного планирования и удерживает долгосрочную память для ключевых моментов игры. Эта технология позволяет улучшить способность агента не только решать элементарные задачи, но и успешно комплексно взаимодействовать в ходе сложных сюжетных линий. ## Результаты Эксперименты показали, что текущие GUI-агенты сталкиваются с значительными сложностями при решении задач, связанных с полными сюжетными линиями в FlashAdventure. Использование COAST улучшило процент успешного выполнения задач и сократило время на решение, но несмотря на это, большой gap между результатами лучших агентов и человеческой производительностью свидетельствует о необходимости продолжительных усилий в области усовершенствования агентских систем. Эксперименты также демонстрируют, что FlashAdventure — это наглядный инструмент для выявления недостатков в существующих агентских моделях. ## Значимость FlashAdventure может быть использован в различных областях, включая искусственный интеллект, игровые исследования, а также в обучение системам взаимодействия с графическими пользовательскими интерфейсами. Он предоставляет детализированные тестовые среды для изучения проблем, связанных с долгосрочным планированием и знанием игровых сценариев. Его преимущества заключаются в возможности выявления слабых мест в GUI-агентах, стимулируя развитие систем,
Annotation:
GUI agents powered by LLMs show promise in interacting with diverse digital environments. Among these, video games offer a valuable testbed due to their varied interfaces, with adventure games posing additional challenges through complex, narrative-driven interactions. Existing game benchmarks, however, lack diversity and rarely evaluate agents on completing entire storylines. To address this, we introduce FlashAdventure, a benchmark of 34 Flash-based adventure games designed to test full story ...
ID: 2509.01052v1 cs.AI, cs.CL, cs.CV
Авторы:

Dongfu Jiang, Yi Lu, Zhuofeng Li, Zhiheng Lyu, Ping Nie, Haozhe Wang, Alex Su, Hui Chen, Kai Zou, Chao Du, Tianyu Pang, Wenhu Chen

#### Контекст Рейнфорсментное обучение с верифируемыми наградами (RLVR) доказало свою эффективность в улучшении применимости глубоких нейронных сетей (LLM), однако оно ограничивается однопересеченными интеракциями и не учитывает интеграцию инструментов. Агентное рейнфорсментное обучение с использованием инструментов (ARLT), как стратегия для многопересеченных интеракций, также столкнулось с проблемами, включая распространенную фрагментацию кодовых баз, синхронные выполнения, которые приводят к бутылкам в производительности, и ограниченную модульность для расширения в различных областях. Из-за этих проблем недостаточно развиты методы, облегчающие развитие инструмент-агентных систем. Мы предлагаем VerlTool — модульную и систематическую систему, которая решает эти проблемы, позволяя формализовать ARLT в многошаговых траекториях с многомодальными наблюдениями (текст, изображения, видео). #### Метод VerlTool разработана как модульная и архитектурно универсальная система, которая предоставляет значительные улучшения в производительности и модульности. Основные компоненты подхода включают: (1) систематическую интеграцию с VeRL для обеспечения стабильности и удобства в обслуживании, (2) стандартизированные API для управления инструментами, покрывающие различные модальности, такие как код, поиск, SQL-базы данных и выводы визуальных данных, (3) асинхронное исполнение роллаутов для увеличения скорости выполнения и устранения бутылок в синхронизации, и (4) подробную оценку производительности в 6 областях, включая математическое обучение, вопросы и ответы, SQL-генерацию, визуальное обучение, поиск в Интернете и разработку программного обеспечения. Мы также формализуем ARLT как многошаговые траектории с многомодальными обозначениями, позволяя расширить подходы RLVR в многотурных сценариях. #### Результаты Мы проводили эксперименты, используя различные данные в многомодальных задачах, включая математическое обучение, вопросы и ответы, SQL-генерацию, визуальное обучение, поиск в Интернете и разработку программного обеспечения. Наши результаты показывают, что VerlTool достигает результатов, которые не уступают специализированным системам в этих областях, при этом обеспечивая значительные выгоды в скорости и модульности. Модульная структура и стандартизированные API позволяют быстро интегрировать новые инструменты, чтобы упростить развитие и обеспечить модульность, необходимую для будущих исследований в области инструмент-агентных систем. #### Значимость Предлагаемая система может применяться в многомодальных задачах, включая видеоинтерпретацию,
Annotation:
Reinforcement Learning with Verifiable Rewards (RLVR) has demonstrated success in enhancing LLM reasoning capabilities, but remains limited to single-turn interactions without tool integration. While recent Agentic Reinforcement Learning with Tool use (ARLT) approaches have emerged to address multi-turn tool interactions, existing works develop task-specific codebases that suffer from fragmentation, synchronous execution bottlenecks, and limited extensibility across domains. These inefficiencies...
ID: 2509.01055v1 cs.AI, cs.CL, cs.CV
Показано 41 - 50 из 64 записей