📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 CorrectNav: Self-Correction Flywheel Empowers Vision-Language-Action Navigation Model

2025-08-16

Авторы:

Zhuoyuan Yu, Yuxing Long, Zihan Yang, Chengyan Zeng, Hongwei Fan, Jiyao Zhang, Hao Dong

#### Контекст Визионно-языковое навигационное моделирование (VLA) широко применяется в сегменте развития искусственного интеллекта. Однако существующие модели часто спотыкаются при выполнении инструкций, теряя правильный путь. У них часто недостаточно силы для корректировки ошибок, что приводит к неточности или полной неуспешности выполнения. В этой статье мы рассматриваем эту проблему, сформулируя ее как центральную задачу, и предлагаем новую модель, которая может самостоятельно исправляться в процессе работы. #### Метод Мы предлагаем **Self-correction Flywheel** — пост-тренировочный подход, использующий ошибки модели в качестве ресурса. Данный подход включает в себя методы для определения и анализа ошибочных траекторий модели, а также механизмы для генерирования самокорректирующихся данных, которые улучшают модель при последовательных циклах обучения. Мы разработали модель CorrectNav, основанную на этих принципах. Модель использует монохромные RGB-изображения и получает инструкции на языке, выполняя целевую навигационную задачу. #### Результаты Мы провели эксперименты на двух бенчмарках: R2R-CE и RxR-CE. Наши эксперименты показали, что CorrectNav показывает новые рекорды в успешном навигационном выполнении — 65.1% на R2R-CE и 69.3% на RxR-CE. Эти результаты превосходят предыдущие модели на 8.2% и 16.4% соответственно. Также мы проверили модель на реальном роботе в различных внутренних и внешних средах, где она продемонстрировала значительные достижения в корректировке ошибок, избегании динамических препятствий и долгосрочном следовании инструкциям. #### Значимость Наша модель может быть использована в различных приложениях, таких как управление роботами, автономное перемещение транспортных средств и визуально-языковые приложения. Преимущества включают высокую точность, долгосрочную навигацию и способность самостоятельно корректироваться во время работы. Это может повлиять на развитие более надежных и удобных систем навигации в различных сферах. #### Выводы Мы демонстрируем силу нашего подхода в моделировании VLA и показываем, что он может стать основой для развития будущих моделей. Будущие исследования будут сфокусированы на расширении модели CorrectNav для более сложных и полимодальных задач навигации, а также на изучении ее поведения в более сложных и реальных средах.

Annotation:

Existing vision-and-language navigation models often deviate from the correct trajectory when executing instructions. However, these models lack effective error correction capability, hindering their recovery from errors. To address this challenge, we propose Self-correction Flywheel, a novel post-training paradigm. Instead of considering the model's error trajectories on the training set as a drawback, our paradigm emphasizes their significance as a valuable data source. We have developed a met...

ID: 2508.10416v1 cs.RO, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance

2025-08-13

Авторы:

Lixuan He, Jie Feng, Yong Li

## Контекст В последние годы Large Language Models (LLMs) стали неотъемлемой частью различных интеллектуальных задач, таких как математическое моделирование, визуальное рассуждение и взаимодействие с визуальными средами. Однако достижение высокого уровня производительности в этих областях часто требует сложной подготовки моделей, включающей в себя и супервизированную оптимизацию (SFT), и реинфорсмент (RL). Несмотря на выгоды от удовлетворения параллельных потребностей моделей, существуют затруднения в достижении гармоничного баланса, что приводит к таким проблемам, как катастрофическое забывание, неоптимальный баланс между имитацией и экспериментом, а также сложности в выборе правильной стратегии для конкретных задач. Эти трудности приводят к увеличению времени обучения и снижению стабильности результатов. В этой работе мы применяем теоретическое осмысление гибкого имплицитного механизма регулирования взаимодействия SFT и RL для лучшего достижения баланса. ## Метод Мы предлагаем новую модель **Adaptive Meta Fine-Tuning (AMFT)**, которая представляет собой уникальную методологию для улучшения баланса между SFT и RL. Центральная идея заключается в том, чтобы трактовать SFT и RL не как независимые технологии, а как взаимосвязанные регуляторы, зависящие от задачи. AMFT вводит **мета-градиентный адаптивный контроллер**, который анализирует и динамически создает веса для SFT и RL, максимизируя не только производительность, но и стабильность. Особенностью метода является ввод **политии энтропии** для повышения стабильности тренировочного процесса, что позволяет модели автоматически выбирать наиболее подходящую стратегию в зависимости от специфических входных данных. Данная архитектура гарантирует оптимальный режим тренировки и сохраняет достаточную гибкость для решения OOD-задач. ## Результаты Мы проводим эксперименты на трех основных типах задач: математическом рассуждении, визуальном рассуждении (в том числе General Points) и взаимодействии с визуальными средами (V-IRL). В результате, AMFT демонстрирует значительные улучшения по сравнению с другими существующими методами. Мы исследуем эффективность мета-контроллера и производительность модели в многостадийных ситуациях. Эксперименты показывают, что AMFT не только повышает общую производительность, но и демонстрирует более стабильные результаты в нестандартных ситуациях. Анализ динамики обучения подтверждает, что мета-контроллер не только улучшает скорость обучения, но и помогает модели избегать потерь связанных с катастрофическим забыванием. ## Значимость AMFT демонстрирует потенциал для использования в широком

Annotation:

Large Language Models (LLMs) are typically fine-tuned for reasoning tasks through a two-stage pipeline of Supervised Fine-Tuning (SFT) followed by Reinforcement Learning (RL), a process fraught with catastrophic forgetting and suboptimal trade-offs between imitation and exploration. Recent single-stage methods attempt to unify SFT and RL using heuristics, but lack a principled mechanism for dynamically balancing the two paradigms. In this paper, we reframe this challenge through the theoretical ...

ID: 2508.06944v2 cs.LG, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 EndoAgent: A Memory-Guided Reflective Agent for Intelligent Endoscopic Vision-to-Decision Reasoning

2025-08-13

Авторы:

Yi Tang, Kaini Wang, Yang Chen, Guangquan Zhou

## Контекст Исследование развития искусственного интеллекта (AI) для поддержки диагностики на основе эндоскопических изображений является важной областью поиска. Существующие методы, основанные на больших наборах данных и предварительной обучении, часто страдают от отсутствия унифицированного подхода к решению различных задач и сложности с многошаговыми процессами в клинических работах. Хотя AI-агенты доказали свою эффективность в адаптивном исполнении инструкций и интеграции инструментов в различных областях, их потенциал в области эндоскопии остается недостаточно исследованным. Целью данной работы является разработка EndoAgent — первого AI-агента, основанного на памяти, для визуально-решающего анализа эндоскопических изображений, который комбинирует итеративное разумение с адаптивным выбором инструментов и сотрудничеством. ## Метод EndoAgent основывается на двухкомпонентной системе памяти: краткосрочной, для отслеживания действий, и долгосрочной, для улучшения рассуждений в процессе. Агент интегрирует множество специализированных инструментов, разработанных экспертами, в единую логическую структуру. Методология решения задач включает интерактивное взаимодействие с изображениями, адаптивные выборки инструментов и итеративную коррекцию решений. Для эффективного обучения и оценки производительности разработан EndoAgentBench — бенчмарк, содержащий 5709 визуальных вопросов-ответов, оценивающих уровень понимания и построение решений в реальных ситуациях. ## Результаты Экспериментальные исследования показали, что EndoAgent превосходит общие и медицинские многомодальные модели, демонстрируя высокую гибкость и компетентность в рассуждениях. Он показал себя эффективнее в задачах, требующих многошагового анализа и управления инструментами. Это доказывает значительный потенциал EndoAgentа в применении к клиническим задачам, где требуется глубокий анализ информации и быстрая адаптивность. ## Значимость EndoAgent может быть применен в различных областях медицины, где требуется визуальный анализ и принятие решений, таких как диагностика, планирование хирургических операций и улучшение операционных процессов. Визуально-решающий подход с учетом памяти и интеграции инструментов делает EndoAgent очень гибким и эффективным в различных рабочих процессах. Благодаря своему уникальному подходу, EndoAgent может существенно улучшить точность диагностики и эффективность работы в сложных клинических ситуациях. ## Выводы EndoAgent представляет собой прорыв в области визуально-решающих AI-систем для эндоскопической диагностики. Он дока

Annotation:

Developing general artificial intelligence (AI) systems to support endoscopic image diagnosis is an emerging research priority. Existing methods based on large-scale pretraining often lack unified coordination across tasks and struggle to handle the multi-step processes required in complex clinical workflows. While AI agents have shown promise in flexible instruction parsing and tool integration across domains, their potential in endoscopy remains underexplored. To address this gap, we propose E...

ID: 2508.07292v1 cs.AI, cs.CL, cs.CV

arXiv PDF

📄 Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents

2025-08-13

Авторы:

Tianyi Ma, Yue Zhang, Zehao Wang, Parisa Kordjamshidi

## Контекст Vision-and-Language Navigation (VLN) представляет собой сложное задание, требующее систем извлечения смысла из естественных языковых инструкций и эффективной навигации в развернутых 3D-средах. Несмотря на то, что последние достижения в области VLN были подспорьем широкомасштабной предобученности и расширению данных, существуют значительные проблемы с общую стойкостью, особенно когда требуется повышенное пространственное или временное разумление. Например, существующие агенты часто падают при визуальной и языковой неоднородности, которую представляют незнакомые среды и нестандартные инструкции. Мотивацией для нас является создание более устойчивого и гибкого подхода, который может быть применен в нестандартных сценариях. ## Метод Мы предлагаем SkillNav, модульную архитектуру, включающую в себя структурированные, навыково-ориентированные принципы для взаимодействия с 3D-средами. SkillNav декомпозирует навигацию на независимые атомарные навыки, такие как "Перемещение по высоте", "Распознавание областей и регионов", и "Остановка и пауза". Каждый из этих навыков выполняется специализированным под-агентом. Для того чтобы обеспечить динамическое выбор наиболее подходящего под-агента во время выполнения, мы предложили новый тип Vision-Language Model (VLM)-based router, который используется для множественных действий. Этот модуль, используя визуальные сенсоры и языковые команды, выбирает наиболее подходящий под-агент, ориентируясь на под-цели и историю действий. Основная идея заключается в структурированной модели, которая позволяет роутеру гибко реагировать на изменения в среде. ## Результаты Мы провели эксперименты на двух бенчмарках: R2R и GSA-R2R. На R2R, SkillNav достиг нового состояния технологии с повышенным уровнем производительности в задачах навигации по сложным 3D-средам. На GSA-R2R, что включает нестандартные стили инструкций и неизвестные среды, SkillNav стабильно показал свою способность к генерализации. Мы также провели анализ вариативности наших моделей, продемонстрировав улучшение отдельных навыков и их взаимодействия, что включает в себя наблюдения о том, как каждый под-агент был влиятелен на общую систему. ## Значимость SkillNav может быть применен в сферах, требующих действий в сложных средах, таких как управление роботами, виртуальная реальность и системы помощи при навигации. Наши результаты свидетельствуют о значительных преимуществах, таких как увеличение устойчивости к неизвестным средам, повышение точности распознавания инструкций и упрощение моделей для требовательных задач. Мы также показали, что наш

Annotation:

Vision-and-Language Navigation (VLN) poses significant challenges in enabling agents to interpret natural language instructions and navigate complex 3D environments. While recent progress has been driven by large-scale pre-training and data augmentation, current methods still struggle to generalize to unseen scenarios, particularly when complex spatial and temporal reasoning is required. In this work, we propose SkillNav, a modular framework that introduces structured, skill-based reasoning into...

ID: 2508.07642v1 cs.AI, cs.CL, cs.CV

arXiv PDF

📄 ThematicPlane: Bridging Tacit User Intent and Latent Spaces for Image Generation

2025-08-12

Авторы:

Daniel Lee, Nikhil Sharma, Donghoon Shin, DaEun Choi, Harsh Sharma, Jeonghwan Kim, Heng Ji

## Контекст Современные технологии развития изображений, основанные на генерирующих моделях АИ, стали доступными для широкой публики. Однако существующие инструменты часто не полностью учтут неявный (таинственный) творческий интент пользователей, особенно для неквалифицированных пользователей. Это ограничивает возможности быстро и эффективно реализовать свои творческие идеи. Для решения этой проблемы необходимо создать инструмент, который бы позволил пользователям легко манипулировать семантическими концепциями, такими как настроение, стиль или тематическая ориентация, не прибегая к явной формулировке сложных запросов. ## Метод Мы предлагаем ThematicPlane — систему, которая использует взаимодействие с пользователем в гибкой интерактивной среде, где можно манипулировать семантическими концепциями. ThematicPlane характеризуется следующими ключевыми компонентами: (1) тематический ползунок, который позволяет перемещаться по высокоуровневым семантическим концепциям; (2) система многоугольников, которая отображает динамическую интерактивную палитру тематических концепций; (3) интерактивный процесс модификации, который позволяет редактировать разные аспекты генерируемых изображений, включая настроение, стиль и тематику. Это сочетание элементов обеспечивает пользователям более точный и интуитивный способ выражения творческого интента. ## Результаты Мы провёряли ThematicPlane в экспериментальных условиях с участием 6 участников. Они проводили работу в 2 режимах: развития идеи (дивергентный) и синтеза решения (конвергентный). Участники могли свободно манипулировать семантическими концепциями, использовать их как отправную точку для творчества и реагировать на неожиданные результаты. Однако в результате исследования выяснилось, что некоторые пользователи столкнулись с проблемами в понимании того, как именно семантические концепции будут отображаться на выходных изображениях. Это подчеркивает необходимость более четкого отображения и лучшей поддержки пользователей в этом смысле. ## Значимость ThematicPlane предлагает новый подход к интерактивному проектированию, объединяя легкость использования с высокой гибкостью. Он может быть применен в различных областях, включая творческое дизайнерское проектирование, визуальное оформление и графическое проектирование. Особые преимущества ThematicPlane заключаются в том, что он позволяет пользователям быстро и эффективно реализовать свои идеи, а также открывает новые возможности для интерактивного творчества с помощью генерирующих моделей АИ. ## Выводы ThematicPlane доказал свою эффективность в помо

Annotation:

Generative AI has made image creation more accessible, yet aligning outputs with nuanced creative intent remains challenging, particularly for non-experts. Existing tools often require users to externalize ideas through prompts or references, limiting fluid exploration. We introduce ThematicPlane, a system that enables users to navigate and manipulate high-level semantic concepts (e.g., mood, style, or narrative tone) within an interactive thematic design plane. This interface bridges the gap be...

ID: 2508.06065v1 cs.HC, cs.AI, cs.CL, cs.CV, H.5.2; I.2.7

arXiv PDF

📄 Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?

2025-08-09

Авторы:

Wenxuan Shen, Mingjia Wang, Yaochen Wang, Dongping Chen, Junjie Yang, Yao Wan, Weiwei Lin

**Резюме** В статье предлагается Double-Bench — новая крупномасштабная, многоязыковая и мультимодальная система оценки для Retrieval-Augmented Generation (RAG) систем, использующих Multimodal Large Language Models (MLLMs). Недостаточное тестирование является ключевой проблемой в развитии таких систем, так как существующие бенчмарки фокусируются на частичных аспектах RAG-систем и используют синтетические данные с неполными меток правдивости и значимости. Double-Bench предлагает полную оценку каждого компонента RAG-системы, включая 72 880 страниц данных в 6 языках и 4 типах документов. Эта система поддерживает динамическое обновление для борьбы с загрязнением данных и использует экспертные оценки для гарантии высокого качества. Основные выводы экспериментов показывают, что разница в эффективности между текстовыми и визуальными моделями снижается, что демонстрирует необходимость в развитии мощных моделей документного поиска. Также выявлена "проблема переоценки": текущие RAG-системы часто выдают ответы даже при отсутствии доказательств. Double-Bench предлагается как универсальный инструмент для поиска решений этих проблем и будет обновляться ежегодно.

Annotation:

Retrieval-Augmented Generation (RAG) systems using Multimodal Large Language Models (MLLMs) show great promise for complex document understanding, yet their development is critically hampered by inadequate evaluation. Current benchmarks often focus on specific part of document RAG system and use synthetic data with incomplete ground truth and evidence labels, therefore failing to reflect real-world bottlenecks and challenges. To overcome these limitations, we introduce Double-Bench: a new large-...

ID: 2508.03644v1 cs.CL, cs.CV, cs.IR

arXiv PDF

📄 Can Large Vision-Language Models Understand Multimodal Sarcasm?

2025-08-09

Авторы:

Xinyu Wang, Yue Zhang, Liqiang Jing

Многомодальная сарказм-анализ (MSA) является сложной задачей, которая затрудняется способностью понимать диспаритет между литеральным и намеренным значением сарказма. Несмотря на развитие многомодальных подходов, применение больших лингво-визуальных моделей к этой задаче до сих пор недостаточно изучено. В данной работе анализируется эффективность таких моделей в MSA, в том числе в задачах детекции и объяснения сарказма. Найдены ключевые ограничения, такие как недостаточное понимание визуальной информации и отсутствие концептуальных знаний. Для устранения этих проблем предлагается новый тренировочно-свободный подход, который использует расширенное извлечение объектов и внешние концептуальные знания. Эксперименты показали, что предложенный подход улучшает точность и эффективность моделей в задачах MSA. Результаты опубликованы на https://github.com/cp-cp/LVLM-MSA.

Annotation:

Sarcasm is a complex linguistic phenomenon that involves a disparity between literal and intended meanings, making it challenging for sentiment analysis and other emotion-sensitive tasks. While traditional sarcasm detection methods primarily focus on text, recent approaches have incorporated multimodal information. However, the application of Large Visual Language Models (LVLMs) in Multimodal Sarcasm Analysis (MSA) remains underexplored. In this paper, we evaluate LVLMs in MSA tasks, specificall...

ID: 2508.03654v1 cs.CL, cs.CV

arXiv PDF

📄 ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents

2025-08-09

Авторы:

Zechen Li, Baiyu Chen, Hao Xue, Flora D. Salim

Отсутствие гибкости и интерпретируемости в существующих методах распознавания человеческих действий (HAR) чревато дорогостоящим переуправлением, когда внедряются новые действия или сенсорные устройства. Мы предлагаем ZARA — первый рамфрейм для нулевого-шота (zero-shot), способный распознавать действия напрямую из данных подвижности временных рядов, основываясь на автоматически создаваемой базе знаний о парах атрибутов и модуле навигации ресурсов. ZARA объединяет агентную систему, использующую технологии генеративных моделей языка (LLM), для решения задач HAR с помощью выбираемых функций и подробных выводов, обоснованных сенсорными данными. Мы проверили ZARA на 8 бенчмарках HAR и показали, что он делает более точные выводы с лучшим макро-F1-метрикой по сравнению со стандартными методами. Наши результаты подтверждают, что ZARA может стать промежуточным шагом к созданию доверительных, без вмешательства методов для анализа подвижности. Результаты доступны на GitHub.

Annotation:

Motion sensor time-series are central to human activity recognition (HAR), with applications in health, sports, and smart devices. However, existing methods are trained for fixed activity sets and require costly retraining when new behaviours or sensor setups appear. Recent attempts to use large language models (LLMs) for HAR, typically by converting signals into text or images, suffer from limited accuracy and lack verifiable interpretability. We propose ZARA, the first agent-based framework fo...

ID: 2508.04038v1 cs.CL, cs.CV

arXiv PDF

📄 A Study of the Framework and Real-World Applications of Language Embedding for 3D Scene Understanding

2025-08-09

Авторы:

Mahmoud Chick Zaouali, Todd Charter, Yehor Karpichev, Brandon Haworth, Homayoun Najjjaran

**Резюме** Последние годы технологии 3D-сценобразования, такие как Neural Radiance Fields (NeRF) и Gaussian Splatting, получили большое распространение в области реального времени в сферах визуализации, разработки роботов и создания интерактивных контента. Однако их интеграция с бо LLM и языковыми эмбеддингами открыла новые возможности в области текстовоориентированной генерации, редактирования и семантического понимания сцен. Данная статья предлагает структурированный обзор нынешних исследований, сочетающих языковые модели с 3D-гауссовым разбросом, охватывая теоретические основы, методы интеграции и реальности применений. Основные недостатки, такие как вычислительные блоки, проблемы генерализируемости и отсутствие семантически аннотированных 3D-данных на языке, также выделены. В заключении авторы выделяют перспективы исследований в области языковоориентированного понимания 3D-сцен, используя Gaussian Splatting.

Annotation:

Gaussian Splatting has rapidly emerged as a transformative technique for real-time 3D scene representation, offering a highly efficient and expressive alternative to Neural Radiance Fields (NeRF). Its ability to render complex scenes with high fidelity has enabled progress across domains such as scene reconstruction, robotics, and interactive content creation. More recently, the integration of Large Language Models (LLMs) and language embeddings into Gaussian Splatting pipelines has opened new p...

ID: 2508.05064v1 cs.GR, cs.CL, cs.CV

arXiv PDF

📄 OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use

2025-08-09

Авторы:

Xueyu Hu, Tao Xiong, Biao Yi, Zishu Wei, Ruixuan Xiao, Yurun Chen, Jiasheng Ye, Meiling Tao, Xiangxin Zhou, Ziyu Zhao, Yuhuai Li, Shengze Xu, Shenzhi Wang, Xinchen Xu, Shuofei Qiao, Zhaokai Wang, Kun Kuang, Tieyong Zeng, Liang Wang, Jiwei Li, Yuchen Eleanor Jiang, Wangchunshu Zhou, Guoyin Wang, Keting Yin, Zhou Zhao, Hongxia Yang, Fan Wu, Shengyu Zhang, Fei Wu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное развитие искусственного интеллекта приблизило человечество к реализации мечты о создании универсальных цифровых ассистентов, подобных J.A.R.V.I.S из киновселенной Marvel. Традиционные подходы к автоматизации задач ограничивались узкоспециализированными решениями, способными выполнять лишь предопределенный набор операций в строго контролируемых средах. Однако появление мультимодальных больших языковых моделей ((M)LLM) открыло принципиально новые возможности для создания агентов, способных взаимодействовать с вычислительными устройствами через стандартные интерфейсы пользователя, такие как графические интерфейсы (GUI). Ключевая проблема заключается в том, что современные операционные системы и приложения разработаны для человеческого взаимодействия, а не для машинной автоматизации. Это создает ряд фундаментальных вызовов: необходимость понимания визуального контента экрана, интерпретации семантики элементов интерфейса, планирования сложных многошаговых задач и адаптации к изменениям в интерфейсах различных приложений. Существующие решения либо требуют специализированного программирования под каждое приложение, либо обладают ограниченной обобщающей способностью. Особенно остро стоит проблема "grounding" - способности агента связать высокоуровневые инструкции на естественном языке с конкретными действиями в интерфейсе. Например, команда "отправь отчет менеджеру по электронной почте" требует понимания, где находится приложение почты, как прикрепить файл, как выбрать нужного получателя и множества других контекстно-зависимых действий. Эта проблема усугубляется разнообразием операционных систем, версий приложений и индивидуальных настроек пользователей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Статья предлагает комплексную системную методологию создания OS Agents - агентов, способных автономно управлять вычислительными устройствами через стандартные интерфейсы операционных систем. Методология базируется на трех фундаментальных компонентах: среда наблюдения, пространство действий и архитектура агента. Среда наблюдения представлена как мультимодальное пространство, включающее визуальную информацию экрана (screenshots), структурное представление интерфейса (accessibility tree), текстовый контент и историю взаимодействий. Для обработки этой информации используются специализированные MLLM, обученные на синтетических и реальных датасетах, содержащих пары "screenshot-описание-действие". Пространство действий охватывает все возможные способы взаимодействия с GUI: клики мышью, клавиатурный ввод, прокрутка, перетаскивание, а также системные действия (запуск приложений, переключение между окнами). Для обеспечения надежности действий используется двухуровневая система: высокоуровневое планирование генерирует последовательность абстрактных действий, которые затем конкретизируются на уровне grounding в конкретные координаты и типы взаимодействий. Архитектура агента включает четыре ключевых модуля: модуль понимания (переводит наблюдения в семантическое представление), модуль планирования (разбивает высокоуровневые задачи на последовательность действий), модуль grounding (сопоставляет действия с конкретными элементами интерфейса) и модуль исполнения (выполняет действия и контролирует их результат). Для эффективного обучения используется комбинация обучения с подкреплением, имитационного обучения и самостоятельного улучшения через взаимодействие со средой. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Оценка эффектiveness OS Agents проводилась на 15 специализированных бенчмарках, охватывающих различные сценарии использования: веб-навигация (Mind2Web, WebArena), работа с офисными приложенияами (OfficeBench), управление мобильными устройствами (AndroidControl) и сложные многоприложные сценарии (OSWorld). На бенчмарке Mind2Web, включающем 2000 задач веб-навигации, лучшие OS Agents достигли 65.2% точности, что на 23% превышает предыдущие методы. В более сложной среде WebArena с динамическими веб-сайтами достигнута точность 38.7%, приблизившись к человеческому уровню в 45.2%. Особенно впечатляющие результаты показаны в задачах многошаговой автоматизации: в среднем агенты справлялись с задачами, требующими 8-12 последовательных

Annotation:

The dream to create AI assistants as capable and versatile as the fictional J.A.R.V.I.S from Iron Man has long captivated imaginations. With the evolution of (multi-modal) large language models ((M)LLMs), this dream is closer to reality, as (M)LLM-based Agents using computing devices (e.g., computers and mobile phones) by operating within the environments and interfaces (e.g., Graphical User Interface (GUI)) provided by operating systems (OS) to automate tasks have significantly advanced. This p...

ID: 2508.04482v1 cs.AI, cs.CL, cs.CV, cs.LG

arXiv PDF

Показано 151 - 160 из 162 записей