📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 AppCopilot: Toward General, Accurate, Long-Horizon, and Efficient Mobile Agent

2025-09-05

Авторы:

Jingru Fan, Yufan Dang, Jingyao Wu, Huatao Li, Runde Yang, Xiyuan Yang, Yuheng Wang, Zhong Zhang, Yaxi Lu, Yankai Lin, Zhiyuan Liu, Dahai Li, Chen Qian

#### Контекст Мобильные агенты, поддерживающие взаимодействие с пользователями через мобильные приложения, становятся все более важной частью современных систем. Однако существуют некоторые значительные проблемы, которые должны быть решены для того, чтобы эти системы могли обеспечить практический и масштабируемый вклад. Основными вызовами являются: (1) общействование по всему спектру задач, моделей и устройств; (2) высокая точность выполнения напрямую на экране устройства; (3) устойчивость в ходе выполнения многошаговых задач; (4) эффективность, чтобы работать с ограниченными ресурсами и занимать минимальное время. Наше исследование направлено на развитие системы, которая бы решала эти проблемы и позволяла построить более универсальные и эффективные мобильные агенты. #### Метод Мы предлагаем AppCopilot, который представляет собой многомодальную, многоагентную модель, работающую на устройстве, позволяющую удовлетворить потребности пользователей в различных приложениях. Эта модель работает в рамках полного цикла, начиная с сбора данных и заканчивая развертыванием модели и разработкой приложений. Мы использовали архитектуру, основанную на цепочке мышления, цепочке задач и взаимодействии многоагентной системы для решения задач. Многомодальность позволяет AppCopilot работать с текстом, изображениями и другими модальностями, что делает его универсальным. Мы также оптимизировали модель для эффективности в терминах загрузки процессора, памяти и энергопотребления на ресурсно-ограниченных устройствах. #### Результаты Мы провели эксперименты для оценки AppCopilot, сопоставив его с другими моделями в пределах тех же задач. Мы использовали реальные данные, собранные из различных мобильных приложений, и оценили его на точности выполнения задач, возможности общействования, многошаговых задач и эффективности работы. Опытными результатами показано, что AppCopilot превосходит другие модели по всем основным критериям: он демонстрирует более высокую общинность, точность внутри приложений, долгосрочную надежность и эффективность выполнения. #### Значимость AppCopilot может применяться в различных областях, таких как управление устройствами, помощь в жизненных ситуациях, улучшение работы мобильных приложений и автоматизация рутинных задач. Он обеспечивает высокую точность, универсальность и эффективность, что делает его привлекательным для разработчиков мобильных приложений и пользователей, желающих использовать более мощные и надежные мобильные агенты. #### Выводы Наше исследование показало, что AppCopilot является прорывным в области мобильных а

Annotation:

With the raid evolution of large language models and multimodal foundation models, the mobile-agent landscape has proliferated without converging on the fundamental challenges. This paper identifies four core problems that must be solved for mobile agents to deliver practical, scalable impact: (1) generalization across tasks, modalities, apps, and devices; (2) accuracy, specifically precise on-screen interaction and click targeting; (3) long-horizon capability for sustained, multi-step goals; an...

ID: 2509.02444v1 cs.AI, cs.CL, cs.CV, cs.HC

arXiv PDF

📄 UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

2025-09-05

Авторы:

Haoming Wang, Haoyang Zou, Huatong Song, Jiazhan Feng, Junjie Fang, Junting Lu, Longxiang Liu, Qinyu Luo, Shihao Liang, Shijue Huang, Wanjun Zhong, Yining Ye, Yujia Qin, Yuwen Xiong, Yuxin Song, Zhiyong Wu, Bo Li, Chen Dun, Chong Liu, Fuxing Leng, Hanbin Wang, Hao Yu, Haobin Chen, Hongyi Guo, Jing Su, Jingjia Huang, Kai Shen, Kaiyu Shi, Lin Yan, Peiyao Zhao, Pengfei Liu, Qinghao Ye, Renjie Zheng, Wayne Xin Zhao, Wen Heng, Wenhao Huang, Wenqian Wang, Xiaobo Qin, Yi Lin, Youbin Wu, Zehui Chen, Zihao Wang, Baoquan Zhong, Xinchun Zhang, Xujing Li, Yuanfan Li, Zhongkai Zhao, Chengquan Jiang, Faming Wu, Haotian Zhou, Jinlin Pang, Li Han, Qianli Ma, Siyao Liu, Songhua Cai, Wenqi Fu, Xin Liu, Zhi Zhang, Bo Zhou, Guoliang Li, Jiajun Shi, Jiale Yang, Jie Tang, Li Li, Taoran Lu, Woyu Lin, Xiaokang Tong, Xinyao Li, Yichi Zhang, Yu Miao, Zhengxuan Jiang, Zili Li, Ziyuan Zhao, Chenxin Li, Dehua Ma, Feng Lin, Ge Zhang, Haihua Yang, Hangyu Guo, Hongda Zhu, Jiaheng Liu, Junda Du, Kai Cai, Kuanye Li, Lichen Yuan, Meilan Han, Minchao Wang, Shuyue Guo, Tianhao Cheng, Xiaobo Ma, Xiaojun Xiao, Xiaolong Huang, Xinjie Chen, Yidi Du, Yilin Chen, Yiwen Wang, Zhaojian Li, Zhenzhu Yang, Zhiyuan Zeng, Chaolin Jin, Chen Li, Hao Chen, Haoli Chen, Jian Chen, Qinghao Zhao, Guang Shi

## Контекст На визуальных интерфейсах (GUI) происходит большая часть современного взаимодействия с компьютерами. Однако создание автономных агентов для работы с GUI остается вызовом в области искусственного интеллекта (AI). Решение этой задачи требует реализации сложных процессов, таких как визуальное восприятие, решение задач и запоминание. Несмотря на некоторые успехи, существуют проблемы, такие как нехватка масштабируемых данных, нестабильность среды, ограниченность GUI-только операций, а также недостаточное удовлетворение многократных задач. UI-TARS-2 является новым GUI-агентом, который рассчитан на то, чтобы решить эти проблемы и улучшить производительность в различных сценариях взаимодействия. ## Метод UI-TARS-2 является результатом систематического развития GUI-агента. Он основывается на использовании **двухтактного подхода** для улучшения масштабируемости данных. Используется **интегрированная среда**, включающая в себя файловые системы и терминалы. Агент тренируется в рамках **органичной тренировки**, что позволяет ему выполнять более сложные задачи в течение нескольких шагов. Благодаря **эволюционному движку**, UI-TARS-2 может быть масштабирован на больших данных. Кроме того, **платформа для моделирования рисков** и **обучение с подкреплением** позволяют агенту решать сложные задачи в различных средах, включая игровые и профессиональные. ## Результаты Проведены эксперименты для оценки производительности UI-TARS-2. На бенчмарках, таких как **Online-Mind2Web**, **OSWorld**, **WindowsAgentArena** и **AndroidWorld**, UI-TARS-2 показал признаки улучшения в сравнении с предшественником, достигнув оценки 88.2, 47.5, 50.6 и 73.3, соответственно. На игровых бенчмарках он достиг значения 59.8, что составляет около 60% от значения на уровне человека, и оказался конкурентоспособным с такими фронтерными моделями, как **OpenAI o3**. Агент также показал хорошую общинность на задачах, таких как **long-horizon information-seeking tasks** и **software engineering benchmarks**, значительно увеличив производительность в этих областях. ## Значимость UI-TARS-2 может быть применен в различных областях, включая **игровые окружения**, **GUI-операции**, **информационные поисковые задачи** и **профессиональные приложения**. Он обеспечивает улучшение производительности, устойчивость и возможность решения более сложных задач. Для развития AI в области GUI он представляет собой показательный шаг вперед. Улучшение обучения с подкреплением, объединение различных сред и масштабирование данных делают этот агент более универсальным и эффективным для реальных сценариев. ## Выводы Результаты показывают, что UI-TARS-

Annotation:

The development of autonomous agents for graphical user interfaces (GUIs) presents major challenges in artificial intelligence. While recent advances in native agent models have shown promise by unifying perception, reasoning, action, and memory through end-to-end learning, open problems remain in data scalability, multi-turn reinforcement learning (RL), the limitations of GUI-only operation, and environment stability. In this technical report, we present UI-TARS-2, a native GUI-centered agent m...

ID: 2509.02544v1 cs.AI, cs.CL, cs.CV, cs.HC

arXiv PDF

📄 SWIRL: A Staged Workflow for Interleaved Reinforcement Learning in Mobile GUI Control

2025-08-29

Авторы:

Quanfeng Lu, Zhantao Ma, Shuai Zhong, Jin Wang, Dahai Yu, Michael K. Ng, Ping Luo

## Контекст Область исследований, связанная с mobile GUI control (контролем пользовательских интерфейсов мобильных приложений), получила значительный интерес в последние годы, особенно в связи с развитием крупных моделей визуального языка (LVLMs) и их возможностями в области естественных языков. Несмотря на этот прогресс, существующие методы либо ограничены в своих возможностях, либо неэффективны в условиях реального времени. Это приводит к необходимости разработки более устойчивых и мощных систем, которые могут легко переключаться между высокоуровневыми и низкоуровневыми задачами. Целью данной работы является разработка методологии, которая могла бы оптимизировать многоагентные системы, обеспечивая их эффективную координацию и устойчивость в различных сценариях. ## Метод SWIRL (Staged Workflow for Interleaved Reinforcement Learning) представляет собой инновационный подход к обучению многоагентных систем. Он преобразует задачи многоагентного обучения в последовательность задач обучения одного агента. В этой модели каждый агент обучается по очереди, при этом другие агенты остаются неизменными. Этот подход обеспечивает стабильность обучения и позволяет достичь эффективного взаимодействия между агентами. Для гарантии качества и корректности решений в SWIRL внедрены такие теоретические примитивы, как шаг защиты обучения, теорема о монотонном улучшении и гарантии на возврат при оптимизации. Метод также включает в себя Navigator, который преобразует естественный язык и контекст экрана в структурированные планы, и Interactor, который реализует эти планы на уровне атомарных действий. ## Результаты SWIRL протестирован на широком спектре задач, включая обработку естественного языка и контроль низкоуровневых элементов GUI. Обширные эксперименты показали, что SWIRL превосходит существующие методы в выполнении задач, обеспечивая более высокую точность и устойчивость в решении задач. В частности, на мобильных GUI бенчмарках SWIRL демонстрирует улучшение производительности, уменьшая количество ошибок и увеличивая скорость выполнения задач. Этот подход также продемонстрировал свою эффективность в задачах многоагентного математического разумания, подтверждая широкий потенциал SWIRL как основы для развития многоагентных систем. ## Значимость Помимо мобильных GUI-систем, SWIRL может быть применен в таких областях, как управление роботами, системы автоматизированного обучения и обработка изображений. Особенностью SWIRL является его гибкость и мощь, позволяющие применять его в различных контекстах. Этот подход обеспечивает эффективность, стабильность и гарантированные результаты в различных зада

Annotation:

The rapid advancement of large vision language models (LVLMs) and agent systems has heightened interest in mobile GUI agents that can reliably translate natural language into interface operations. Existing single-agent approaches, however, remain limited by structural constraints. Although multi-agent systems naturally decouple different competencies, recent progress in multi-agent reinforcement learning (MARL) has often been hindered by inefficiency and remains incompatible with current LVLM ar...

ID: 2508.20018v1 cs.AI, cs.CL, cs.CV, cs.MA

arXiv PDF

📄 Learning to Steer: Input-dependent Steering for Multimodal LLMs

2025-08-20

Авторы:

Jayneel Parekh, Pegah Khayatan, Mustafa Shukor, Arnaud Dapogny, Alasdair Newson, Matthieu Cord

## Контекст В последние годы широко распространены трансфорер-модели, которые обладают выдающимися возможностями в области обработки естественного языка. Однако существуют ряд сложностей, в том числе связанные с ретроспективным контролем поведения моделей. Многие приложения требуют, чтобы модели не только генерировали ответы, но и проявляли определенную стратегию, например, отказывались от ответа при необходимости, привлекались к экспертам или указывали на сторонние ресурсы. Этот подход, известный как "steering" (руководство), вызывает значительный интерес, особенно для моделей, обрабатывающих множество видов данных (multimodal large language models, MLLMs). Несмотря на существующие стратегии, такие как mean steering, они основываются на единственном статическом векторе направления, который не зависит от конкретного входного запроса. Это ограничение становится особенно заметным в случаях, когда результат должен зависеть от конкретного запроса. Например, правильное решение для запроса о медицинской информации может заключаться в указании на поиск квалифицированного специалиста. В данной статье предлагается новый подход, называемый **L2S (Learn-to-Steer)**, который адресует эти ограничения, применяя вводно-зависимую стратегию руководства. ## Метод MLLMs, такие как Flamingo и также многие другие, были разработаны для обработки разнообразного ввода, но их поведение часто недостаточно контролируется. Для решения этой проблемы предлагаются вводно-зависимые стратегии. Процесс L2S включает следующие этапы: 1. **Input-Specific Prompting**: Для каждого ввода создается уникальная интерпретация, которая включает в себя специальные добавления, направляющие модель в нужном направлении. 2. **Linear Shift Calculation**: Используя вводно-зависимую интерпретацию, вычисляется линейный сдвиг, который определяет изменение поведения модели. 3. **Training Auxiliary Module**: На этапе обучения применяется небольшой модуль, который предсказывает линейный сдвиг, используя в качестве входных данных вводно-зависимую интерпретацию. Этот подход позволяет выравнивать модель в соответствии с требованиями конкретного запроса, что делает ее более эффективной и безопасной в эксплуатации. ## Результаты На экспериментальных данных показано, что L2S значительно сокращает зависимость от статических стратегий и улучшает результаты в следующих областях: - **Reduction of Hallucinations**: Модель становится менее зависима от некорректных выводов, когда применяется L2S. - **Safety Enforcement**: Модель намеренно отказывается от ответов в случаях, когда ответ может быть небезопасен или неправильным. - **Comparison with Baselines**: Результаты L2S показывают значительные выигрыши по сравнению с

Annotation:

Steering has emerged as a practical approach to enable post-hoc guidance of LLMs towards enforcing a specific behavior. However, it remains largely underexplored for multimodal LLMs (MLLMs); furthermore, existing steering techniques, such as mean steering, rely on a single steering vector, applied independently of the input query. This paradigm faces limitations when the desired behavior is dependent on the example at hand. For example, a safe answer may consist in abstaining from answering when...

ID: 2508.12815v1 cs.LG, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 E3RG: Building Explicit Emotion-driven Empathetic Response Generation System with Multimodal Large Language Model

2025-08-20

Авторы:

Ronghao Lin, Shuai Shen, Weipeng Hu, Qiaolin He, Aolin Xiong, Li Huang, Haifeng Hu, Yap-peng Tan

## Контекст Многомодальная эмпатическая генерация ответов (MERG) является ключевым компонентом создания эмоционально интеллектуальных взаимодействий между людьми и компьютерами. Несмотря на то, что большие языковые модели (LLMs) улучшили текстовую эмоциональную генерацию ответов, остаются сложности в обработке многомодального эмоционального контента и сохранении консистентности личности. Эти проблемы ограничивают эффективность текущих систем. Чтобы сделать MERG более эмоционально богатым и идентичным, необходимо использовать более совершенные подходы, которые учитывают комплексность эмоциональных сигналов и поддерживают консистентность личности в ходе взаимодействия. ## Метод Мы предлагаем E3RG, систему эмоционального эмпатического генерирования ответов на основе многомодальных LLMs. Методология E3RG декомпозирует задачу MERG на три модуля: понимание эмоций многомодального контента, восстановление эмоциональной памяти и многомодальное генерирование ответов. Эти модули используют новейшие модели для генерации речи и видео, что позволяет E3RG генерировать ответы, описывающие эмоциональное состояние, без дополнительной подготовки. Благодаря этому, E3RG обеспечивает натуральность, эмоциональную богатство и консистентность личности в ответах. ## Результаты В ходе экспериментов мы проверили E3RG на двух уровнях: zero-shot и few-shot. Мы использовали различные наборы данных для оценки системы на способности понимать эмоции и генерировать ответы. Результаты показали, что E3RG показывает высокую точность и эмоциональную корректность в сравнении с другими подходами. Наша система стала лидером на соревновании Avatar-based Multimodal Empathy Challenge в рамках ACM MM 2025. ## Значимость E3RG может применяться в различных сферах, включая области социальных роботов, виртуальных ассистентов и медицинских приложений, где эмоциональная коммуникация играет ключевую роль. Основные преимущества E3RG заключаются в том, что он сохраняет консистентность личности, быстро реагирует на эмоциональные сигналы и обеспечивает натуральную эмоциональную реакцию. Его потенциал заключается в улучшении качества взаимодействия с пользователем и создании более эмоционально приятных и естественных интерфейсов. ## Выводы Мы представили E3RG, мощную многомодальную систему для эмоционального эмпатического генерирования ответов. Наши эксперименты показали, что E3RG превосходит другие подходы в zero-shot и few-shot режимах. Мы посвятим будущим исследованиям улучшение моделей и их применение в различных сценариях, чтобы дальше улучшить эмоциональное понимание и генерирова

Annotation:

Multimodal Empathetic Response Generation (MERG) is crucial for building emotionally intelligent human-computer interactions. Although large language models (LLMs) have improved text-based ERG, challenges remain in handling multimodal emotional content and maintaining identity consistency. Thus, we propose E3RG, an Explicit Emotion-driven Empathetic Response Generation System based on multimodal LLMs which decomposes MERG task into three parts: multimodal empathy understanding, empathy memory re...

ID: 2508.12854v1 cs.AI, cs.CL, cs.CV, cs.HC, cs.MM

arXiv PDF

📄 Match & Choose: Model Selection Framework for Fine-tuning Text-to-Image Diffusion Models

2025-08-19

Авторы:

Basile Lewandowski, Robert Birke, Lydia Y. Chen

## Контекст Текст-на-изображение (T2I) модели, основанные на архитектурах диффузии и трансформеров, постоянно развиваются. Их обучают на больших корпусах данных, после чего эти модели опубликованы на платформах, таких как HuggingFace. Пользователи могут использовать эти модели для создания приложений, например, генерации медиаконтента, посредством оптимизации под конкретные данные. Однако появляется новый вопрос: какая модель лучше всего подходит для определенной области? Несмотря на то, что для задач классификации имеются уже оцененные методы выбора моделей, подобные подходы для T2I-моделей остаются неизученными. Мы предлагаем **Match & Choose (M&C)** — первый фреймворк для модели выбора лучшей T2I-модели для определенной области, позволяющий пользователям эффективно выбирать модели без необходимости проводить их последовательную оптимизацию. ## Метод M&C фреймворъ представляет собой граф матчей, в котором узлы соответствуют T2I-моделям и датасетам, а ребра представляют профили моделей и датасетов, оцененные на основе их выполнения. Мы разрабатываем модель, которая использует эту структуру для предсказания лучшей модели для каждого датасета. Наша модель использует три типа признаков: информацию о модели, о датасете и графические данные о матче. Мы сравниваем M&C с тремя базовыми подходами, анализируя его точность в предсказании лучшей модели. ## Результаты Мы оцениваем M&C на 32 датасетах и 10 моделях T2I. Метод показывает высокую точность: в 61.3% случаев он выбирает лучшую модель для оптимизации. Остальные случаи обычно приводят к выбору моделей с минимальным разницей в качестве результата. Этот подход позволяет экономить ресурсы за счет того, что пользователи не нуждаются в постоянной оптимизации всех моделей. ## Значимость M&C может иметь широкое применение в искусственном интеллекте, где пользователи нуждаются в эффективной оптимизации моделей. Он позволяет сократить время и ресурсы, необходимые для выбора модели, и дает пользователям возможность быстро оптимизировать свои решения. Этот фреймворк может использоваться в различных областях, включая медиа-генерацию, обработку естественного языка, и даже в сегментации изображений, где требуется высококачественное представление. ## Выводы Мы представили уникальный подход к модели выбора лучшей T2I-модели для целевого датасета. Мы показали, что M&C эффективно работает в ситуациях, где пользователи должны выбирать модели для оптимизации. Наш фреймворк может стать ключевым инструментом для улучшения работы с T2I-моделями. Мы плани

Annotation:

Text-to-image (T2I) models based on diffusion and transformer architectures advance rapidly. They are often pretrained on large corpora, and openly shared on a model platform, such as HuggingFace. Users can then build up AI applications, e.g., generating media contents, by adopting pretrained T2I models and fine-tuning them on the target dataset. While public pretrained T2I models facilitate the democratization of the models, users face a new challenge: which model can be best fine-tuned based o...

ID: 2508.10993v1 cs.LG, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 CorrectNav: Self-Correction Flywheel Empowers Vision-Language-Action Navigation Model

2025-08-16

Авторы:

Zhuoyuan Yu, Yuxing Long, Zihan Yang, Chengyan Zeng, Hongwei Fan, Jiyao Zhang, Hao Dong

#### Контекст Визионно-языковое навигационное моделирование (VLA) широко применяется в сегменте развития искусственного интеллекта. Однако существующие модели часто спотыкаются при выполнении инструкций, теряя правильный путь. У них часто недостаточно силы для корректировки ошибок, что приводит к неточности или полной неуспешности выполнения. В этой статье мы рассматриваем эту проблему, сформулируя ее как центральную задачу, и предлагаем новую модель, которая может самостоятельно исправляться в процессе работы. #### Метод Мы предлагаем **Self-correction Flywheel** — пост-тренировочный подход, использующий ошибки модели в качестве ресурса. Данный подход включает в себя методы для определения и анализа ошибочных траекторий модели, а также механизмы для генерирования самокорректирующихся данных, которые улучшают модель при последовательных циклах обучения. Мы разработали модель CorrectNav, основанную на этих принципах. Модель использует монохромные RGB-изображения и получает инструкции на языке, выполняя целевую навигационную задачу. #### Результаты Мы провели эксперименты на двух бенчмарках: R2R-CE и RxR-CE. Наши эксперименты показали, что CorrectNav показывает новые рекорды в успешном навигационном выполнении — 65.1% на R2R-CE и 69.3% на RxR-CE. Эти результаты превосходят предыдущие модели на 8.2% и 16.4% соответственно. Также мы проверили модель на реальном роботе в различных внутренних и внешних средах, где она продемонстрировала значительные достижения в корректировке ошибок, избегании динамических препятствий и долгосрочном следовании инструкциям. #### Значимость Наша модель может быть использована в различных приложениях, таких как управление роботами, автономное перемещение транспортных средств и визуально-языковые приложения. Преимущества включают высокую точность, долгосрочную навигацию и способность самостоятельно корректироваться во время работы. Это может повлиять на развитие более надежных и удобных систем навигации в различных сферах. #### Выводы Мы демонстрируем силу нашего подхода в моделировании VLA и показываем, что он может стать основой для развития будущих моделей. Будущие исследования будут сфокусированы на расширении модели CorrectNav для более сложных и полимодальных задач навигации, а также на изучении ее поведения в более сложных и реальных средах.

Annotation:

Existing vision-and-language navigation models often deviate from the correct trajectory when executing instructions. However, these models lack effective error correction capability, hindering their recovery from errors. To address this challenge, we propose Self-correction Flywheel, a novel post-training paradigm. Instead of considering the model's error trajectories on the training set as a drawback, our paradigm emphasizes their significance as a valuable data source. We have developed a met...

ID: 2508.10416v1 cs.RO, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance

2025-08-13

Авторы:

Lixuan He, Jie Feng, Yong Li

## Контекст В последние годы Large Language Models (LLMs) стали неотъемлемой частью различных интеллектуальных задач, таких как математическое моделирование, визуальное рассуждение и взаимодействие с визуальными средами. Однако достижение высокого уровня производительности в этих областях часто требует сложной подготовки моделей, включающей в себя и супервизированную оптимизацию (SFT), и реинфорсмент (RL). Несмотря на выгоды от удовлетворения параллельных потребностей моделей, существуют затруднения в достижении гармоничного баланса, что приводит к таким проблемам, как катастрофическое забывание, неоптимальный баланс между имитацией и экспериментом, а также сложности в выборе правильной стратегии для конкретных задач. Эти трудности приводят к увеличению времени обучения и снижению стабильности результатов. В этой работе мы применяем теоретическое осмысление гибкого имплицитного механизма регулирования взаимодействия SFT и RL для лучшего достижения баланса. ## Метод Мы предлагаем новую модель **Adaptive Meta Fine-Tuning (AMFT)**, которая представляет собой уникальную методологию для улучшения баланса между SFT и RL. Центральная идея заключается в том, чтобы трактовать SFT и RL не как независимые технологии, а как взаимосвязанные регуляторы, зависящие от задачи. AMFT вводит **мета-градиентный адаптивный контроллер**, который анализирует и динамически создает веса для SFT и RL, максимизируя не только производительность, но и стабильность. Особенностью метода является ввод **политии энтропии** для повышения стабильности тренировочного процесса, что позволяет модели автоматически выбирать наиболее подходящую стратегию в зависимости от специфических входных данных. Данная архитектура гарантирует оптимальный режим тренировки и сохраняет достаточную гибкость для решения OOD-задач. ## Результаты Мы проводим эксперименты на трех основных типах задач: математическом рассуждении, визуальном рассуждении (в том числе General Points) и взаимодействии с визуальными средами (V-IRL). В результате, AMFT демонстрирует значительные улучшения по сравнению с другими существующими методами. Мы исследуем эффективность мета-контроллера и производительность модели в многостадийных ситуациях. Эксперименты показывают, что AMFT не только повышает общую производительность, но и демонстрирует более стабильные результаты в нестандартных ситуациях. Анализ динамики обучения подтверждает, что мета-контроллер не только улучшает скорость обучения, но и помогает модели избегать потерь связанных с катастрофическим забыванием. ## Значимость AMFT демонстрирует потенциал для использования в широком

Annotation:

Large Language Models (LLMs) are typically fine-tuned for reasoning tasks through a two-stage pipeline of Supervised Fine-Tuning (SFT) followed by Reinforcement Learning (RL), a process fraught with catastrophic forgetting and suboptimal trade-offs between imitation and exploration. Recent single-stage methods attempt to unify SFT and RL using heuristics, but lack a principled mechanism for dynamically balancing the two paradigms. In this paper, we reframe this challenge through the theoretical ...

ID: 2508.06944v2 cs.LG, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 EndoAgent: A Memory-Guided Reflective Agent for Intelligent Endoscopic Vision-to-Decision Reasoning

2025-08-13

Авторы:

Yi Tang, Kaini Wang, Yang Chen, Guangquan Zhou

## Контекст Исследование развития искусственного интеллекта (AI) для поддержки диагностики на основе эндоскопических изображений является важной областью поиска. Существующие методы, основанные на больших наборах данных и предварительной обучении, часто страдают от отсутствия унифицированного подхода к решению различных задач и сложности с многошаговыми процессами в клинических работах. Хотя AI-агенты доказали свою эффективность в адаптивном исполнении инструкций и интеграции инструментов в различных областях, их потенциал в области эндоскопии остается недостаточно исследованным. Целью данной работы является разработка EndoAgent — первого AI-агента, основанного на памяти, для визуально-решающего анализа эндоскопических изображений, который комбинирует итеративное разумение с адаптивным выбором инструментов и сотрудничеством. ## Метод EndoAgent основывается на двухкомпонентной системе памяти: краткосрочной, для отслеживания действий, и долгосрочной, для улучшения рассуждений в процессе. Агент интегрирует множество специализированных инструментов, разработанных экспертами, в единую логическую структуру. Методология решения задач включает интерактивное взаимодействие с изображениями, адаптивные выборки инструментов и итеративную коррекцию решений. Для эффективного обучения и оценки производительности разработан EndoAgentBench — бенчмарк, содержащий 5709 визуальных вопросов-ответов, оценивающих уровень понимания и построение решений в реальных ситуациях. ## Результаты Экспериментальные исследования показали, что EndoAgent превосходит общие и медицинские многомодальные модели, демонстрируя высокую гибкость и компетентность в рассуждениях. Он показал себя эффективнее в задачах, требующих многошагового анализа и управления инструментами. Это доказывает значительный потенциал EndoAgentа в применении к клиническим задачам, где требуется глубокий анализ информации и быстрая адаптивность. ## Значимость EndoAgent может быть применен в различных областях медицины, где требуется визуальный анализ и принятие решений, таких как диагностика, планирование хирургических операций и улучшение операционных процессов. Визуально-решающий подход с учетом памяти и интеграции инструментов делает EndoAgent очень гибким и эффективным в различных рабочих процессах. Благодаря своему уникальному подходу, EndoAgent может существенно улучшить точность диагностики и эффективность работы в сложных клинических ситуациях. ## Выводы EndoAgent представляет собой прорыв в области визуально-решающих AI-систем для эндоскопической диагностики. Он дока

Annotation:

Developing general artificial intelligence (AI) systems to support endoscopic image diagnosis is an emerging research priority. Existing methods based on large-scale pretraining often lack unified coordination across tasks and struggle to handle the multi-step processes required in complex clinical workflows. While AI agents have shown promise in flexible instruction parsing and tool integration across domains, their potential in endoscopy remains underexplored. To address this gap, we propose E...

ID: 2508.07292v1 cs.AI, cs.CL, cs.CV

arXiv PDF

📄 Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents

2025-08-13

Авторы:

Tianyi Ma, Yue Zhang, Zehao Wang, Parisa Kordjamshidi

## Контекст Vision-and-Language Navigation (VLN) представляет собой сложное задание, требующее систем извлечения смысла из естественных языковых инструкций и эффективной навигации в развернутых 3D-средах. Несмотря на то, что последние достижения в области VLN были подспорьем широкомасштабной предобученности и расширению данных, существуют значительные проблемы с общую стойкостью, особенно когда требуется повышенное пространственное или временное разумление. Например, существующие агенты часто падают при визуальной и языковой неоднородности, которую представляют незнакомые среды и нестандартные инструкции. Мотивацией для нас является создание более устойчивого и гибкого подхода, который может быть применен в нестандартных сценариях. ## Метод Мы предлагаем SkillNav, модульную архитектуру, включающую в себя структурированные, навыково-ориентированные принципы для взаимодействия с 3D-средами. SkillNav декомпозирует навигацию на независимые атомарные навыки, такие как "Перемещение по высоте", "Распознавание областей и регионов", и "Остановка и пауза". Каждый из этих навыков выполняется специализированным под-агентом. Для того чтобы обеспечить динамическое выбор наиболее подходящего под-агента во время выполнения, мы предложили новый тип Vision-Language Model (VLM)-based router, который используется для множественных действий. Этот модуль, используя визуальные сенсоры и языковые команды, выбирает наиболее подходящий под-агент, ориентируясь на под-цели и историю действий. Основная идея заключается в структурированной модели, которая позволяет роутеру гибко реагировать на изменения в среде. ## Результаты Мы провели эксперименты на двух бенчмарках: R2R и GSA-R2R. На R2R, SkillNav достиг нового состояния технологии с повышенным уровнем производительности в задачах навигации по сложным 3D-средам. На GSA-R2R, что включает нестандартные стили инструкций и неизвестные среды, SkillNav стабильно показал свою способность к генерализации. Мы также провели анализ вариативности наших моделей, продемонстрировав улучшение отдельных навыков и их взаимодействия, что включает в себя наблюдения о том, как каждый под-агент был влиятелен на общую систему. ## Значимость SkillNav может быть применен в сферах, требующих действий в сложных средах, таких как управление роботами, виртуальная реальность и системы помощи при навигации. Наши результаты свидетельствуют о значительных преимуществах, таких как увеличение устойчивости к неизвестным средам, повышение точности распознавания инструкций и упрощение моделей для требовательных задач. Мы также показали, что наш

Annotation:

Vision-and-Language Navigation (VLN) poses significant challenges in enabling agents to interpret natural language instructions and navigate complex 3D environments. While recent progress has been driven by large-scale pre-training and data augmentation, current methods still struggle to generalize to unseen scenarios, particularly when complex spatial and temporal reasoning is required. In this work, we propose SkillNav, a modular framework that introduces structured, skill-based reasoning into...

ID: 2508.07642v1 cs.AI, cs.CL, cs.CV

arXiv PDF

Показано 51 - 60 из 64 записей