📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning

2025-09-30

Авторы:

Yulei Qin, Xiaoyu Tan, Zhengbao He, Gang Li, Haojia Lin, Zongyi Li, Zihan Xu, Yuchen Shi, Siqi Cai, Renting Rui, Shaofei Cai, Yuzheng Cai, Xuan Zhang, Sheng Ye, Ke Li, Xing Sun

#### Контекст Reinforcement learning (RL) является ключевым подходом для развития стратегических навыков у глубоких нейронных сетей над задачами с длинным горизонтом и редкими наградами. Однако он сталкивается с проблемой trade-off между exploration (исследованием) и exploitation (использованием), которая мешает эффективному обучению. Предыдущие исследования стимулируют exploration с помощью максимизации политики, но это проблематично из-за потенциальной instability при многократном shiftе дистрибуции. В данной работе мы фокусируемся на стабильном балансе между exploration и exploitation, используя собственные опыты агента. #### Метод Мы предлагаем SPEAR — curriculum-based self-imitation learning (SIL) framework, который расширяет vanilla SIL, хранящий self-generated promising trajectories в replay buffer для off-policy обновления. SPEAR включает curriculum-based steering для управления process exploration. Он использует intrinsic rewards для skill-level exploration и action-level exploration через SIL. В начале, reward-based reward помогает агенту накопить tool-use skills, расширяя его exposure к разным средствам среды с растущим entropy. Затем, self-imitation усиливается для эксплуатации успешных шагов из replay buffer, ускоряя iterative solution. Для stabilizing обучения, мы recalibrate advantages в replay buffer и вводим regularizations, такие как clipping high-covariance tokens, уменьшая over-confidence. #### Результаты Мы провели эксперименты на сетях с agentic capabilities, используя сложные задачи с горизонтом действий. SPEAR стабилизировал training и улучшил exploration-exploitation balance, показав значительное превосходство по metricам в сравнении с baselineami. Мы также проанализировали качество решений, наблюдая улучшение в динамической среде. #### Значимость SPEAR может применяться в областях, где требуется агентское поведение, такие как robotics, game-playing и conversational agents. Он обеспечивает более стабильное обучение, эффективное использование ресурсов и лучшую adaptability в разных средах. Potential implications включают улучшение agentic skills в широком диапазоне задач. #### Выводы SPEAR достигает стабильного и эффективного обучения agentic RL через self-imitation и progressive exploration. Наши результаты открывают новые направления в исследованиях обучения с agentic capabilities, направленных на улучшение stability и adaptability в RL. Будущие работы будут фокусироваться на улучшении curriculum design и exploration strategies для устранения препятствий в итоге.

Annotation:

Reinforcement learning (RL) is the dominant paradigm for sharpening strategic tool use capabilities of LLMs on long-horizon, sparsely-rewarded agent tasks, yet it faces a fundamental challenge of exploration-exploitation trade-off. Existing studies stimulate exploration through the lens of policy entropy, but such mechanical entropy maximization is prone to RL training instability due to the multi-turn distribution shifting. In this paper, we target the progressive exploration-exploitation balan...

ID: 2509.22601v1 cs.LG, cs.AI, cs.CL, cs.CV, cs.MA

arXiv PDF

📄 SWIRL: A Staged Workflow for Interleaved Reinforcement Learning in Mobile GUI Control

2025-08-29

Авторы:

Quanfeng Lu, Zhantao Ma, Shuai Zhong, Jin Wang, Dahai Yu, Michael K. Ng, Ping Luo

## Контекст Область исследований, связанная с mobile GUI control (контролем пользовательских интерфейсов мобильных приложений), получила значительный интерес в последние годы, особенно в связи с развитием крупных моделей визуального языка (LVLMs) и их возможностями в области естественных языков. Несмотря на этот прогресс, существующие методы либо ограничены в своих возможностях, либо неэффективны в условиях реального времени. Это приводит к необходимости разработки более устойчивых и мощных систем, которые могут легко переключаться между высокоуровневыми и низкоуровневыми задачами. Целью данной работы является разработка методологии, которая могла бы оптимизировать многоагентные системы, обеспечивая их эффективную координацию и устойчивость в различных сценариях. ## Метод SWIRL (Staged Workflow for Interleaved Reinforcement Learning) представляет собой инновационный подход к обучению многоагентных систем. Он преобразует задачи многоагентного обучения в последовательность задач обучения одного агента. В этой модели каждый агент обучается по очереди, при этом другие агенты остаются неизменными. Этот подход обеспечивает стабильность обучения и позволяет достичь эффективного взаимодействия между агентами. Для гарантии качества и корректности решений в SWIRL внедрены такие теоретические примитивы, как шаг защиты обучения, теорема о монотонном улучшении и гарантии на возврат при оптимизации. Метод также включает в себя Navigator, который преобразует естественный язык и контекст экрана в структурированные планы, и Interactor, который реализует эти планы на уровне атомарных действий. ## Результаты SWIRL протестирован на широком спектре задач, включая обработку естественного языка и контроль низкоуровневых элементов GUI. Обширные эксперименты показали, что SWIRL превосходит существующие методы в выполнении задач, обеспечивая более высокую точность и устойчивость в решении задач. В частности, на мобильных GUI бенчмарках SWIRL демонстрирует улучшение производительности, уменьшая количество ошибок и увеличивая скорость выполнения задач. Этот подход также продемонстрировал свою эффективность в задачах многоагентного математического разумания, подтверждая широкий потенциал SWIRL как основы для развития многоагентных систем. ## Значимость Помимо мобильных GUI-систем, SWIRL может быть применен в таких областях, как управление роботами, системы автоматизированного обучения и обработка изображений. Особенностью SWIRL является его гибкость и мощь, позволяющие применять его в различных контекстах. Этот подход обеспечивает эффективность, стабильность и гарантированные результаты в различных зада

Annotation:

The rapid advancement of large vision language models (LVLMs) and agent systems has heightened interest in mobile GUI agents that can reliably translate natural language into interface operations. Existing single-agent approaches, however, remain limited by structural constraints. Although multi-agent systems naturally decouple different competencies, recent progress in multi-agent reinforcement learning (MARL) has often been hindered by inefficiency and remains incompatible with current LVLM ar...

ID: 2508.20018v1 cs.AI, cs.CL, cs.CV, cs.MA

arXiv PDF