Process-Supervised Reinforcement Learning for Interactive Multimodal Tool-Use Agents
2509.14480v1
cs.CL, cs.AI, cs.MA
2025-09-20
Авторы:
Weiting Tan, Xinghua Qu, Ming Tu, Meng Ge, Andy T. Liu, Philipp Koehn, Lu Lu
Резюме на русском
## Контекст
Проблема обучения интерактивных агентов к инструментальному использованию, которое требует многократного планирования и управления многообразными многослойными диалогами, остается актуальной в современных искусственных интеллектах. Агенты должны решать трудные задачи, в которых необходимо оптимизировать многошаговые цепочки действий, а также использовать разнообразные сигналы, такие как текст и речь, для эффективного взаимодействия. Несмотря на развитие методов подкрепления, создание таких агентов остается сложной задачей из-за сложности выбора приёмных методов и структуры обучения. Мы предлагаем исследовать этот вопрос с применением метода подкрепления, учитывающего процесс решения задач и интегрирующего несколько модальностей взаимодействия.
## Метод
Предлагаемая методология, Turn-level Adjudicated Reinforcement Learning (TARL), предполагает использование Large Language Model (LLM) для оценки каждого шага обучения. LLM действует как "судья", анализируя результаты каждого шага и предоставляя видео-роллаут с различными вариантами действий в течение многократных циклов. Это позволяет агенту учитывать множество возможных комбинаций при выборе следующего шага. Для улучшения эксплорейшена внедрено множество задач, включая математические задачи, которые обеспечивают накопление опыта и развитие логического мышления. Архитектура обучения включает в себя не только интеграцию текстовых и речевых сигналов, но и смешанные задачи, которые усиливают обучение с подкреплением, повышая устойчивость и эффективность.
## Результаты
Использовались данные из текстового бенчмарка $\tau$-bench, где была проводимая сравнительная оценка предлагаемого подхода с другими методами RL. Тестирование показало, что предложенный метод увеличивает проходимость задач на 6% по сравнению с конкурирующими решениями. Этот результат достигнут благодаря глубокой интеграции методов подкрепления и многомодального анализа. Также был проведён эксперимент на fine-tuning многомодальной фондаментальной модели, которая была успешно настроена для проведения инструментальных задач. Это указывает на возможность создания системы, которая может эффективно взаимодействовать с пользователем через речь и текст.
## Значимость
Предложенный подход имеет широкие перспективы в области интеллектуальных интерактивных систем. Он может использоваться в сферах, требующих многошагового планирования и интеллектуального взаимодействия с пользователем. Например, в сфере управления домашними устройствами, сервисах поддержки или робототехнике. Одним из основных преимуществ является улучшение производительности
Abstract
Effective interactive tool use requires agents to master Tool Integrated
Reasoning (TIR): a complex process involving multi-turn planning and
long-context dialogue management. To train agents for this dynamic process,
particularly in multi-modal contexts, we introduce a sandbox environment for
reinforcement learning (RL) that supports interleaved speech-text rollouts. Our
core strategy, Turn-level Adjudicated Reinforcement Learning (TARL), addresses
the challenge of credit assignment in long-horizon tasks by employing a Large
Language Model (LLM) as a judge to provide turn-level evaluation. To enhance
exploration, we integrate a mixed-task training curriculum with mathematical
reasoning problems. This unified approach boosts the task pass rate on the
text-based $\tau$-bench by over 6% compared to strong RL baselines. Crucially,
we demonstrate our framework's suitability for fine-tuning a multi-modal
foundation model for agentic tasks. By training a base multi-modal LLM on
interleaved speech-text rollouts, we equip it with tool-use abilities, paving
the way for more natural, voice-driven interactive agents.
Ссылки и действия
Дополнительные ресурсы: