Process-Supervised Reinforcement Learning for Interactive Multimodal Tool-Use Agents

2509.14480v1 cs.CL, cs.AI, cs.MA 2025-09-20
Авторы:

Weiting Tan, Xinghua Qu, Ming Tu, Meng Ge, Andy T. Liu, Philipp Koehn, Lu Lu

Резюме на русском

## Контекст Проблема обучения интерактивных агентов к инструментальному использованию, которое требует многократного планирования и управления многообразными многослойными диалогами, остается актуальной в современных искусственных интеллектах. Агенты должны решать трудные задачи, в которых необходимо оптимизировать многошаговые цепочки действий, а также использовать разнообразные сигналы, такие как текст и речь, для эффективного взаимодействия. Несмотря на развитие методов подкрепления, создание таких агентов остается сложной задачей из-за сложности выбора приёмных методов и структуры обучения. Мы предлагаем исследовать этот вопрос с применением метода подкрепления, учитывающего процесс решения задач и интегрирующего несколько модальностей взаимодействия. ## Метод Предлагаемая методология, Turn-level Adjudicated Reinforcement Learning (TARL), предполагает использование Large Language Model (LLM) для оценки каждого шага обучения. LLM действует как "судья", анализируя результаты каждого шага и предоставляя видео-роллаут с различными вариантами действий в течение многократных циклов. Это позволяет агенту учитывать множество возможных комбинаций при выборе следующего шага. Для улучшения эксплорейшена внедрено множество задач, включая математические задачи, которые обеспечивают накопление опыта и развитие логического мышления. Архитектура обучения включает в себя не только интеграцию текстовых и речевых сигналов, но и смешанные задачи, которые усиливают обучение с подкреплением, повышая устойчивость и эффективность. ## Результаты Использовались данные из текстового бенчмарка $\tau$-bench, где была проводимая сравнительная оценка предлагаемого подхода с другими методами RL. Тестирование показало, что предложенный метод увеличивает проходимость задач на 6% по сравнению с конкурирующими решениями. Этот результат достигнут благодаря глубокой интеграции методов подкрепления и многомодального анализа. Также был проведён эксперимент на fine-tuning многомодальной фондаментальной модели, которая была успешно настроена для проведения инструментальных задач. Это указывает на возможность создания системы, которая может эффективно взаимодействовать с пользователем через речь и текст. ## Значимость Предложенный подход имеет широкие перспективы в области интеллектуальных интерактивных систем. Он может использоваться в сферах, требующих многошагового планирования и интеллектуального взаимодействия с пользователем. Например, в сфере управления домашними устройствами, сервисах поддержки или робототехнике. Одним из основных преимуществ является улучшение производительности

Abstract

Effective interactive tool use requires agents to master Tool Integrated Reasoning (TIR): a complex process involving multi-turn planning and long-context dialogue management. To train agents for this dynamic process, particularly in multi-modal contexts, we introduce a sandbox environment for reinforcement learning (RL) that supports interleaved speech-text rollouts. Our core strategy, Turn-level Adjudicated Reinforcement Learning (TARL), addresses the challenge of credit assignment in long-horizon tasks by employing a Large Language Model (LLM) as a judge to provide turn-level evaluation. To enhance exploration, we integrate a mixed-task training curriculum with mathematical reasoning problems. This unified approach boosts the task pass rate on the text-based $\tau$-bench by over 6% compared to strong RL baselines. Crucially, we demonstrate our framework's suitability for fine-tuning a multi-modal foundation model for agentic tasks. By training a base multi-modal LLM on interleaved speech-text rollouts, we equip it with tool-use abilities, paving the way for more natural, voice-driven interactive agents.

Ссылки и действия