OM2P: Offline Multi-Agent Mean-Flow Policy

2508.06269v1 cs.LG, cs.AI 2025-08-12
Авторы:

Zhuoran Li, Xun Wang, Hai Zhong, Longbo Huang

Резюме на русском

#### Контекст Онлайн-игры с несколькими агентами (Multi-Agent Reinforcement Learning, MARL) широко используются в различных областях, таких как игровые индустрии, системы управления трафиком и системы самоуправления. Однако использование онлайн-подходов в ситуациях, где доступ при реальном времени к агентам ограничен, является нереалистичным. Оффлайн-MARL предлагает решение этой проблемы, позволяя обучать модели на основе заранее собранных данных. Однако, внедрение мощных генерирующих моделей, таких как диффузионные или течевыделные модели, в оффлайн-MARL-процесс, представляет собой серьезные технические проблемы. Эти модели часто страдают от низкой эффективности выборки, что снижает их пригодность для решения время-или ресурсозависимых задач. #### Метод Мы предлагаем OM2P (Offline Multi-Agent Mean-Flow Policy), новый метод для оффлайн-MARL. Основная идея заключается в использовании одношаговой оптимизации, что позволяет эффективно использовать модели типа mean-flow. Для решения проблемы несоответствия между целями генерирующих моделей и максимизацией награды, мы интегрировали специальный механизм оптимизации, основанный на совпадении среднего потока (mean-flow matching) и супервизом Q-функции. Для эффективного использования ресурсов, мы разработали универсальную стратегию распределения шагов времени и дифференцируемую стратегию оценки, которая позволяет сократить накладные расходы на память и улучшить стабильность обучения. #### Результаты Мы проводили эксперименты на двух популярных бенчмарках: Multi-Agent Particle и MuJoCo. Результаты показали, что OM2P превосходит существующие методы в несколько наименее метрик, в том числе уменьшением потребления GPU-памяти до 3.8 раз и ускорением процесса обучения до 10.8 раз. Это позволило установить новый стандарт эффективности для оффлайн-MARL с генерирующими моделями в кооперативных средах. #### Значимость OM2P открывает новые возможности для применения генерирующих моделей в оффлайн-MARL. Его высокая эффективность и стабильность делают его пригодным для применения в реальных ситуациях, таких как управление трафиком, системы распределенного управления и игровые приложения. Это решение может положительно сказаться на развитии искусственного интеллекта в различных отраслях. #### Выводы OM2P является первым методом, успешно интегрировавшим модели mean-flow в оффлайн-MARL. Мы показали, что этот подход эффективно решает проблемы с эффективностью выборки и накладными расходами. Будущие исследования будут концентрироваться на расширении применимости OM2P к более сложным средам и областям, таким как транспорт

Abstract

Generative models, especially diffusion and flow-based models, have been promising in offline multi-agent reinforcement learning. However, integrating powerful generative models into this framework poses unique challenges. In particular, diffusion and flow-based policies suffer from low sampling efficiency due to their iterative generation processes, making them impractical in time-sensitive or resource-constrained settings. To tackle these difficulties, we propose OM2P (Offline Multi-Agent Mean-Flow Policy), a novel offline MARL algorithm to achieve efficient one-step action sampling. To address the misalignment between generative objectives and reward maximization, we introduce a reward-aware optimization scheme that integrates a carefully-designed mean-flow matching loss with Q-function supervision. Additionally, we design a generalized timestep distribution and a derivative-free estimation strategy to reduce memory overhead and improve training stability. Empirical evaluations on Multi-Agent Particle and MuJoCo benchmarks demonstrate that OM2P achieves superior performance, with up to a 3.8x reduction in GPU memory usage and up to a 10.8x speed-up in training time. Our approach represents the first to successfully integrate mean-flow model into offline MARL, paving the way for practical and scalable generative policies in cooperative multi-agent settings.

Ссылки и действия