OM2P: Offline Multi-Agent Mean-Flow Policy
2508.06269v1
cs.LG, cs.AI
2025-08-12
Авторы:
Zhuoran Li, Xun Wang, Hai Zhong, Longbo Huang
Резюме на русском
#### Контекст
Онлайн-игры с несколькими агентами (Multi-Agent Reinforcement Learning, MARL) широко используются в различных областях, таких как игровые индустрии, системы управления трафиком и системы самоуправления. Однако использование онлайн-подходов в ситуациях, где доступ при реальном времени к агентам ограничен, является нереалистичным. Оффлайн-MARL предлагает решение этой проблемы, позволяя обучать модели на основе заранее собранных данных. Однако, внедрение мощных генерирующих моделей, таких как диффузионные или течевыделные модели, в оффлайн-MARL-процесс, представляет собой серьезные технические проблемы. Эти модели часто страдают от низкой эффективности выборки, что снижает их пригодность для решения время-или ресурсозависимых задач.
#### Метод
Мы предлагаем OM2P (Offline Multi-Agent Mean-Flow Policy), новый метод для оффлайн-MARL. Основная идея заключается в использовании одношаговой оптимизации, что позволяет эффективно использовать модели типа mean-flow. Для решения проблемы несоответствия между целями генерирующих моделей и максимизацией награды, мы интегрировали специальный механизм оптимизации, основанный на совпадении среднего потока (mean-flow matching) и супервизом Q-функции. Для эффективного использования ресурсов, мы разработали универсальную стратегию распределения шагов времени и дифференцируемую стратегию оценки, которая позволяет сократить накладные расходы на память и улучшить стабильность обучения.
#### Результаты
Мы проводили эксперименты на двух популярных бенчмарках: Multi-Agent Particle и MuJoCo. Результаты показали, что OM2P превосходит существующие методы в несколько наименее метрик, в том числе уменьшением потребления GPU-памяти до 3.8 раз и ускорением процесса обучения до 10.8 раз. Это позволило установить новый стандарт эффективности для оффлайн-MARL с генерирующими моделями в кооперативных средах.
#### Значимость
OM2P открывает новые возможности для применения генерирующих моделей в оффлайн-MARL. Его высокая эффективность и стабильность делают его пригодным для применения в реальных ситуациях, таких как управление трафиком, системы распределенного управления и игровые приложения. Это решение может положительно сказаться на развитии искусственного интеллекта в различных отраслях.
#### Выводы
OM2P является первым методом, успешно интегрировавшим модели mean-flow в оффлайн-MARL. Мы показали, что этот подход эффективно решает проблемы с эффективностью выборки и накладными расходами. Будущие исследования будут концентрироваться на расширении применимости OM2P к более сложным средам и областям, таким как транспорт
Abstract
Generative models, especially diffusion and flow-based models, have been
promising in offline multi-agent reinforcement learning. However, integrating
powerful generative models into this framework poses unique challenges. In
particular, diffusion and flow-based policies suffer from low sampling
efficiency due to their iterative generation processes, making them impractical
in time-sensitive or resource-constrained settings. To tackle these
difficulties, we propose OM2P (Offline Multi-Agent Mean-Flow Policy), a novel
offline MARL algorithm to achieve efficient one-step action sampling. To
address the misalignment between generative objectives and reward maximization,
we introduce a reward-aware optimization scheme that integrates a
carefully-designed mean-flow matching loss with Q-function supervision.
Additionally, we design a generalized timestep distribution and a
derivative-free estimation strategy to reduce memory overhead and improve
training stability. Empirical evaluations on Multi-Agent Particle and MuJoCo
benchmarks demonstrate that OM2P achieves superior performance, with up to a
3.8x reduction in GPU memory usage and up to a 10.8x speed-up in training time.
Our approach represents the first to successfully integrate mean-flow model
into offline MARL, paving the way for practical and scalable generative
policies in cooperative multi-agent settings.
Ссылки и действия
Дополнительные ресурсы: