MAD-PINN: A Decentralized Physics-Informed Machine Learning Framework for Safe and Optimal Multi-Agent Control
2509.23960v1
cs.RO, cs.AI
2025-10-01
Авторы:
Manan Tayal, Aditya Singh, Shishir Kolathaya, Somil Bansal
Резюме на русском
## Контекст
Координация больших многоагентных системами (MAS) подвергается значительным вызовам, в том числе обеспечению безопасности, оптимальности и эффективного масштабирования. На данный момент, существующие подходы, такие как модельно-предиктивное управление (MPC), многоагентное расширенное управление (MARL) и фильтры безопасности, не могут обеспечить все требования одновременно. Многие не могут гарантировать строгую безопасность, требуют от компромиссов в производительности или не могут быть масштабированы для больших систем. Эти ограничения приводят к необходимости разработки новых, более эффективных методов, которые могут обеспечить приемлемый баланс между безопасностью и производительностью в многоагентных системах.
## Метод
МАД-PINN (Decentralized Physics-Informed Neural Network for Multi-Agent Decision-Making) является новым фреймворком, основанным на физически включенных нейросетях, для решения задачи многоагентного управления с ограничениями на состояние (MASC-OCP). Фреймворк использует эпиграфную реформуляцию для того, чтобы одновременно учитывать безопасность и производительность. Решение этой задачи получается с помощью создания физически включенной нейросети (PINN), которая оценивает значение стоимости и безопасности решения. Для масштабирования, сети тренируются на малых системах с подмножеством агентов и используются в распределенной среде для координации многоагентных систем. Стратегии для улучшения безопасности и эффективности включают в себя стратегию HJ-reachability для выбора безопасных интеракций и схему управления политикой на редких затрагиваемых моментах времени (receding-horizon control), которая позволяет адаптироваться к динамическим изменениям взаимодействий между агентами.
## Результаты
Результаты экспериментов показывают, что MAD-PINN достигает значительного улучшения безопасности и производительности по сравнению с существующими методами. На многоагентных задачах навигации, MAD-PINN показал лучшее соотношение безопасности и производительности в отношении других подходов. Он также обеспечивает масштабируемость при увеличении числа агентов и постоянно показывает лучшие результаты в сравнении с другими методами, такими как MARL и MPC. Эти эксперименты демонстрируют, что MAD-PINN может эффективно скорректироваться в динамических и больших MAS, поддерживая безопасность и оптимальные решения в любых условиях.
## Значимость
Предлагаемый подход может иметь широкое применение в различных областях, таких как автономные транспортные средства, системы самоуправления и сети самоложащихся систем. Отличительным качест
Abstract
Co-optimizing safety and performance in large-scale multi-agent systems
remains a fundamental challenge. Existing approaches based on multi-agent
reinforcement learning (MARL), safety filtering, or Model Predictive Control
(MPC) either lack strict safety guarantees, suffer from conservatism, or fail
to scale effectively. We propose MAD-PINN, a decentralized physics-informed
machine learning framework for solving the multi-agent state-constrained
optimal control problem (MASC-OCP). Our method leverages an epigraph-based
reformulation of SC-OCP to simultaneously capture performance and safety, and
approximates its solution via a physics-informed neural network. Scalability is
achieved by training the SC-OCP value function on reduced-agent systems and
deploying them in a decentralized fashion, where each agent relies only on
local observations of its neighbours for decision-making. To further enhance
safety and efficiency, we introduce an Hamilton-Jacobi (HJ) reachability-based
neighbour selection strategy to prioritize safety-critical interactions, and a
receding-horizon policy execution scheme that adapts to dynamic interactions
while reducing computational burden. Experiments on multi-agent navigation
tasks demonstrate that MAD-PINN achieves superior safety-performance
trade-offs, maintains scalability as the number of agents grows, and
consistently outperforms state-of-the-art baselines.
Ссылки и действия
Дополнительные ресурсы: