MAD-PINN: A Decentralized Physics-Informed Machine Learning Framework for Safe and Optimal Multi-Agent Control

2509.23960v1 cs.RO, cs.AI 2025-10-01
Авторы:

Manan Tayal, Aditya Singh, Shishir Kolathaya, Somil Bansal

Резюме на русском

## Контекст Координация больших многоагентных системами (MAS) подвергается значительным вызовам, в том числе обеспечению безопасности, оптимальности и эффективного масштабирования. На данный момент, существующие подходы, такие как модельно-предиктивное управление (MPC), многоагентное расширенное управление (MARL) и фильтры безопасности, не могут обеспечить все требования одновременно. Многие не могут гарантировать строгую безопасность, требуют от компромиссов в производительности или не могут быть масштабированы для больших систем. Эти ограничения приводят к необходимости разработки новых, более эффективных методов, которые могут обеспечить приемлемый баланс между безопасностью и производительностью в многоагентных системах. ## Метод МАД-PINN (Decentralized Physics-Informed Neural Network for Multi-Agent Decision-Making) является новым фреймворком, основанным на физически включенных нейросетях, для решения задачи многоагентного управления с ограничениями на состояние (MASC-OCP). Фреймворк использует эпиграфную реформуляцию для того, чтобы одновременно учитывать безопасность и производительность. Решение этой задачи получается с помощью создания физически включенной нейросети (PINN), которая оценивает значение стоимости и безопасности решения. Для масштабирования, сети тренируются на малых системах с подмножеством агентов и используются в распределенной среде для координации многоагентных систем. Стратегии для улучшения безопасности и эффективности включают в себя стратегию HJ-reachability для выбора безопасных интеракций и схему управления политикой на редких затрагиваемых моментах времени (receding-horizon control), которая позволяет адаптироваться к динамическим изменениям взаимодействий между агентами. ## Результаты Результаты экспериментов показывают, что MAD-PINN достигает значительного улучшения безопасности и производительности по сравнению с существующими методами. На многоагентных задачах навигации, MAD-PINN показал лучшее соотношение безопасности и производительности в отношении других подходов. Он также обеспечивает масштабируемость при увеличении числа агентов и постоянно показывает лучшие результаты в сравнении с другими методами, такими как MARL и MPC. Эти эксперименты демонстрируют, что MAD-PINN может эффективно скорректироваться в динамических и больших MAS, поддерживая безопасность и оптимальные решения в любых условиях. ## Значимость Предлагаемый подход может иметь широкое применение в различных областях, таких как автономные транспортные средства, системы самоуправления и сети самоложащихся систем. Отличительным качест

Abstract

Co-optimizing safety and performance in large-scale multi-agent systems remains a fundamental challenge. Existing approaches based on multi-agent reinforcement learning (MARL), safety filtering, or Model Predictive Control (MPC) either lack strict safety guarantees, suffer from conservatism, or fail to scale effectively. We propose MAD-PINN, a decentralized physics-informed machine learning framework for solving the multi-agent state-constrained optimal control problem (MASC-OCP). Our method leverages an epigraph-based reformulation of SC-OCP to simultaneously capture performance and safety, and approximates its solution via a physics-informed neural network. Scalability is achieved by training the SC-OCP value function on reduced-agent systems and deploying them in a decentralized fashion, where each agent relies only on local observations of its neighbours for decision-making. To further enhance safety and efficiency, we introduce an Hamilton-Jacobi (HJ) reachability-based neighbour selection strategy to prioritize safety-critical interactions, and a receding-horizon policy execution scheme that adapts to dynamic interactions while reducing computational burden. Experiments on multi-agent navigation tasks demonstrate that MAD-PINN achieves superior safety-performance trade-offs, maintains scalability as the number of agents grows, and consistently outperforms state-of-the-art baselines.

Ссылки и действия