Towards safe control parameter tuning in distributed multi-agent systems

2508.13608v1 eess.SY, cs.LG, cs.SY, math.OC 2025-08-21
Авторы:

Abdullah Tokmak, Thomas B. Schön, Dominik Baumann

Резюме на русском

## Контекст Оптимизация параметров в распределенных системах с несколькими агентами (distributed multi-agent systems, DMAS) является ключевым вопросом во многих сегментах робототехники и искусственного интеллекта. Например, в автономном вождении автомобилей или коллективных роботах необходимо оптимизировать параметры работы систем, чтобы максимизировать их эффективность, при этом обеспечивая безопасность. Однако, поиск эффективных методов оптимизации в таких системах является сложной задачей из-за необходимости учета общих зависимостей и ограничений, а также неизвестности функций награды и ограничений. Традиционные методы либо не учитывают безопасность, либо страдают от неэффективности в процессе обучения. ## Метод Мы применяем **безопасный байесовский метод оптимизации** (safe Bayesian optimization) с использованием регрессии на основе гауссовских процессов (Gaussian Process Regression, GPR). Этот подход позволяет решать оптимизационные задачи в условиях неизвестности награды и ограничений, а также учитывать безопасность в процессе. Для обеспечения безопасности внедряется механизм **самоучительного подбора параметров**, который предотвращает выход за границы безопасных значений. Распределенная природа системы воспроизводится с использованием **обмена данными между ближайшими агентами**. Для учета взаимодействия между несколькими агентами предлагается **реформулировать глобальную задачу оптимизации как многошаговую задачу локальной оптимизации** для каждого агента, введя время как латентную переменную. Для эффективного использования представлений в пространстве и времени предлагается **специальный спато-временной кернел**, интегрирующий предварительные знания о системе. ## Результаты Мы проводим эксперименты в симуляционной среде, имитирующей распределенные сети агентов. Были протестированы различные кернелы и методы, включая традиционные методы оптимизации и безопасные методы, на основе функций награды и ограничений. Результаты показывают, что предлагаемый подход **выдает лучшие результаты в сравнении с другими методами**, имеет высокую эффективность обучения и обеспечивает безопасность в процессе решения задачи. Особенное внимание уделено устойчивости метода в ситуациях с нестабильными наградами и неизвестными ограничениями. ## Значимость Наш подход может быть применен в различных безопасных распределенных системах, включая автономную логистику, роботы-коллеги, а также моделирование систем с множеством действующих субъектов. Он обеспечивает высокую эффективность и безопасность в процессе решения задач оптими

Abstract

Many safety-critical real-world problems, such as autonomous driving and collaborative robots, are of a distributed multi-agent nature. To optimize the performance of these systems while ensuring safety, we can cast them as distributed optimization problems, where each agent aims to optimize their parameters to maximize a coupled reward function subject to coupled constraints. Prior work either studies a centralized setting, does not consider safety, or struggles with sample efficiency. Since we require sample efficiency and work with unknown and nonconvex rewards and constraints, we solve this optimization problem using safe Bayesian optimization with Gaussian process regression. Moreover, we consider nearest-neighbor communication between the agents. To capture the behavior of non-neighboring agents, we reformulate the static global optimization problem as a time-varying local optimization problem for each agent, essentially introducing time as a latent variable. To this end, we propose a custom spatio-temporal kernel to integrate prior knowledge. We show the successful deployment of our algorithm in simulations.

Ссылки и действия

Связанные статьи

Modeling and Control of Deep Sign-Definite Dynamics with Application to Hybrid P...

## Контекст Область исследования, связанная с моделированием и управлением нелинейных систем, чрезвычайно важна в многих...

2025-09-26

Reinforcement Learning-based Control via Y-wise Affine Neural Networks (YANNs)

#### Контекст Область исследования сосредоточена на развитии методов управления, основанных на reinforcement learning (R...

2025-08-26