Towards safe control parameter tuning in distributed multi-agent systems
2508.13608v1
eess.SY, cs.LG, cs.SY, math.OC
2025-08-21
Авторы:
Abdullah Tokmak, Thomas B. Schön, Dominik Baumann
Резюме на русском
## Контекст
Оптимизация параметров в распределенных системах с несколькими агентами (distributed multi-agent systems, DMAS) является ключевым вопросом во многих сегментах робототехники и искусственного интеллекта. Например, в автономном вождении автомобилей или коллективных роботах необходимо оптимизировать параметры работы систем, чтобы максимизировать их эффективность, при этом обеспечивая безопасность. Однако, поиск эффективных методов оптимизации в таких системах является сложной задачей из-за необходимости учета общих зависимостей и ограничений, а также неизвестности функций награды и ограничений. Традиционные методы либо не учитывают безопасность, либо страдают от неэффективности в процессе обучения.
## Метод
Мы применяем **безопасный байесовский метод оптимизации** (safe Bayesian optimization) с использованием регрессии на основе гауссовских процессов (Gaussian Process Regression, GPR). Этот подход позволяет решать оптимизационные задачи в условиях неизвестности награды и ограничений, а также учитывать безопасность в процессе. Для обеспечения безопасности внедряется механизм **самоучительного подбора параметров**, который предотвращает выход за границы безопасных значений. Распределенная природа системы воспроизводится с использованием **обмена данными между ближайшими агентами**. Для учета взаимодействия между несколькими агентами предлагается **реформулировать глобальную задачу оптимизации как многошаговую задачу локальной оптимизации** для каждого агента, введя время как латентную переменную. Для эффективного использования представлений в пространстве и времени предлагается **специальный спато-временной кернел**, интегрирующий предварительные знания о системе.
## Результаты
Мы проводим эксперименты в симуляционной среде, имитирующей распределенные сети агентов. Были протестированы различные кернелы и методы, включая традиционные методы оптимизации и безопасные методы, на основе функций награды и ограничений. Результаты показывают, что предлагаемый подход **выдает лучшие результаты в сравнении с другими методами**, имеет высокую эффективность обучения и обеспечивает безопасность в процессе решения задачи. Особенное внимание уделено устойчивости метода в ситуациях с нестабильными наградами и неизвестными ограничениями.
## Значимость
Наш подход может быть применен в различных безопасных распределенных системах, включая автономную логистику, роботы-коллеги, а также моделирование систем с множеством действующих субъектов. Он обеспечивает высокую эффективность и безопасность в процессе решения задач оптими
Abstract
Many safety-critical real-world problems, such as autonomous driving and
collaborative robots, are of a distributed multi-agent nature. To optimize the
performance of these systems while ensuring safety, we can cast them as
distributed optimization problems, where each agent aims to optimize their
parameters to maximize a coupled reward function subject to coupled
constraints. Prior work either studies a centralized setting, does not consider
safety, or struggles with sample efficiency. Since we require sample efficiency
and work with unknown and nonconvex rewards and constraints, we solve this
optimization problem using safe Bayesian optimization with Gaussian process
regression. Moreover, we consider nearest-neighbor communication between the
agents. To capture the behavior of non-neighboring agents, we reformulate the
static global optimization problem as a time-varying local optimization problem
for each agent, essentially introducing time as a latent variable. To this end,
we propose a custom spatio-temporal kernel to integrate prior knowledge. We
show the successful deployment of our algorithm in simulations.