📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
📄 Modeling and Control of Deep Sign-Definite Dynamics with Application to Hybrid Powertrain Control
2025-09-26Авторы:
Teruki Kato, Ryotaro Shima, Kenji Kashima
## Контекст
Область исследования, связанная с моделированием и управлением нелинейных систем, чрезвычайно важна в многих областях, включая технику, энергетику и промышленность. Несмотря на развитие глубокого обучения, стандартные модели часто сталкиваются с проблемами при работе с комплексными системами, где предпосылки физики трудно описать. Эти проблемы включают непоследовательные и неустойчивые предсказания, а также неэффективность в управлении. Это подчеркивает необходимость развития методов, которые могут учитывать физические ограничения и обеспечивать стабильность в ходе управления. Целью данной работы является разработка методов, позволяющих учитывать динамику и физические зависимости в системах с помощью глубокого обучения, с учетом физических ограничений.
## Метод
Методология, представленная в работе, основывается на интеграции глубокого обучения с физическими ограничениями. Разработаны методы, которые внедряют в модели глубокого обучения ограничения на знак (sign constraints), включая монотонность, положительность и знакопределенность. Эти ограничения позволяют обеспечить физическую корректность моделей и устойчивость в управлении. Также разработана архитектура моделей, которая не только реализует эти ограничения, но и обеспечивает линеаризуемость, что упрощает их использование в моделировании и контроле. Методы включают в себя процедуры построения моделей, которые учитывают эти ограничения, и стратегии моделирования, которые преобразуют управление в задачу концептуального программирования, которая, в свою очередь, может быть решена как конвективное квадратичное программирование.
## Результаты
На практических примерах, включая систему из двух танков и гибридный предприводный агрегат, продемонстрировано высокую точность моделей, построенных с использованием подхода, и улучшенную качественность управления. В частности, было показано, что модели, использующие ограничения на знак, дают точные предсказания и производят более гладкие и устойчивые управляющие сигналы. Эти результаты были сравнены с традиционными методами, показав значительное улучшение как в точности предсказания, так и в управляющих свойствах. Также были показаны выгоды в снижении ненужных колебаний управляющих сигналов, что положительно сказывается на эффективности и устойчивости управления.
## Значимость
Предложенный подход имеет широкие перспективы в применении в различных областях, включая энергообеспечение, промышленные процессы и автоматическое управление. Одним из ключевых преимуществ является у
Annotation:
Deep learning is increasingly used for complex, large-scale systems where
first-principles modeling is difficult. However, standard deep learning models
often fail to enforce physical structure or preserve convexity in downstream
control, leading to physically inconsistent predictions and discontinuous
inputs owing to nonconvexity. We introduce sign constraints--sign restrictions
on Jacobian entries--that unify monotonicity, positivity, and
sign-definiteness; additionally, we develop model-const...
Авторы:
Daisuke Inoue, Tadayoshi Matsumori, Gouhei Tanaka, Yuji Ito
## Контекст
Управление нелинейными динамическими системами представляет собой ключевую проблему в различных областях, включая робототехнику, энергетику и промышленность. Однако традиционные методы, такие как модельно-предиктивный управленческий (MPC) контроль, часто требуют значительных вычислительных ресурсов и предполагают полное знание динамических моделей систем. В случае неизвестных или недостаточно известных динамик, эти методы оказываются неэффективными. Одновременно, нейронные сети, интересующиеся проблемой аппроксимации нелинейных функций, стали обширно применяться в контроле данных. Необходимость быстного онлайн-обучения динамик, сочетанная с необходимостью эффективного управления, мотивирует развитие методологий, которые могут эффективно объединить эти подходы.
## Метод
Предлагаемая методология, называемая Reservoir Predictive Path Integral (RPPI) control, строится на основе двух основных компонентов: Echo-state networks (ESN) и Model Predictive Path Integral (MPPI) control. ESN, являясь моделью вычислений с рекуррентными нейросетями, эффективно аппроксимирует неизвестные динамические модели. MPPI, в свою очередь, является контрольным подходом, основанным на семействе моделей Монте-Карло, который может работать с неизвестными динамическими моделями без нужды в их прямой моделировании. RPPI комбинирует эти две модели, используя ESN для быстрого онлайн-обучения динамики, а затем интегрирует эти модели в одноименный MPPI-контроль. Общая архитектура RPPI позволяет эффективно обучать динамику и распараллеливать вычисления MPPI, в то же время обойдя требования к линеаризации модели, которое обычно требуется в традиционных MPC-подходах.
## Результаты
Для оценки эффективности RPPI, авторы провели эксперименты на двух разных системах: Duffing oscillator и four-tank system. Результаты показали, что URPPI не только улучшает управление, но и снижает контрольные затраты на до 60% по сравнению с традиционным задачным MPC. Эксперименты также подтвердили, что URPPI может эффективно обучаться в режиме реального времени, адаптируясь к изменениям в динамике системы. Особое внимание было уделено эксперименту с многоконфигурационным тестированием, чтобы продемонстрировать то, что РППИ может быстро аппроксимировать новые динамики и выполнять эффективное управление в различных условиях.
## Значимость
Предлагаемый подход имеет широкое применение в технических областях, где необходимо быстрое онлайн-обучение динамики системы и эффективное управление. Особый потенциал URPPI заключается в его применении в системах с ограниченным доступом к моделям, таких как системы робото
Annotation:
Neural networks capable of approximating complex nonlinearities have found
extensive application in data-driven control of nonlinear dynamical systems.
However, fast online identification and control of unknown dynamics remain
central challenges. This paper integrates echo-state networks (ESNs) --
reservoir computing models implemented with recurrent neural networks -- and
model predictive path integral (MPPI) control -- sampling-based variants of
model predictive control -- to meet these challe...
Авторы:
Austin Braniff, Yuhe Tian
#### Контекст
Область исследования сосредоточена на развитии методов управления, основанных на reinforcement learning (RL), которые могут эффективно решать задачи в условиях сложных, нелинейных систем. Существующие методы часто страдают от недостатка интерпретируемости и надежности, особенно при работе с нелинейными оптимизационными задачами. Мотивацией для разработки новых подходов является необходимость повысить точность, устойчивость и надёжность управляющих систем, особенно при применении в критичных областях, таких как химическая реактивность и авиационная техника.
#### Метод
Предлагается использовать Y-wise Affine Neural Networks (YANNs) как базовую модель для RL-алгоритмов. YANNs представляют собой интерпретируемые нейронные сети, которые могут точно репрезентативно представить политопические функции с произвольными размерами входа и выхода. Методом инициализации RL-сетей (actor и critic) используется решение многопараметрической линейной модельной прогностической контрольной программы (MPC). Это позволяет YANN-RL начинать работу с уверенностью, основанной на решении линейного контрольного процесса. Для учёта нелинейных систем добавляются дополнительные слои сети, которые обучаются в процессе интерактивного взаимодействия с неизвестной нелинейной системой. Это даёт возможность перейти от линейной модели к решению общих нелинейных задач управления.
#### Результаты
На исследовательских задачах, таких как подвеска маятника и система реактивного управления с критичными реакциями, YANN-RL продемонстрировала превосходство перед современными RL-методами, в частности, использующими deep deterministic policy gradient (DDPG). Особенно выдающимися результатами оказалось применение YANN-RL в ситуациях, требующих строгого соблюдения безопасностных ограничений. Набор экспериментов показал, что в сравнении с DDPG, YANN-RL обеспечивает улучшение надёжности и эффективности управления в системах с требовательными ограничениями.
#### Значимость
Разработанный подход может быть применён в различных областях, таких как авиация, роботизация, кибер-физические системы и управление промышленными процессами. Основные преимущества включают высокую точность, интерпретируемость решений и устойчивость к ошибкам. Дальнейшие исследования могут быть направлены на улучшение скорости интерпретации и оптимизации алгоритмов для задач с более высоким размером политопических подмножеств.
#### Выводы
YANN-RL представляет собой перспективный подход к управлению нелинейными системами, который объединяет преимущества RL и YANNs. Результаты эмпирических экспериментов подтверждают превосходство YANN-RL в сложных задачах упра
Annotation:
This work presents a novel reinforcement learning (RL) algorithm based on
Y-wise Affine Neural Networks (YANNs). YANNs provide an interpretable neural
network which can exactly represent known piecewise affine functions of
arbitrary input and output dimensions defined on any amount of polytopic
subdomains. One representative application of YANNs is to reformulate explicit
solutions of multi-parametric linear model predictive control. Built on this,
we propose the use of YANNs to initialize RL ac...
Авторы:
Abdullah Tokmak, Thomas B. Schön, Dominik Baumann
## Контекст
Оптимизация параметров в распределенных системах с несколькими агентами (distributed multi-agent systems, DMAS) является ключевым вопросом во многих сегментах робототехники и искусственного интеллекта. Например, в автономном вождении автомобилей или коллективных роботах необходимо оптимизировать параметры работы систем, чтобы максимизировать их эффективность, при этом обеспечивая безопасность. Однако, поиск эффективных методов оптимизации в таких системах является сложной задачей из-за необходимости учета общих зависимостей и ограничений, а также неизвестности функций награды и ограничений. Традиционные методы либо не учитывают безопасность, либо страдают от неэффективности в процессе обучения.
## Метод
Мы применяем **безопасный байесовский метод оптимизации** (safe Bayesian optimization) с использованием регрессии на основе гауссовских процессов (Gaussian Process Regression, GPR). Этот подход позволяет решать оптимизационные задачи в условиях неизвестности награды и ограничений, а также учитывать безопасность в процессе. Для обеспечения безопасности внедряется механизм **самоучительного подбора параметров**, который предотвращает выход за границы безопасных значений. Распределенная природа системы воспроизводится с использованием **обмена данными между ближайшими агентами**. Для учета взаимодействия между несколькими агентами предлагается **реформулировать глобальную задачу оптимизации как многошаговую задачу локальной оптимизации** для каждого агента, введя время как латентную переменную. Для эффективного использования представлений в пространстве и времени предлагается **специальный спато-временной кернел**, интегрирующий предварительные знания о системе.
## Результаты
Мы проводим эксперименты в симуляционной среде, имитирующей распределенные сети агентов. Были протестированы различные кернелы и методы, включая традиционные методы оптимизации и безопасные методы, на основе функций награды и ограничений. Результаты показывают, что предлагаемый подход **выдает лучшие результаты в сравнении с другими методами**, имеет высокую эффективность обучения и обеспечивает безопасность в процессе решения задачи. Особенное внимание уделено устойчивости метода в ситуациях с нестабильными наградами и неизвестными ограничениями.
## Значимость
Наш подход может быть применен в различных безопасных распределенных системах, включая автономную логистику, роботы-коллеги, а также моделирование систем с множеством действующих субъектов. Он обеспечивает высокую эффективность и безопасность в процессе решения задач оптими
Annotation:
Many safety-critical real-world problems, such as autonomous driving and
collaborative robots, are of a distributed multi-agent nature. To optimize the
performance of these systems while ensuring safety, we can cast them as
distributed optimization problems, where each agent aims to optimize their
parameters to maximize a coupled reward function subject to coupled
constraints. Prior work either studies a centralized setting, does not consider
safety, or struggles with sample efficiency. Since we...