📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Xiucheng Wang, Qiming Zhang, Nan Cheng
#### Контекст
Аккуратная локализация некооперативных источников сигналов в нелинейно-зрящих (NLoS) окружениях является ключевым заданием в сферах, таких как автономное вождение, промышленная автоматизация и чрезвычайная служба. Однако, существующие методы, основанные на линейно-зрящих (LoS) или кооперативных сигнальных методах, оказываются неэффективными из-за существующих проблем, таких как серьезная мультипатховая пропагация и неизвестная мощность передачи. Данная работа предлагает новую генерирующую инференциальную модель для NLoS-локализации, основанную на условных моделях размытия. Метод использует физический принцип, согласно которому диффракционная энергия радиоволн сосредотачивается вокруг краёв зданий. Это позволяет оптимизировать стратегию сбора небольших объёмов данных о полученной мощности сигнала (RSS) в точках, максимизирующих информацию о источнике сигнала.
#### Метод
Предлагаемый подход использует условные модели размытия для построения полного радио-карты (RM) на основе среды и небольших данных RSS. Распространение сигнала оценивается с учетом физического распределения диффракции, что позволяет учесть отклонения мощности передачи. Для устранения этой проблемы все RSS-данные нормализуются относительно максимального значения мощности, что обеспечивает устойчивость к изменениям мощности передачи. Условная модель размытия обучается на основе структуры окружения и небольших данных RSS, чтобы восстановить полную карту RSS. Для локализации используется метод, определяющий наиболее яркую точку на воссозданной карте. Модель легко интегрируется с другими методами RSS-локализации, что обеспечивает функциональность двойной стратегии: гибридное использование физической информации и глубокого обучения.
#### Результаты
Эксперименты проводились на реальных данных, включающих различные среды и условия. Метод показал высокую точность локализации, особенно в условиях спарсе RSS-данных. Использовались различные среды, в том числе промышленные помещения и городские ландшафты. Результаты показали, что данный подход превосходит традиционные методы в скорости и точности локализации. Отметим, что высокая точность достигается с минимальным количеством данных RSS, что значительно снижает накладные расходы.
#### Значимость
Предлагаемая модель имеет широкие возможности для применения в различных областях, таких как автоматизированные системы, геолокация в чрезвычайных ситуациях и системы позиционирования в городских средах. Она обеспечивает высокую точность, эффективность и гибкость. Благодар
Annotation:
Accurate localization of non-cooperative signal sources in non-line-of-sight
(NLoS) environments remains a critical challenge with a wide range of
applications, including autonomous navigation, industrial automation, and
emergency response. In such settings, traditional positioning techniques
relying on line-of-sight (LoS) or cooperative signaling fail due to severe
multipath propagation and unknown transmit power. This paper proposes a novel
generative inference framework for NLoS localization ...
Авторы:
Fabian Raisch, Max Langtry, Felix Koch, Ruchi Choudhary, Christoph Goebel, Benjamin Tischler
#### Контекст
Обеспечение энергоэффективности и комфорта в зданиях требует точного моделирования термодинамических динамик строений. Однако получение боLтoйшего объема данных для точного моделирования часто становится ограниченным из-за сложности сбора или недостатка данных в достаточном количестве. Традиционно используется метод переобучения (Transfer Learning, TL), который позволяет использовать предобученные модели для точного моделирования термодинамических динамик зданий при недостатке данных. Однако, существуют проблемы, связанные с увеличением объема данных в течение времени в результате внедрения новых систем, изменения окружающей среды или внедрения технологий, что приводит к концептуальным изменениям (concept drifts). Для этих ситуаций необходимы методы, позволяющие адаптировать модели в течение времени, чтобы оптимизировать точность прогнозирования. Настоящее исследование адресует эти проблемы, сравнивая Continual Learning (CL) и Transfer Learning (TL) стратегии для моделирования термодинамических динамик зданий в условиях concept drifts.
#### Метод
Исследование основывается на симуляционных данных, представляющих ситуации с зданиями в центральной Европе, в течение 5–7 лет. Мы использовали несколько стратегий: Transfer Learning (TL), Continual Learning (CL), включая Seasonal Memory Learning (SML), и модель, обученную с нуля. TL и SML используют предобученные модели, которые последующими этапами fine-tuning адаптируются к конкретным изменениям в динамике здания. Мы сравнивали эти методы по точности прогнозирования, эффективности вычислений и способности справляться с концептуальными изменениями. Эксперименты проводились на имитационных данных, в том числе сценариях с retrofits и изменениями окружающей среды.
#### Результаты
Результаты экспериментов показали, что SML превосходит TL и CL в точности прогнозирования в условиях concept drifts. Обученная с нуля модель показала самую низкую точность. TL показался эффективным в начальной стадии моделирования, но не справлялся с изменением термодинамических динамик в течение времени. SML показал самый стабильный результат, обеспечивая улучшение точности прогнозирования в 28.1% при отсутствии concept drifts и 34.9% при их присутствии. Этот результат достигнут без значительного увеличения вычислительных затрат.
#### Значимость
Наша исследовательская работа может быть применена в области энергоэффективности зданий, а также для мониторинга и оптимизации термодинамических динамик зданий в ходе эксплуатации. SML стабильно показал высокую точность и эффективность в адаптации к изменениям в динамике здания, что делает его привлекательным для реального применения. Кроме того, наши методы могут быть расширены для моделиро
Annotation:
Transfer Learning (TL) is currently the most effective approach for modeling
building thermal dynamics when only limited data are available. TL uses a
pretrained model that is fine-tuned to a specific target building. However, it
remains unclear how to proceed after initial fine-tuning, as more operational
measurement data are collected over time. This challenge becomes even more
complex when the dynamics of the building change, for example, after a retrofit
or a change in occupancy. In Machine ...
Авторы:
Zhuoyuan Wang, Raffaele Romagnoli, Kamyar Azizzadenesheli, Yorie Nakahira
## Контекст
Квантификация долгосрочных риск-пробабилитетов в различных стохастических системах является критически важной задачей для безопасного контроля. Однако существующие способы, основанные на семплировании и частных дифференциальных уравнениях (PDE), часто сталкиваются с трудностями при работе с системами, имеющими сложные и произвольно меняющиеся динамики. Физико-информированные нейронные сети (PINN) успешно применяются для обучения суррогатных моделей риск-пробабилитетов для систем с фиксированными и конечными параметрами. Тем не менее, они не могут учитывать функциональные изменения в динамике системы. Этот ограничение становится критическим при работе с динамически характеризуемыми системами, где динамика может меняться в зависимости от внешних условий. Наша цель заключается в развитии новых методов для точной квантификации рисков в таких системах.
## Метод
Мы предлагаем Neural Spline Operators (NeSO), расширенный фреймворк физико-информированных нейронных операторов (PINO) для работы с системами, имеющими функционально варьирующиеся динамики. Основной идеей NeSO является использование B-spline представлений для улучшения эффективности обучения и повышения точности при вычислении риска. Разработанная архитектура основывается на физико-информированных нейронных сетях, но включает дополнительные механизмы для надёжного обучения с учётом инвариантности к группам и условий начала и границы. Таким образом, NeSO могут эффективно аппроксимировать риск-пробабилитеты для систем с функционально меняющимися динамиками. Эта модель также обладает теоретическим доказательством универсальной аппроксимации, что даёт ей широкие возможности по применению.
## Результаты
Мы проводим эксперименты на двух сценариях. В первом сценарии мы рассматриваем системы с произвольно меняющейся динамикой, второй сценарий — системы с высокомерностью, включающие целые множества агентов. Наши эксперименты показывают, что NeSO не только значительно быстрее существующих методов в режиме онлайн, но и обеспечивает более точные оценки риска. Мы также показываем, что NeSO обладает высокой точностью при вычислении риск-пробабилитетов в системах с нестандартными условиями начала и границы. Эти результаты подтверждают эффективность NeSO в таких задачах, как защита от риска в системах с внешними воздействиями.
## Значимость
Наши результаты имеют прямое применение в области безопасного контроля, контроля технологических процессов и финансовых моделей, где точная квантификация риска
Annotation:
Accurately quantifying long-term risk probabilities in diverse stochastic
systems is essential for safety-critical control. However, existing
sampling-based and partial differential equation (PDE)-based methods often
struggle to handle complex varying dynamics. Physics-informed neural networks
learn surrogate mappings for risk probabilities from varying system parameters
of fixed and finite dimensions, yet can not account for functional variations
in system dynamics. To address these challenges,...
📄 Delay-adaptive Control of Nonlinear Systems with Approximate Neural Operator Predictors
2025-08-29Авторы:
Luke Bhan, Miroslav Krstic, Yuanyuan Shi
## Контекст
Область систем с управляющим обратным эффектом широко применяется в различных науках и технологиях, где необходимо корректировать поведение системы в реальном времени. Однако в случае с нелинейными системами с неизвестным временем запуска актуатора (actuator delay) возникают серьезные сложности. Эти системы часто применяются в таких областях, как робототехника, промышленность и биотехнологии. Традиционные методы, основанные на теоретической модели, часто неэффективны из-за высокой размерности и неопределенности. Необходимо разработать более гибкие и точные подходы, которые могут устойчиво регулировать такие системы, даже в условиях аналитически неразрешимых проблем.
## Метод
Мы предлагаем метод управления, основанный на аппроксимации нейронным оператором (neural operator), который оценивает неизвестные характеристики системы. Этот нейронный оператор обучается однажды в автономном режиме, используя методы машинного обучения. Затем он используется для реализации критерия Фелдберга (Feldbaum’s dual-Youla framework) с помощью оптимизационных процедур. Наш подход адаптируется к различным условиям поведения системы, в том числе интеграции нелинейных моделей и неизвестных параметров. Эта архитектура позволяет добиться высокой точности управления, даже при отсутствии точных моделей.
## Результаты
Мы проверяли наш метод на модели биологического активатора-репрессорной системы. Экспериментальные результаты показали, что наша аппроксимация значительно ускоряет процесс управления по сравнению с традиционными методами. В частности, наши результаты показали ускорение в 15 раз по сравнению с обычными численными методами. Это достигается благодаря быстрому вычислительному мощности нейронных сетей и точной аппроксимации нейронным оператором.
## Значимость
Предложенный подход имеет широкие области применения, в том числе в биотехнологии, промышленном управлении и робототехнике. Он предлагает более точный и эффективный способ управления нелинейными системами с неизвестным временем запуска актуатора. Важной преимуществом является устойчивость и точность управления, даже в условиях неопределенности. Будущие исследования будут фокусироваться на расширении этого подхода к более сложным системам и интеграции с виртуальными моделями для улучшения реального времени моделирования.
## Выводы
Мы установили, что предлагаемый подход позволяет эффективно регулировать нелинейные системы с неизвестным временем запуска актуатора. Он достигает этого благодаря использованию нейронного оператора, который обеспечивает быструю и точную аппроксимаци
Annotation:
In this work, we propose a rigorous method for implementing predictor
feedback controllers in nonlinear systems with unknown and arbitrarily long
actuator delays. To address the analytically intractable nature of the
predictor, we approximate it using a learned neural operator mapping. This
mapping is trained once, offline, and then deployed online, leveraging the fast
inference capabilities of neural networks. We provide a theoretical stability
analysis based on the universal approximation theo...
Авторы:
Shrenik Jadhav, Birva Sevak, Srijita Das, Akhtar Hussain, Wencong Su, Van-Hai Bui
#### Контекст
Повсеместное распространение ротационных солнечных панелей и устройств управления домашним энергопотреблением делает торговлю электричеством тиражированным (P2P) центральной частью современных систем распределения энергии. Однако большинство существующих моделей и алгоритмов рынков электричества и методов оптимизации рассматриваются с целью максимизировать эффективность или прибыль, не обеспечивая во время реальных операций решения, которые обеспечивают справедливость. Особенно это актуально в условиях неопределенности, когда неравенство может существенно усилиться. Для противостояния этой проблеме предлагается новый подход, основанный на многоагентной мультиагентной оптимизации, который использует критическую роль большой модели языка (LLM) для руководства поведением участников в рынке P2P.
#### Метод
Предлагаемый подход, FairMarket-RL, основывается на мультиагентной оптимизации, в которой каждый участник рынка выступает в роли агента. Большая модель языка (LLM) используется в качестве критика, который оценивает возможные действия и создает гибкое руководство по поведению. В рамках каждого торгового слота, агенты осуществляют дискретные действия, такие как изменение цены и количества, в рамках двойного аукциона. Оценки справедливости, включающие в себя Grid Fairness (FTG), Between-Sellers Fairness (FBS) и Pricing Fairness (FPP), включены в целевую функцию в виде коэффициентов, которые гармонизируют экономические и социальные цели. Эта система включает запасные ресурсы, предназначенные для оптимизации долгосрочных целей.
#### Результаты
В экспериментах был продемонстрирован переход от локального рынка до создания широкомасштабного симулированного общества. Был применен реальный датасет, включающий различные активы, и показано, что FairMarket-RL увеличивает процент P2P-торгового обмена, снижает затраты для потребителей по сравнению с традиционным подключением к сети, обеспечивает справедливость во взаимодействии между участниками и сохраняет возможность прибыли для участников. Эксперименты показали, что фреймворк достигает сбалансированного соотношения между экономическими мотивами и социальными ценностями.
#### Значимость
Предлагаемый подход имеет широкие приложения в сфере управления энергией, включая распределенные системы энергетического управления, P2P-биржи электричества и управление локальными сетями. Он обеспечивает высокую экономическую эффективность, при этом не менее важным является уравновешивание социальных и финансовых мотивов. В долгосрочной перспективе, FairMarket-RL может стать моделью для создания скейли
Annotation:
Peer-to-peer (P2P) energy trading is becoming central to modern distribution
systems as rooftop PV and home energy management systems become pervasive, yet
most existing market and reinforcement learning designs emphasize efficiency or
private profit and offer little real-time guidance to ensure equitable outcomes
under uncertainty. To address this gap, a fairness-aware multiagent
reinforcement learning framework, FairMarket-RL, is proposed in which a large
language model (LLM) critic shapes bid...
Авторы:
Arya Honarpisheh, Mario Sznaier
## Контекст
Проблемы идентификации систем в частотном домене заключаются в том, что для точного определения характеристик низкопорядковых систем часто требуется обработать большое количество данных. Это приводит к высоким требованиям к вычислительной мощности и сложности алгоритмов. Для решения этой проблемы необходимо разработать более эффективные методы, которые позволят идентифицировать системы с меньшими вычислительными затратами и более низким порогом входа. Такие методы могут существенно повысить точность информации о системах, используемых в различных областях, таких как электротехника, гидромеханика и авиационная техника.
## Метод
Метод предложенных авторов основывается на минимизации оптимизационной функции, которая измеряет расстояние между исходной и измеренной частотной функцией системы. Регуляризация добавляется с помощью ядерного нормата (nuclear norm), что позволяет уменьшить количество параметров и повысить точность. Основная идея заключается в том, чтобы применять теорию выборки для оценки размера выборки, необходимого для достижения определенной точности. Алгоритм решается с помощью техник конвексной оптимизации, что обеспечивает высокую эффективность вычислений.
## Результаты
Авторы провели эксперименты, используя синтетические и реальные данные для оценки эффективности метода. Они показали, что использование регуляризации позволяет повысить точность идентификации, особенно при ограниченном количестве выборок. Результаты показали, что метод сокращает количество необходимых выборок в несколько раз по сравнению с традиционными подходами. Это делает метод применимым в ситуациях, когда доступ к данным ограничен.
## Значимость
Предложенный подход может быть применен в различных областях, таких как гидромеханика, электротехника и авиационная техника, где необходимо анализировать и идентифицировать системы с ограниченным количеством данных. Он позволяет сократить время обработки данных и улучшить точность, что может иметь положительный эффект на разработку и тестирование систем. Благодаря простоте реализации и эффективности вычислений, метод может быть широко применен в практических задачах.
## Выводы
Рассматриваемый метод представляет собой эффективный подход к идентификации низкопорядковых систем в частотном домене. Он позволяет уменьшить количество необходимых выборок, улучшить точность и достичь высокой скорости вычислений. Будущие исследования будут направлены на расширение метода для более сложных систем и исследование его применения в реальных системах.
Annotation:
This paper proposes a frequency-domain system identification method for
learning low-order systems. The identification problem is formulated as the
minimization of the l2 norm between the identified and measured frequency
responses, with the nuclear norm of the Loewner matrix serving as a
regularization term. This formulation results in an optimization problem that
can be efficiently solved using standard convex optimization techniques. We
derive an upper bound on the sampled-frequency complexit...
Авторы:
Austin Braniff, Yuhe Tian
#### Контекст
Область исследования сосредоточена на развитии методов управления, основанных на reinforcement learning (RL), которые могут эффективно решать задачи в условиях сложных, нелинейных систем. Существующие методы часто страдают от недостатка интерпретируемости и надежности, особенно при работе с нелинейными оптимизационными задачами. Мотивацией для разработки новых подходов является необходимость повысить точность, устойчивость и надёжность управляющих систем, особенно при применении в критичных областях, таких как химическая реактивность и авиационная техника.
#### Метод
Предлагается использовать Y-wise Affine Neural Networks (YANNs) как базовую модель для RL-алгоритмов. YANNs представляют собой интерпретируемые нейронные сети, которые могут точно репрезентативно представить политопические функции с произвольными размерами входа и выхода. Методом инициализации RL-сетей (actor и critic) используется решение многопараметрической линейной модельной прогностической контрольной программы (MPC). Это позволяет YANN-RL начинать работу с уверенностью, основанной на решении линейного контрольного процесса. Для учёта нелинейных систем добавляются дополнительные слои сети, которые обучаются в процессе интерактивного взаимодействия с неизвестной нелинейной системой. Это даёт возможность перейти от линейной модели к решению общих нелинейных задач управления.
#### Результаты
На исследовательских задачах, таких как подвеска маятника и система реактивного управления с критичными реакциями, YANN-RL продемонстрировала превосходство перед современными RL-методами, в частности, использующими deep deterministic policy gradient (DDPG). Особенно выдающимися результатами оказалось применение YANN-RL в ситуациях, требующих строгого соблюдения безопасностных ограничений. Набор экспериментов показал, что в сравнении с DDPG, YANN-RL обеспечивает улучшение надёжности и эффективности управления в системах с требовательными ограничениями.
#### Значимость
Разработанный подход может быть применён в различных областях, таких как авиация, роботизация, кибер-физические системы и управление промышленными процессами. Основные преимущества включают высокую точность, интерпретируемость решений и устойчивость к ошибкам. Дальнейшие исследования могут быть направлены на улучшение скорости интерпретации и оптимизации алгоритмов для задач с более высоким размером политопических подмножеств.
#### Выводы
YANN-RL представляет собой перспективный подход к управлению нелинейными системами, который объединяет преимущества RL и YANNs. Результаты эмпирических экспериментов подтверждают превосходство YANN-RL в сложных задачах упра
Annotation:
This work presents a novel reinforcement learning (RL) algorithm based on
Y-wise Affine Neural Networks (YANNs). YANNs provide an interpretable neural
network which can exactly represent known piecewise affine functions of
arbitrary input and output dimensions defined on any amount of polytopic
subdomains. One representative application of YANNs is to reformulate explicit
solutions of multi-parametric linear model predictive control. Built on this,
we propose the use of YANNs to initialize RL ac...
Авторы:
Abdullah Tokmak, Thomas B. Schön, Dominik Baumann
## Контекст
Оптимизация параметров в распределенных системах с несколькими агентами (distributed multi-agent systems, DMAS) является ключевым вопросом во многих сегментах робототехники и искусственного интеллекта. Например, в автономном вождении автомобилей или коллективных роботах необходимо оптимизировать параметры работы систем, чтобы максимизировать их эффективность, при этом обеспечивая безопасность. Однако, поиск эффективных методов оптимизации в таких системах является сложной задачей из-за необходимости учета общих зависимостей и ограничений, а также неизвестности функций награды и ограничений. Традиционные методы либо не учитывают безопасность, либо страдают от неэффективности в процессе обучения.
## Метод
Мы применяем **безопасный байесовский метод оптимизации** (safe Bayesian optimization) с использованием регрессии на основе гауссовских процессов (Gaussian Process Regression, GPR). Этот подход позволяет решать оптимизационные задачи в условиях неизвестности награды и ограничений, а также учитывать безопасность в процессе. Для обеспечения безопасности внедряется механизм **самоучительного подбора параметров**, который предотвращает выход за границы безопасных значений. Распределенная природа системы воспроизводится с использованием **обмена данными между ближайшими агентами**. Для учета взаимодействия между несколькими агентами предлагается **реформулировать глобальную задачу оптимизации как многошаговую задачу локальной оптимизации** для каждого агента, введя время как латентную переменную. Для эффективного использования представлений в пространстве и времени предлагается **специальный спато-временной кернел**, интегрирующий предварительные знания о системе.
## Результаты
Мы проводим эксперименты в симуляционной среде, имитирующей распределенные сети агентов. Были протестированы различные кернелы и методы, включая традиционные методы оптимизации и безопасные методы, на основе функций награды и ограничений. Результаты показывают, что предлагаемый подход **выдает лучшие результаты в сравнении с другими методами**, имеет высокую эффективность обучения и обеспечивает безопасность в процессе решения задачи. Особенное внимание уделено устойчивости метода в ситуациях с нестабильными наградами и неизвестными ограничениями.
## Значимость
Наш подход может быть применен в различных безопасных распределенных системах, включая автономную логистику, роботы-коллеги, а также моделирование систем с множеством действующих субъектов. Он обеспечивает высокую эффективность и безопасность в процессе решения задач оптими
Annotation:
Many safety-critical real-world problems, such as autonomous driving and
collaborative robots, are of a distributed multi-agent nature. To optimize the
performance of these systems while ensuring safety, we can cast them as
distributed optimization problems, where each agent aims to optimize their
parameters to maximize a coupled reward function subject to coupled
constraints. Prior work either studies a centralized setting, does not consider
safety, or struggles with sample efficiency. Since we...
📄 A Hierarchical Surrogate Model for Efficient Multi-Task Parameter Learning in Closed-Loop Control
2025-08-20Авторы:
Sebastian Hirt, Lukas Theiner, Maik Pfefferkorn, Rolf Findeisen
## Контекст
В области контроля и управления существует множество задач, требующих постоянного адаптирования и оптимизации контроллеров для разных задач управления в замкнутом цикле. Эти задачи характеризуются высокими требованиями к эффективности использования данных и гибкости. Однако, существующие подходы часто имеют ограниченную модельность и недостаточную учету структуры задачи. В таких условиях авторы предлагают развить методы, которые бы способствовали эффективному решению этих проблем.
## Метод
Предлагаемый подход является новым фреймворком байесовской оптимизации, ориентированным на эффективное управление параметрами контроллеров в ситуациях последовательного принятия решений и контроля в замкнутых циклах. Авторы предлагают использовать гауссовские процессы для построения сложной структуры суррогатной модели. Эта модель учитывает динамику системы, контрольный закон и замкнутую цепь за счет известных выражений. Это позволяет использовать знания о задаче, чтобы улучшить обучение параметров контроллеров. Такой подход позволяет использовать знания о задаче, чтобы улучшить обучение параметров контроллеров.
## Результаты
Авторы проводят эксперименты с помощью моделируемого многозадачного управления, используя модели Моделируемого Модельного Управления (Model Predictive Control, MPC). Они показывают, что их подход значительно улучшает эффективность использования данных и гибкость управления в сравнении с классическими методами без знания задачи. Эти результаты подтверждают улучшенную эффективность многозадачного обучения и гибкость метода.
## Значимость
Предлагаемый подход может применяться в различных сферах, где необходимо эффективное управление сложными системами, таких как промышленное управление, робототехника и авиационные системы. Он предоставляет значительные преимущества, такие как эффективность использования данных, гибкость и способность передачи знаний между задачами. Это может привести к значительным улучшениям в производительности и экономичности в различных приложениях.
## Выводы
Авторы доказывают, что их подход эффективно упрощает процесс обучения параметров контроллеров в замкнутых циклах. Они также утверждают, что их работа открывает пути для будущих исследований в области байесовских методов и многозадачного управления, которые могут привести к более гибким и эффективным системам управления.
Annotation:
Many control problems require repeated tuning and adaptation of controllers
across distinct closed-loop tasks, where data efficiency and adaptability are
critical. We propose a hierarchical Bayesian optimization (BO) framework that
is tailored to efficient controller parameter learning in sequential
decision-making and control scenarios for distinct tasks. Instead of treating
the closed-loop cost as a black-box, our method exploits structural knowledge
of the underlying problem, consisting of a ...
📄 Computationally efficient Gauss-Newton reinforcement learning for model predictive control
2025-08-09Авторы:
Dean Brandner, Sebastien Gros, Sergio Lucia
## Контекст
Model predictive control (MPC) широко применяется в промышленном управлении, благодаря своей понятности и возможности учесть ограничения. Однако MPC, как параметрическая политика в области reinforcement learning (RL), часто страдает от неэффективности в обучении, поскольку поддерживает сильную начальную производительность и требует малого объема данных по сравнению с блэк-бокс-политиками, такими как нейронные сети. Обучение MPC становится сложнее из-за необходимости решения многократных задач оптимального управления, что приводит к высоким затратам на вычисления. Известные методы RL, основанные на первом порядке, неэффективны в этой области, так как весьма трудоемко решать задачи, требующие точного понимания динамики системы. Наша мотивация заключается в развитии более эффективного алгоритма, который бы существенно сократил время обучения MPC, при этом сохраняя высокую точность.
## Метод
Мы предлагаем новый подход, основанный на Gauss-Newton и позволяющий уменьшить вычислительные затраты при подгонке MPC-политики. Наш метод отказывается от требования к вычислениям второго порядка, которые традиционно требуются для наилучшего контроля. Вместо этого мы используем приближение для определителя Hessiana, что существенно уменьшает вычислительный вес. Для того, чтобы обеспечить стабильность алгоритма при работе с шумными данными, мы разработали схему скользящего среднего для гессиана. Это позволяет обеспечить гладкую и точную обучение MPC-политик, даже в условиях большого шума в данных. В целом, наш подход значительно улучшает скорость и эффективность в процессе обучения MPC-политик.
## Результаты
Мы проверили наш алгоритм на нелинейной модели нетермодинамического реактора. Наши результаты показали, что Gauss-Newton RL для MPC позволяет достичь быстрее требуемого качества управления по сравнению с первоначальными методами. Также, наши результаты показали, что наш метод значительно эффективнее, что дает возможность сократить время обучения и объем необходимого объема данных. Мы показали, что процесс обучения становится более устойчивым и точным в ситуациях, когда размерность пространства параметров высока. Это улучшение в производительности позволяет использовать MPC-политики в более сложных задачах управления.
## Значимость
Наш подход может быть применим в различных промышленных системах, где используется MPC, таких как процессы химической промышленности, энергетические системы и другие системы с высокими требованиями к точности и скорости. Помимо этого, новый метод может быть задействован в RL для решения задач с высоким числом параметров, которые требуют низкого объема вычислительных ресурсов. Мы считаем, что наш под
Annotation:
Model predictive control (MPC) is widely used in process control due to its
interpretability and ability to handle constraints. As a parametric policy in
reinforcement learning (RL), MPC offers strong initial performance and low data
requirements compared to black-box policies like neural networks. However, most
RL methods rely on first-order updates, which scale well to large parameter
spaces but converge at most linearly, making them inefficient when each policy
update requires solving an opti...
Показано 51 -
60
из 63 записей