📚 Саммари научных статей из arXiv

Найдено 47 результатов по запросу 'eess.SY, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Adaptive Event-Triggered Policy Gradient for Multi-Agent Reinforcement Learning

2025-09-26

Авторы:

Umer Siddique, Abhinav Sinha, Yongcan Cao

#### Контекст Многоагентные системы решают задачи, где несколько агентов должны одновременно решать задачи, взаимодействуя друг с другом. Несмотря на успех многоагентного машинного обучения (MARL) в таких приложениях, существуют проблемы, связанные с высокой стоимостью вычислений и передачи данных. Эти ограничения ограничивают масштабируемость и эффективность таких систем. Многие существующие методы разделяют оптимизацию контрольных политик и механизмов коммуникации, что приводит к неэффективности в использовании ресурсов. #### Метод Мы предлагаем Event-Triggered Multi-Agent Policy Gradient (ET-MAPG), рамформу, где обучение контрольных политик и механизмов коммуникации объединяется в единое решение. Уровень коммуникации становится частью обучения, то есть, агенты не только выбирают действия, но и решают, когда и с кем делиться информацией. В АET-MAPG, мы добавляем самоп paттерны, используя самоаттенцию. Таким образом, агенты могут выбирать, когда и с кем обмениваться информацией. Метод может быть интегрирован с любыми методами политики по градиенту в MARL. #### Результаты Мы проводили эксперименты на нескольких многоагентных бенчмарках. Наши методы ET-MAPG и AET-MAPG показали схожую эффективность с лучшими методами временной схемы выполнения, но с значительной экономией ресурсов. Таким образом, мы показали, что модели могут оптимизировать контрольные политики и механизмы коммуникации, уменьшая затраты вычислений и обмена данными. #### Значимость Наши результаты показывают, что ET-MAPG и AET-MAPG могут применяться в многоагентных системах, таких как системы для управления трафиком, робототехники и системы мониторинга. Эти методы позволяют уменьшить вычислительные затраты и объем передаваемых данных, что делает их эффективными для реализации в реальных системах. #### Выводы Мы предложили ET-MAPG и AET-MAPG для улучшения многоагентных методов подхода градиентного политики. Наши решения позволяют сочетать политику контроля и коммуникации, уменьшая накладные расходы. Будущие исследования будут сфокусированы на расширении данных методов для более сложных задач и приложений.

Annotation:

Conventional multi-agent reinforcement learning (MARL) methods rely on time-triggered execution, where agents sample and communicate actions at fixed intervals. This approach is often computationally expensive and communication-intensive. To address this limitation, we propose ET-MAPG (Event-Triggered Multi-Agent Policy Gradient reinforcement learning), a framework that jointly learns an agent's control policy and its event-triggering policy. Unlike prior work that decouples these mechanisms, ET...

ID: 2509.20338v1 eess.SY, cs.AI, cs.MA, cs.SY, math.DS

arXiv PDF

📄 Synergies between Federated Foundation Models and Smart Power Grids

2025-09-24

Авторы:

Seyyedali Hosseinalipour, Shimiao Li, Adedoyin Inaolaji, Filippo Malandra, Luis Herrera, Nicholas Mastronarde

## Контекст Появление больших языковых моделей (LLMs), таких как GPT-3, проявило важное парадигменное переложение в машинном обучении. Обученные на огромных корпусах данных, они достигли выдающихся результатов в области языкового понимания, генерирования текста, сводки информации и логического рассуждения. Это полностью изменило способ обработки и взаимодействия с человеческим языком. Однако, несмотря на свою недавний первобытность, этот направление уже приобретает новое развитие в виде моделей, обладающих более общими характеристиками. Многомерные, многозадачные фондаментальные модели (M3T FMs) представляют собой новый класс систем, которые могут обрабатывать широкий спектр типов данных, включая временные ряды, аудио, изображения, табличные данные и неструктурированные журналы. Эти модели также бывают независимыми от задачи и могут выполнять такие задачи, как прогнозирование, классификация, управление и поиск. Когда эти модели интегрируются с федеративным обучением (FL), они образуют класс новых моделей, называемых M3T Federated Foundation Models (FedFMs). Это высоконаучная и еще низкая изученная область, предлагающая возможность строить высокоэффективные модели, обучаемые в распределенной среде с сохранением приватности данных. В данной работе мы привносим новый взгляд на развитие этих моделей, сфокусировавшись на их применении в области управления энергосистемами. ## Метод Методология разработки FedFMs включает в себя несколько ключевых элементов. Вначале, на модели применяется метод федеративного обучения, позволяющий обучать модель на данных, распределенных по независимым узлам, не требуя централизованного доступа к информации. Это гарантирует высокую защиту приватности данных и уменьшает риск несанкционированного доступа. Далее, FedFMs обучаются на многомерных данных, включая временные ряды, изображения, табличные данные и другие типы данных, которые могут возникать в системе управления энергосистемами. Архитектура FedFMs основана на технологиях глубокого обучения, начиная с моделей типа Transformer, и заканчивая сложными архитектурами, поддерживающими многозадачность и многомодальность. Такие модели созданы для того, чтобы обеспечивать высокую точность в задачах, таких как прогнозирование теплового запроса, детекция аномалий и управление тепловым энергопотоком. Также, FedFMs включают в себя разработку методов для оптимизации обучения, включая снижение вычислительных затрат и повышение скорости обучения. ## Результаты Для проверки моделей FedFMs, мы провели ряд экспериментов в среде управления энергосистемами. Мы использовали реа

Annotation:

The recent emergence of large language models (LLMs) such as GPT-3 has marked a significant paradigm shift in machine learning. Trained on massive corpora of data, these models demonstrate remarkable capabilities in language understanding, generation, summarization, and reasoning, transforming how intelligent systems process and interact with human language. Although LLMs may still seem like a recent breakthrough, the field is already witnessing the rise of a new and more general category: multi...

ID: 2509.16496v1 eess.SY, cs.AI, cs.LG, cs.SY

arXiv PDF

📄 Hierarchical Reinforcement Learning with Low-Level MPC for Multi-Agent Control

2025-09-23

Авторы:

Max Studt, Georg Schildbach

## Контекст Управление в динамических и ограниченных средах остается сложной задачей, особенно при работе с многоагентными системами. Одной из главных проблем является поддержание безопасного и координированного поведения в среде с часто меняющимися условиями. Большинство методов, основанных на глубоком обучении, страдают от неэффективности выбора при обучении и трудностях в обеспечении надежности. Модель-ориентированные подходы, напротив, зависят от предварительно определенных спецификаций и часто не могут хорошо обобщаться на различные ситуации. Улучшение комбинированных методов, которые объединяют модель-ориентированную контрольную технику с обучением с подкреплением, может стать ответом на эти проблемы. ## Метод Мы предлагаем архитектуру, которая объединяет турбо-решения с помощью модели подкрепления (RL) для высокоуровневого планирования и низкоуровневый контроль модели оптимального управления (MPC) для выполнения динамически безопасных и точных действий. В многоагентной системе это подразумевает, что ролевые политики высшего уровня выбирают абстрактные цели в структурированных зонах интереса, в то время как MPC обеспечивает динамически безопасное движение. Для обучения высокоуровневого поведения мы используем динамические регионы интереса (ROIs), которые генерируются совместно с помощью СВОИ. Это позволяет уменьшить пространство поиска и улучшить обучение. ## Результаты Мы провели эксперименты на бенчмарке "преследователь-преследователь" (predator-prey), сравнив нашу гибридную систему с базовыми методами, включая полностью модель-ориентированные и полностью обучаемые подкреплением. Наши результаты показывают, что мощность нашего подхода заключается в боевом выигрыше при оценке награды, безопасности и консистентности. Например, в сценарии с тремя агентами в среде с ловушками воздушных змей, метод с MPC увеличил значение награды на 20%, уменьшил число аварийных ситуаций на 30% и повысил консистентность выполнения задачи. ## Значимость Наш подход может быть применен в различных сценариях, таких как мобильные роботы, системы поддержки решений, игровые системы и другие системы с многоагентным управлением. Преимущества заключаются в том, что мы можем обеспечить безопасность, эффективность и универсальность решений в средах с высоким уровнем динамики и ограничений. Это имеет большой потенциал для развития технологий, например, для роботов-помощников и мультироботических систем. ## Выводы Наши эксперименты подтвердили высокую эффективность комбинированного подхода, который объединяет г

Annotation:

Achieving safe and coordinated behavior in dynamic, constraint-rich environments remains a major challenge for learning-based control. Pure end-to-end learning often suffers from poor sample efficiency and limited reliability, while model-based methods depend on predefined references and struggle to generalize. We propose a hierarchical framework that combines tactical decision-making via reinforcement learning (RL) with low-level execution through Model Predictive Control (MPC). For the case of...

ID: 2509.15799v1 eess.SY, cs.AI, cs.RO, cs.SY, math.OC

arXiv PDF

📄 Near-Real-Time Resource Slicing for QoS Optimization in 5G O-RAN using Deep Reinforcement Learning

2025-09-20

Авторы:

Peihao Yan, Jie Lu, Huacheng Zeng, Y. Thomas Hou

#### Контекст Открытый Радио-Доступный Набор (O-RAN) является ключевым подходом для строительства 5G и будущих телекоммуникационных сетей. Оно предлагает открытую архитектуру, позволяющую легкой интеграции различных компонентов и гибкостью в адаптации к растущим сетевым потребностям. Одной из сложных задач в O-RAN является оптимизация ресурсов MAC-уровня в режиме близком к реальному времени (Near-RT). Эта проблема возникает из-за динамичности сетевых условий, таких как изменения канальных условий, мобильность пользователей, вариабельность трафика и изменения пользовательских требований. Неэффективная оптимизация ресурсов может привести к снижению качества обслуживания (QoS) и неудовлетворенным пользователям. Таким образом, есть необходимость в развитии методов, которые могут адаптироваться к динамическим сетевым условиям и обеспечивать высокую QoS. #### Метод Для решения этой задачи предложена xSlice - xApp, интегрированная в Near-RT RIC 5G O-RAN. xSlice представляет собой онлайн-обучающий алгоритм, который адаптивно настраивает ресурсы MAC-уровня в ответ на динамические сетевые условия. Алгоритм использует Deep Reinforcement Learning (DRL), который включает в себя модель actor-critic для комбинации методов оптимизации значений и политик. Для эффективного представления данных сети в DRL используется Graph Convolutional Network (GCN), который позволяет обрабатывать графы, представляющие сетевые связи. Это решение позволяет xSlice учитывать динамическое число трафических сеансов и адаптироваться к их изменениям. Архитектура xSlice включает в себя несколько модулей: модель обучения, интерфейс сети и модуль адаптации ресурсов. Эти модули обеспечивают интеграцию DRL-фреймворка с реальным телекоммуникационным окружением. #### Результаты xSlice была использована в реальной O-RAN-тестовой среде, включающей 10 смартфонов, для оценки её реальности. Эксперименты показали, что xSlice существенно улучшает QoS, снижая отставание за целевыми показателями в 67% по сравнению с состояниями без xSlice. Она показала способность адаптироваться к изменениям канальных условий, мобильности и трафика в режиме реального времени. Также было проведено сравнение с другими стейт-оф-арт решениями, подтвердив выигрыш xSlice в производительности. Результаты экспериментов указывают на то, что xSlice может обеспечить высокую QoS и реагировать на динамические сетевые условия быстро и эффективно. #### Значимость xSlice может быть применена в различных сценариях 5G и 6G, где требуется высокая QoS, таких как видеопотоки, виртуальная реальность, умные города и м

Annotation:

Open-Radio Access Network (O-RAN) has become an important paradigm for 5G and beyond radio access networks. This paper presents an xApp called xSlice for the Near-Real-Time (Near-RT) RAN Intelligent Controller (RIC) of 5G O-RANs. xSlice is an online learning algorithm that adaptively adjusts MAC-layer resource allocation in response to dynamic network states, including time-varying wireless channel conditions, user mobility, traffic fluctuations, and changes in user demand. To address these netw...

ID: 2509.14343v1 eess.SY, cs.AI, cs.SY

arXiv PDF

📄 Factor Graph Optimization for Leak Localization in Water Distribution Networks

2025-09-17

Авторы:

Paul Irofti, Luis Romero-Ben, Florin Stoican, Vicenç Puig

## Контекст Водоснабжение городов и регионов — ключевая инфраструктурная система, требующая постоянного мониторинга и управления. Одной из самых критических проблем в таких системах является обнаружение и локализация утечек воды. Утечки приводят к потере ресурсов, негативно сказываются на экологии и могут привести к экономическим потерям. Несмотря на существующие методы локализации утечек, такие как методы линейной и нелинейной интерполяции, они часто лишаются точности в условиях реальных сетей и имеют ограниченную способность объединять данные от различных датчиков. Мотивация для настоящего исследования заключается в разработке эффективного, высокоточного и универсального подхода к локализации утечек, использующему новые методы оптимизации. ## Метод Предлагаемый подход основывается на факторной оптимизации графов. Основной идеей является разработка конкретных факторов, отражающих характеристики водоснабжения, таких как давление и спрос. Для локализации утечек вводится новая архитектура, состоящая из двух факторных графов: (1) граф для оценки сети в условиях отсутствия утечек и (2) граф для локализации утечек. Эта архитектура позволяет обновлять не только текущую сетевую модель, но и ее историю в прошлом. Технические решения включают интеграцию датчиков давления и спроса, а также использование оптимизационных методов для решения сложных задач локализации. ## Результаты Эксперименты проводились на данных сетей Modena, L-TOWN и синтетических сетях. Результаты показали, что факторные графы оказались значительно быстрее в вычислениях по сравнению с нелинейным гауссовским фильтром (UKF). Кроме того, факторные графы показали улучшение точности локализации утечек в сравнении с другими существующими методами. Это достигнуто благодаря совместному использованию давления и спроса, а также способности метода обновлять все состояния в сети в прошлом. Эти результаты доступны в репозитории GitHub по адресу https://github.com/pirofti/FGLL. ## Значимость Факторные графы могут быть применены в различных сценариях, включая мониторинг и управление водоснабжением, а также другие инфраструктурные системы, где необходима точная локализация неисправностей. Основное преимущество — высокая скорость и точность работы, способность обрабатывать большие объемы данных и объединять различные рабочие модели. Этот подход может существенно улучшить эффективность управления водоснабжением и снизить экономические и экологические потери. ## Выводы Настоящая ра

Annotation:

Detecting and localizing leaks in water distribution network systems is an important topic with direct environmental, economic, and social impact. Our paper is the first to explore the use of factor graph optimization techniques for leak localization in water distribution networks, enabling us to perform sensor fusion between pressure and demand sensor readings and to estimate the network's temporal and structural state evolution across all network nodes. The methodology introduces specific wate...

ID: 2509.10982v1 eess.SY, cs.AI, cs.LG, cs.SY

arXiv PDF

📄 Control Analysis and Design for Autonomous Vehicles Subject to Imperfect AI-Based Perception

2025-09-17

Авторы:

Tao Yan, Zheyu Zhang, Jingjing Jiang, Wen-Hua Chen

## Контекст В последние годы автономные транспортные средства (AV) вызывают все большую популярность в связи с их потенциалом преодоления проблем транспорта, таких как трафик и травматизм. Однако существуют серьезные затруднения, связанные с безопасностью этих систем. Одна из главных проблем заключается в том, что AI-based perception модули, которые используются для обнаружения и интерпретации окружающей среды, часто являются "черными ящиками", то есть невозможно с уверенностью определить их поведение в различных условиях. Это препятствует оценке закрытого круга стабильности и поддержанию показателей производительности, которые критичны для AV-систем. Данная работа призвана развить новые модели, аналитические и синтезаторы инструменты, чтобы повысить безопасность AI-driven AV-систем. ## Метод В этой работе рассматриваются две основные категории ошибок, возникающих в AI-based perception: миздетекшн (ошибка в обнаружении объектов) и мешение измерений (помехи в сигнале). Миздетекшн описывается с помощью пространственного распределения вероятности, а мешение измерений — через Wiener-процесс. Для моделирования взаимодействия AV с средой используется PEM-аugmented driving model (модель с учетом ошибок perception). Эта модель позволяет описать влияние ошибок на закрытый круг системы. Для обеспечения желаемой стабильности и производительности разработана выводная методика, которая основывается на подходах к задачам оптимизации стохастических систем. Эта синтезная методика статистически устойчива и может эффективно решаться через современные симуляционные инструменты. ## Результаты В результате экспериментов на основе проекта Adaptive Cruise Control (ACC) показано, что разработанная методика эффективно решает проблему устойчивости и производительности в системах автономного управления, даже в условиях подверждения мошеннических или неточных выходах perception. В частности, в работе установлены условия для стабилизации системы и поддержания высокой производительности в случае внешних помех и неточностей в данных сенсоров. Эта прогрессивная модель позволяет оценить эффективность AI-based perception в AV-системах и снизить риск сбоев, связанных с неточностью восприятия. ## Значимость Разработанный подход оказывается применим в широком круге областей, включая обеспечение безопасности в AI-driven AV-системах, промышленное мониторингное оборудование, а также системы управления в робототехнике. Основное преимущество этого подхода заключается в том, что он позволяет математически описать и управлять влиянием ошибок в AI-based perception на закрытый круг системы, что обеспечивает надежность и производительность в ситуациях с ошибками восприяти

Annotation:

Safety is a critical concern in autonomous vehicle (AV) systems, especially when AI-based sensing and perception modules are involved. However, due to the black box nature of AI algorithms, it makes closed-loop analysis and synthesis particularly challenging, for example, establishing closed-loop stability and ensuring performance, while they are fundamental to AV safety. To approach this difficulty, this paper aims to develop new modeling, analysis, and synthesis tools for AI-based AVs. Inspire...

ID: 2509.12137v1 eess.SY, cs.AI, cs.SY

arXiv PDF

📄 Approaches to Analysis and Design of AI-Based Autonomous Vehicles

2025-09-17

Авторы:

Tao Yan, Zheyu Zhang, Jingjing Jiang, Wen-Hua Chen

## Контекст В последние годы технологии искусственного интеллекта (AI) стали основополагающими для автоматизированных систем, особенно в области управления автомобилями. Автономные автомобили (AV) требуют высокой точности в осуществлении таких задач, как распознавание объектов, определение маршрутов и принятие решений в реальном времени. Однако существуют значительные затруднения в понимании и управлении характеристиками AI-моделей, которые влияют на производительность и надежность таких систем. Эти недостатки приводят к риску нарушения защитных механизмов, которые обеспечивают безопасное взаимодействие с окружающим пространством. В статье рассматривается моделирование и анализ AI-driven перцепционных процессов в AV. Целью является получение инструментов для выявления и управления ошибками в этих процессах, чтобы улучшить надежность и устойчивость автономных систем. ## Метод Для моделирования AI-based AV используется новая подходящая архитектура, которая учитывает особенности перцепционных процессов. Основным подходом является использование трех основных типов неопределенностей, которые могут возникнуть в процессе распознавания: Марковские цепи для рандомизации, Гауссовы процессы для нелинейности и буксирующие возмущения для стохастических дисперсий. Методология основывается на использовании **Linear Matrix Inequalities (LMI)** в качестве основного инструмента для анализа и синтеза управляющих систем. Алгоритм строится для построения сопряженных матричных неравенств, которые позволяют оценивать свойства стохастической стабильности (SS) и уровень устойчивости в условиях внешних возмущений. Более того, гипотезы о роли AI в процессе управления были проверены с помощью моделей в пределах малого и большого девиационного положения. ## Результаты В ходе экспериментов были разработаны модели, учитывающие особенности AI-driven систем, в частности, возникающие неопределенности в процессе распознавания. Использование LMI позволило построить эффективные контрольные методы для достижения стохастической стабильности и поиска оптимальных значений в условиях внешних возмущений. Результаты показали, что система, использующая разработанные подходы, имеет высокий уровень устойчивости в задачах картографирования и физического управления AV. Также была продемонстрирована эффективность синтезированных методов в условиях высокой внешней неопределенности. ## Значимость Разработанные подходы могут быть применены в области автономного управления, например, в задачах картографирования, а также в системах обеспечения безопасности на до

Annotation:

Artificial intelligence (AI) models are becoming key components in an autonomous vehicle (AV), especially in handling complicated perception tasks. However, closing the loop through AI-based feedback may pose significant risks on reliability of autonomous driving due to very limited understanding about the mechanism of AI-driven perception processes. To overcome it, this paper aims to develop tools for modeling, analysis, and synthesis for a class of AI-based AV; in particular, their closed-loop...

ID: 2509.12169v1 eess.SY, cs.AI, cs.SY

arXiv PDF

📄 Game-Theoretic Resilience Framework for Cyber-Physical Microgrids using Multi-Agent Reinforcement Learning

2025-09-12

Авторы:

S Krishna Niketh, Sagar Babu Mitikiri, V Vignesh, Vedantham Lakshmi Srinivas, Mayukha Pal

## Контекст Современные системы энергетического потребления становятся все более зависимыми от киберфизических систем, что усиливает риск направленных атак в сфере кибербезопасности. Это направляет внимание на развитие эффективных методов укрепления резильентности. Особенно актуальным становится использование киберфизических микросетов, которые обладают сложной структурой и требуют сложных стратегий управления. Целью данной статьи является разработка математически корректного фреймворка для оценки резильентности микросетов, используя теорию игр и мульти-агентные глубокие оптимизационные алгоритмы. ## Метод В статье предлагается формализовать модель резильентности микросетов с использованием теории игр и мульти-агентного метода. Авторы разработали метрики, включающие: Мощность Сервируемой Загрузки (LSR), Критическую Загрузку (CLR), Топологическую Устойчивость (TSS) и Метрику Дистрибьютора Энергии (DER). Эти метрики включены в однородную матрицу взаимодействий атаки-обороны с помощью Аналитического Иерархического Процесса (AHP). Основным методологическим подходом является Finite Horizon Markov Decision Process (MDP), где для проблемы оптимизации решается задача взаимодействия временных рядов с помощью мульти-агентного глубокого обучения. ## Результаты Для тестирования фреймворка, авторы использовали модель IEEE 33-узлов с сетями управления и DER (Distributed Energy Resources). Для оценки результатов, разработчики провели три эксперимента: 1. Анализ статических атак с использованием Нашевого равновесия; 2. Анализ серьезных атак, включающих высокоэффективные стратегии; 3. Адаптивные атаки с использованием Stackelberg-игр, regret matching, softmax-распределения и мульти-агентного Q-learning. Результаты показали, что адаптивные стратегии увеличивают LSR на 18.7% и CLR на 2.1% в сравнении с статическими методами. Также были описаны вычислительные анализы сложности и были демонстрированы гарантии обучения с помощью PAC. ## Значимость Разработанный фреймворк может быть применен в различных киберфизических системах, включая гриды с высокой степенью динамики и сложности. Он демонстрирует преимущества стратегического подхода и способности адаптироваться к угрозам в реальном времени, что повышает уровень безопасности и производительность систем. Это имеет потенциал для улучшения эффективности и стабильности в работе киберфизических систем. ## Выводы Результаты показали, что использование мульти-агентного глубокого обучения эффективно для применения в киберфизических системах, улучша

Annotation:

The increasing reliance on cyber physical infrastructure in modern power systems has amplified the risk of targeted cyber attacks, necessitating robust and adaptive resilience strategies. This paper presents a mathematically rigorous game theoretic framework to evaluate and enhance microgrid resilience using a combination of quantitative resilience metrics Load Served Ratio LSR, Critical Load Resilience CLR, Topological Survivability Score TSS, and DER Resilience Score DRS. These are integrated ...

ID: 2509.08310v1 eess.SY, cs.AI, cs.GT, cs.SY

arXiv PDF

📄 Reinforcement learning meets bioprocess control through behaviour cloning: Real-world deployment in an industrial photobioreactor

2025-09-10

Авторы:

Juan D. Gil, Ehecatl Antonio Del Rio Chanona, José L. Guzmán, Manuel Berenguel

#### Контекст Биопроцессы, особенно те, что проводятся в открытых фотобиореакторах (PBR), сталкиваются с большими сложностями в поддержании стабильных и оптимальных условий. Это связано с тем, что производственные системы, основанные на живых клетках, чувствительны к внешним факторам, таким как температура, освещение и водородный потенциал. Эти внешние факторы, зачастую непредсказуемы, приводят к нестабильности процесса и снижению продуктивности. Настоящая работа адресует эту проблему, предлагая инновационный подход, объединяющий методы учения по примеру (behavior cloning) и усовершенствованные методы управления с помощью усиленного обучения (reinforcement learning, RL). #### Метод Разработанная методика включает две фазы: оффлайн-обучение и онлайн-файнтюнинг. В первой фазе RL-агент обучается на основе путей, сгенерированных традиционным контроллером PID. Это позволяет агенту учиться без непосредственного взаимодействия с реальным PBR. Во второй фазе, проводимая ежедневно, RL-агент адаптируется к изменениям в процессе, используя данные, собранные за предыдущий день. Этот гибкий подход позволяет агенту корректно реагировать на ненормальные состояния и быстрые динамические изменения. Такой гибридный подход обеспечивает лучшую устойчивость и эффективность управления в открытых PBR. #### Результаты Эксперименты показали, что использование совместного подхода RL с behavior cloning приводит к существенному улучшению метрик качества регулирования. Так, Интегральная Абсолютная Ошибка (IAE) уменьшилась на 8% по сравнению с традиционным PID-контроллером и на 5% по сравнению с стандартной безразмерной RL-стратегией. Более того, уменьшился количество операционных действий (control effort), что позволило снизить расходы на эксплуатацию процесса. Эксперименты проведены в реальных условиях предприятия в течение 8 дней, подтвердив робастность и надежность предложенного подхода к реальному выполнению биопроцесса. #### Значимость Предложенный подход имеет широкие применения в сфере биотехнологий и запирательного производства. Он позволяет уменьшить расходы на эксплуатацию биопроцессов, обеспечить стабильность производственных условий и повысить производительность. Это первый пример применения методов RL в регулировании биопроцесса, что открывает новые перспективы для применения умных технологий в агробиотехнологиях. #### Выводы Результаты экспериментов подтвердили эффективность и надежность использования RL-методов в управлении биопроцессами. Будущими направлениями исследований будет исследование возможности применения этих методов

Annotation:

The inherent complexity of living cells as production units creates major challenges for maintaining stable and optimal bioprocess conditions, especially in open Photobioreactors (PBRs) exposed to fluctuating environments. To address this, we propose a Reinforcement Learning (RL) control approach, combined with Behavior Cloning (BC), for pH regulation in open PBR systems. This represents, to the best of our knowledge, the first application of an RL-based control strategy to such a nonlinear and ...

ID: 2509.06853v1 eess.SY, cs.AI, cs.LG, cs.SY

arXiv PDF

📄 Reinforcement Learning for Robust Ageing-Aware Control of Li-ion Battery Systems with Data-Driven Formal Verification

2025-09-09

Авторы:

Rudi Coppola, Hovsep Touloujian, Pierfrancesco Ombrini, Manuel Mazo Jr

#### Контекст Аккумуляторы литий-ионных (Li-ion) являются ключевым элементом современных технологий, широко используемых в электронных устройствах, электромобилях и системах хранения энергии. Однако их эффективная эксплуатация связана с рядом проблем. Одна из основных задач в этой области — обеспечение быстрого зарядки аккумулятора при минимальном воздействии на его процессы старения, которые приводят к уменьшению емкости. Этот конфликт требует разработки усовершенствованных Battery Management Systems (BMS), которые могут эффективно контролировать процесс зарядки, обеспечивая оптимальный баланс между производительностью и продолжительностью жизненного цикла аккумулятора. Наша мотивация заключается в разработке инновационных подходов к проектированию BMS, позволяющим решать эти проблемы с помощью машинного обучения и формальных методов. #### Метод Мы применяем метод Counterexample-Guided Inductive Synthesis (CEGIS), который сочетает Reinforcement Learning (RL) с формальными методами для построения управляющих стратегий. Алгоритм CEGIS позволяет эффективно обучать RL-контроллеры, используя данные, полученные из физической модели аккумулятора. Для получения общей стратегии мы используем моделирование связанных систем, где RL-контроллеры работают в зависимости от начальных данных о состоянии аккумулятора. Этот подход позволяет оптимизировать систему, используя RL для локальной оптимизации и формальные методы для получения гарантий на уровне системы. Технически, мы используем абстракцию данных для разделения зон работы BMS, каждая из которых связана с конкретным RL-контроллером. Это разделение обеспечивает эффективность и точность в решении задач управления. #### Результаты Мы проводим эксперименты на высокоточной физической модели Li-ion батареи. Наши результаты показывают, что RL-контроллеры, синтезированные с помощью CEGIS, эффективно регулируют процесс зарядки, минимизируя влияние на старение батареи. Мы проверяем наши решения на множестве задач зарядки с различными начальными условиями и показываем, что они обеспечивают более высокую продолжительность жизненного цикла и более быструю зарядку по сравнению с существующими методами. Абстракция, полученная формальными методами, дает нам возможность давать прогнозы о производительности системы с поддержкой статистических гарантий. #### Значимость Разработанный подход может быть применен в различных областях, включая электронные технологии, электромобили и системы хранения энергии. Он обеспечивает более высокую эффективность зарядки и более долговременную эксплуатацию аккумуляторов. Наши результа

Annotation:

Rechargeable lithium-ion (Li-ion) batteries are a ubiquitous element of modern technology. In the last decades, the production and design of such batteries and their adjacent embedded charging and safety protocols, denoted by Battery Management Systems (BMS), has taken central stage. A fundamental challenge to be addressed is the trade-off between the speed of charging and the ageing behavior, resulting in the loss of capacity in the battery cell. We rely on a high-fidelity physics-based battery...

ID: 2509.04288v2 eess.SY, cs.AI, cs.SY

arXiv PDF

1
2
3
4
5

Показано 31 - 40 из 47 записей