Sequence Aware SAC Control for Engine Fuel Consumption Optimization in Electrified Powertrain

2508.04874v1 eess.SY, cs.AI, cs.LG, cs.SY 2025-08-09

Авторы:

Wafeeq Jaleel, Md Ragib Rownak, Athar Hanif, Sidra Ghayour Bhatti, Qadeer Ahmed

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Гибридные электромобили (HEV) становятся важным элементом стратегии декарбонизации грузового транспорта, особенно в сегменте тяжелых грузовиков. Однако эффективное управление энергопотреблением в таких системах представляет собой сложную задачу, требующую одновременного учета множества переменных: текущего состояния батареи, мощностных характеристик двигателя, условий движения и продолжительности маршрута. Традиционные методы управления, основанные на правилах или оптимизации в реальном времени, часто не обеспечивают оптимальный баланс между экономией топлива и сохранением заряда батареи для длительных поездок. Проблема усложняется тем, что в серийной архитектуре HEV двигатель внутреннего сгорания (ДВС) не напрямую приводит колеса, а работает как генератор, заряжая батарею и/или питая электродвигатель. Это создает дополнительные степени свободы в управлении, но также увеличивает пространство возможных стратегий управления. Существующие подходы, включая динамическое программирование (DP), обеспечивают теоретически оптимальные решения, но требуют полного знания будущего цикла вождения и не применимы в реальных условиях. Авторы статьи выделяют ключевую проблему: большинство существующих систем управления не учитывают последовательную природу задачи и временные зависимости между решениями. Текущие методы обучения с подкреплением (RL) часто используют нейронные сети прямого распространения (FFN), которые рассматривают каждое состояние независимо, теряя важную информацию о контексте предыдущих состояний и действий. Это особенно критично для тяжелых грузовиков, где решения о включении ДВС имеют длительные последствия из-за большой инерционности системы. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы авторы предлагают новую архитектуру RL-агента на базе алгоритма Soft Actor-Critic (SAC), специально адаптированного для учета последовательной природы задачи управления энергопотоками в серийных HEV. Ключевой инновацией является интеграция механизмов памяти в обе сети актора и критика, что позволяет агенту учитывать историю состояний и действий при принятии решений. Архитектура предлагает три варианта реализации: первый использует в акторе Decision Transformer (DT) - трансформерную архитектуру, способную моделировать сложные длинные зависимости в последовательностях, и в критике - Gated Recurrent Units (GRU) для эффективного захвата среднесрочных временных паттернов. Второй вариант применяет GRU в обеих сетях, обеспечивая более компактную модель с сохранением способности к учету временных зависимостей. Третий вариант служит базовым, используя традиционные FFN-сети для сравнения эффективности. Методология включает несколько ключевых компонентов: формальную постановку задачи как процесса принятия последовательных решений в частично наблюдаемой среде, разработку специальной функции вознаграждения, балансирующей между топливной экономичностью и поддержанием заряда батареи, и механизм обучения с учетом различных начальных условий и сценариев вождения. Авторы также вводят концепцию "последовательного планирования", где агент не только реагирует на текущее состояние, но и прогнозирует последствия своих действий в контексте предполагаемого будущего цикла движения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная кампания была направлена на всестороннюю оценку предложенных методов по трем ключевым критериям: эффективность топливной экономии по сравнению с теоретическим оптимумом, способность обобщаться на незнакомых циклах вождения и робастность к изменениям параметров системы. Для этого использовались три различных цикла вождения: стандартный Highway Fuel Economy Test (HFET) для базового сравнения, агрессивный US06 для проверки экстремальных условий и HHDDT cruise segment для моделирования специфических условий тяжелых грузовиков. Обучение проводилось на диверсифицированном наборе данных, включающем 5000 эпизодов с варьированием начального состояния заряда батареи (20-80%), продолжительности цикла (от 200 до 1200 секунд) и профилей мощности. Для каждого варианта архитектуры проводилось обучение с 10 различ

Abstract

As hybrid electric vehicles (HEVs) gain traction in heavy-duty trucks, adaptive and efficient energy management is critical for reducing fuel consumption while maintaining battery charge for long operation times. We present a new reinforcement learning (RL) framework based on the Soft Actor-Critic (SAC) algorithm to optimize engine control in series HEVs. We reformulate the control task as a sequential decision-making problem and enhance SAC by incorporating Gated Recurrent Units (GRUs) and Decision Transformers (DTs) into both actor and critic networks to capture temporal dependencies and improve planning over time. To evaluate robustness and generalization, we train the models under diverse initial battery states, drive cycle durations, power demands, and input sequence lengths. Experiments show that the SAC agent with a DT-based actor and GRU-based critic was within 1.8% of Dynamic Programming (DP) in fuel savings on the Highway Fuel Economy Test (HFET) cycle, while the SAC agent with GRUs in both actor and critic networks, and FFN actor-critic agent were within 3.16% and 3.43%, respectively. On unseen drive cycles (US06 and Heavy Heavy-Duty Diesel Truck (HHDDT) cruise segment), generalized sequence-aware agents consistently outperformed feedforward network (FFN)-based agents, highlighting their adaptability and robustness in real-world settings.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Sequence Aware SAC Control for Engine Fuel Consumption Optimization in Electrified Powertrain

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Deep Koopman Economic Model Predictive Control of a Pasteurisation Unit

Deep Dictionary-Free Method for Identifying Linear Model of Nonlinear System wit...

TubeDAgger: Reducing the Number of Expert Interventions with Stochastic Reach-Tu...

Synergies between Federated Foundation Models and Smart Power Grids

Factor Graph Optimization for Leak Localization in Water Distribution Networks

Навигация