Reinforcement learning meets bioprocess control through behaviour cloning: Real-world deployment in an industrial photobioreactor

2509.06853v1 eess.SY, cs.AI, cs.LG, cs.SY 2025-09-10
Авторы:

Juan D. Gil, Ehecatl Antonio Del Rio Chanona, José L. Guzmán, Manuel Berenguel

Резюме на русском

#### Контекст Биопроцессы, особенно те, что проводятся в открытых фотобиореакторах (PBR), сталкиваются с большими сложностями в поддержании стабильных и оптимальных условий. Это связано с тем, что производственные системы, основанные на живых клетках, чувствительны к внешним факторам, таким как температура, освещение и водородный потенциал. Эти внешние факторы, зачастую непредсказуемы, приводят к нестабильности процесса и снижению продуктивности. Настоящая работа адресует эту проблему, предлагая инновационный подход, объединяющий методы учения по примеру (behavior cloning) и усовершенствованные методы управления с помощью усиленного обучения (reinforcement learning, RL). #### Метод Разработанная методика включает две фазы: оффлайн-обучение и онлайн-файнтюнинг. В первой фазе RL-агент обучается на основе путей, сгенерированных традиционным контроллером PID. Это позволяет агенту учиться без непосредственного взаимодействия с реальным PBR. Во второй фазе, проводимая ежедневно, RL-агент адаптируется к изменениям в процессе, используя данные, собранные за предыдущий день. Этот гибкий подход позволяет агенту корректно реагировать на ненормальные состояния и быстрые динамические изменения. Такой гибридный подход обеспечивает лучшую устойчивость и эффективность управления в открытых PBR. #### Результаты Эксперименты показали, что использование совместного подхода RL с behavior cloning приводит к существенному улучшению метрик качества регулирования. Так, Интегральная Абсолютная Ошибка (IAE) уменьшилась на 8% по сравнению с традиционным PID-контроллером и на 5% по сравнению с стандартной безразмерной RL-стратегией. Более того, уменьшился количество операционных действий (control effort), что позволило снизить расходы на эксплуатацию процесса. Эксперименты проведены в реальных условиях предприятия в течение 8 дней, подтвердив робастность и надежность предложенного подхода к реальному выполнению биопроцесса. #### Значимость Предложенный подход имеет широкие применения в сфере биотехнологий и запирательного производства. Он позволяет уменьшить расходы на эксплуатацию биопроцессов, обеспечить стабильность производственных условий и повысить производительность. Это первый пример применения методов RL в регулировании биопроцесса, что открывает новые перспективы для применения умных технологий в агробиотехнологиях. #### Выводы Результаты экспериментов подтвердили эффективность и надежность использования RL-методов в управлении биопроцессами. Будущими направлениями исследований будет исследование возможности применения этих методов

Abstract

The inherent complexity of living cells as production units creates major challenges for maintaining stable and optimal bioprocess conditions, especially in open Photobioreactors (PBRs) exposed to fluctuating environments. To address this, we propose a Reinforcement Learning (RL) control approach, combined with Behavior Cloning (BC), for pH regulation in open PBR systems. This represents, to the best of our knowledge, the first application of an RL-based control strategy to such a nonlinear and disturbance-prone bioprocess. Our method begins with an offline training stage in which the RL agent learns from trajectories generated by a nominal Proportional-Integral-Derivative (PID) controller, without direct interaction with the real system. This is followed by a daily online fine-tuning phase, enabling adaptation to evolving process dynamics and stronger rejection of fast, transient disturbances. This hybrid offline-online strategy allows deployment of an adaptive control policy capable of handling the inherent nonlinearities and external perturbations in open PBRs. Simulation studies highlight the advantages of our method: the Integral of Absolute Error (IAE) was reduced by 8% compared to PID control and by 5% relative to standard off-policy RL. Moreover, control effort decreased substantially-by 54% compared to PID and 7% compared to standard RL-an important factor for minimizing operational costs. Finally, an 8-day experimental validation under varying environmental conditions confirmed the robustness and reliability of the proposed approach. Overall, this work demonstrates the potential of RL-based methods for bioprocess control and paves the way for their broader application to other nonlinear, disturbance-prone systems.

Ссылки и действия

Связанные статьи

Synergies between Federated Foundation Models and Smart Power Grids

## Контекст Появление больших языковых моделей (LLMs), таких как GPT-3, проявило важное парадигменное переложение в маш...

2025-09-24

Factor Graph Optimization for Leak Localization in Water Distribution Networks

## Контекст Водоснабжение городов и регионов — ключевая инфраструктурная система, требующая постоянного мониторинга и уп...

2025-09-17