Reinforcement learning meets bioprocess control through behaviour cloning: Real-world deployment in an industrial photobioreactor
2509.06853v1
eess.SY, cs.AI, cs.LG, cs.SY
2025-09-10
Авторы:
Juan D. Gil, Ehecatl Antonio Del Rio Chanona, José L. Guzmán, Manuel Berenguel
Резюме на русском
#### Контекст
Биопроцессы, особенно те, что проводятся в открытых фотобиореакторах (PBR), сталкиваются с большими сложностями в поддержании стабильных и оптимальных условий. Это связано с тем, что производственные системы, основанные на живых клетках, чувствительны к внешним факторам, таким как температура, освещение и водородный потенциал. Эти внешние факторы, зачастую непредсказуемы, приводят к нестабильности процесса и снижению продуктивности. Настоящая работа адресует эту проблему, предлагая инновационный подход, объединяющий методы учения по примеру (behavior cloning) и усовершенствованные методы управления с помощью усиленного обучения (reinforcement learning, RL).
#### Метод
Разработанная методика включает две фазы: оффлайн-обучение и онлайн-файнтюнинг. В первой фазе RL-агент обучается на основе путей, сгенерированных традиционным контроллером PID. Это позволяет агенту учиться без непосредственного взаимодействия с реальным PBR. Во второй фазе, проводимая ежедневно, RL-агент адаптируется к изменениям в процессе, используя данные, собранные за предыдущий день. Этот гибкий подход позволяет агенту корректно реагировать на ненормальные состояния и быстрые динамические изменения. Такой гибридный подход обеспечивает лучшую устойчивость и эффективность управления в открытых PBR.
#### Результаты
Эксперименты показали, что использование совместного подхода RL с behavior cloning приводит к существенному улучшению метрик качества регулирования. Так, Интегральная Абсолютная Ошибка (IAE) уменьшилась на 8% по сравнению с традиционным PID-контроллером и на 5% по сравнению с стандартной безразмерной RL-стратегией. Более того, уменьшился количество операционных действий (control effort), что позволило снизить расходы на эксплуатацию процесса. Эксперименты проведены в реальных условиях предприятия в течение 8 дней, подтвердив робастность и надежность предложенного подхода к реальному выполнению биопроцесса.
#### Значимость
Предложенный подход имеет широкие применения в сфере биотехнологий и запирательного производства. Он позволяет уменьшить расходы на эксплуатацию биопроцессов, обеспечить стабильность производственных условий и повысить производительность. Это первый пример применения методов RL в регулировании биопроцесса, что открывает новые перспективы для применения умных технологий в агробиотехнологиях.
#### Выводы
Результаты экспериментов подтвердили эффективность и надежность использования RL-методов в управлении биопроцессами. Будущими направлениями исследований будет исследование возможности применения этих методов
Abstract
The inherent complexity of living cells as production units creates major
challenges for maintaining stable and optimal bioprocess conditions, especially
in open Photobioreactors (PBRs) exposed to fluctuating environments. To address
this, we propose a Reinforcement Learning (RL) control approach, combined with
Behavior Cloning (BC), for pH regulation in open PBR systems. This represents,
to the best of our knowledge, the first application of an RL-based control
strategy to such a nonlinear and disturbance-prone bioprocess. Our method
begins with an offline training stage in which the RL agent learns from
trajectories generated by a nominal Proportional-Integral-Derivative (PID)
controller, without direct interaction with the real system. This is followed
by a daily online fine-tuning phase, enabling adaptation to evolving process
dynamics and stronger rejection of fast, transient disturbances. This hybrid
offline-online strategy allows deployment of an adaptive control policy capable
of handling the inherent nonlinearities and external perturbations in open
PBRs. Simulation studies highlight the advantages of our method: the Integral
of Absolute Error (IAE) was reduced by 8% compared to PID control and by 5%
relative to standard off-policy RL. Moreover, control effort decreased
substantially-by 54% compared to PID and 7% compared to standard RL-an
important factor for minimizing operational costs. Finally, an 8-day
experimental validation under varying environmental conditions confirmed the
robustness and reliability of the proposed approach. Overall, this work
demonstrates the potential of RL-based methods for bioprocess control and paves
the way for their broader application to other nonlinear, disturbance-prone
systems.