Multi-Fidelity Hybrid Reinforcement Learning via Information Gain Maximization

2509.14848v1 cs.LG, eess.SP 2025-09-20
Авторы:

Houssem Sifaou, Osvaldo Simeone

Резюме на русском

#### Контекст Решение задач оптимизации политик работы систем часто использует моделирование в рамках высокоэффективных симуляторов. Однако такие модели могут требовать больших вычислительных затрат или быть недоступными при нехватке ресурсов. Одним из решений является offline reinforcement learning (RL), которая позволяет обучаться на предварительно собранных данных. Однако эффективность такого подхода ограничена размером и качеством данных. Hybrid offline-online RL становится перспективным, так как использует комбинацию данных и онлайн-интеракций. Многие реальные ситуации, однако, позволяют использовать несколько симуляторов различных уровней точности и разных затрат. В данной работе рассматривается multi-fidelity hybrid RL для политики оптимизации в условиях заданного бюджета для вычислений. #### Метод Мы предлагаем multi-fidelity hybrid RL via information gain maximization (MF-HRL-IGM) — алгоритм, который выбирает уровень точности симулятора на основе максимизации информационного прироста (information gain) с использованием метода bootstrapping. Он позволяет снизить вычислительные затраты, оптимизируя выбор моделей. Для теоретической обоснования алгоритма используется анализ риска регрета (no-regret), который подтверждает эффективность MF-HRL-IGM. Этот подход оптимизирует выбор симуляторов, используя лучшие модели для принятия решений. #### Результаты В экспериментах использовался набор данных из сценариев с различными уровнями точности симуляторов. Были проведены сравнения с традиционными offline RL и hybrid RL-алгоритмами. Результаты показали, что MF-HRL-IGM демонстрирует высокую эффективность в условиях ограниченных вычислительных ресурсов. Алгоритм показал лучшую точность решений и экономичность в сравнении с другими методами, особенно при ограниченных возможностях вычислений. #### Значимость Предлагаемый подход может быть применен в различных областях, где требуется оптимизация политики в условиях ресурсозатратных моделей. Например, в системах управления роботами, моделировании транспортных систем и других системных решений, где требуется быстрое принятие решений с ограниченными ресурсами. Основное преимущество MF-HRL-IGM заключается в том, что он уменьшает затраты на вычисления без потери качества решений. Это может иметь значительное влияние на развитие интеллектуальных систем, где эффективность решения задач и ресурсосбережение играют ключевую роль. #### Выводы MF-HRL-IGM доказал свою эффективность в области multi-fidelity hybrid RL, оптимизируя выбор уровня точности симулятора и уменьшая затраты. Его могут использовать для решения задач в различных областях, где требуется оптимизация вычислительных ресурсов. Будущие иссле

Abstract

Optimizing a reinforcement learning (RL) policy typically requires extensive interactions with a high-fidelity simulator of the environment, which are often costly or impractical. Offline RL addresses this problem by allowing training from pre-collected data, but its effectiveness is strongly constrained by the size and quality of the dataset. Hybrid offline-online RL leverages both offline data and interactions with a single simulator of the environment. In many real-world scenarios, however, multiple simulators with varying levels of fidelity and computational cost are available. In this work, we study multi-fidelity hybrid RL for policy optimization under a fixed cost budget. We introduce multi-fidelity hybrid RL via information gain maximization (MF-HRL-IGM), a hybrid offline-online RL algorithm that implements fidelity selection based on information gain maximization through a bootstrapping approach. Theoretical analysis establishes the no-regret property of MF-HRL-IGM, while empirical evaluations demonstrate its superior performance compared to existing benchmarks.

Ссылки и действия