Online reinforcement learning via sparse Gaussian mixture model Q-functions
2509.14585v1
cs.LG, math.OC
2025-09-20
Авторы:
Minh Vu, Konstantinos Slavakis
Резюме на русском
#### Контекст
Область исследования — онлайн-обучение с подкреплением (RL), которое используется для решения задач принятия решений в неизвестных или изменчивых окружениях. Существующие проблемы включают неэффективность в обработке разреженных данных и нехватку интерпретируемости моделей. Мотивация заключается в создании моделей RL, которые обеспечивают сбалансированность между эффективностью, сложностью и аккуратностью решений. Это необходимо для применения в задачах, требующих быстрого адаптации и минимального потребления ресурсов.
#### Метод
Предложенный подход основывается на классе спарсных Гауссовских смесевых моделей Q-функций (S-GMM-QFs). Он расширяет предыдущие исследования, которые обучали GMM-QFs в автономном режиме, добавляя онлайн-схему, поощряющую эксплорирование окружения. Модель спарсивается с помощью параметризации Hadamard, что позволяет контролировать сложность, сохранив выразительность. Архитектура S-GMM-QFs естественно задана на римановой многообразии, что обеспечивает оптимальные апдейты параметров через онлайн-градиентный спуск. Это позволяет модели корректно адаптироваться к новым данным и уменьшать риск переобучения.
#### Результаты
Результаты экспериментов продемонстрировали, что S-GMM-QFs совпадают по эффективности с плотными DeepRL-методами на стандартных бенчмарках, но используют значительно меньше параметров. Это дает уникальную возможность применения в ресурсораспределенных средах. На простых и сложных задачах S-GMM-QFs показали высокую точность и устойчивость даже при минимальном числе параметров, не достигаемой спарсенными DeepRL-методами. Эти результаты подтверждают мощность и эффективность нового подхода.
#### Значимость
Предложенная модель может применяться в различных задачах, требующих быстрого адаптирования к изменяющимся условиям, например, в системах управления, энергетике и игровых системах. Она обладает преимуществами, такими как высокая интерпретируемость, регулируемая сложность и эффективность ресурсов. Ее внедрение может привести к значительным улучшениям в области RL, особенно в условиях ограниченных ресурсов и высоких требований к точности.
#### Выводы
Основным достижением является разработка структурированного и интерпретируемого онлайн-подхода к RL, основанного на S-GMM-QFs. Этот подход доказал свою эффективность на различных задачах и показал высокую устойчивость при минимальном числе параметров. Будущие исследования будут направлены на улучшение скорости обучения, расширение применимости к реальному миру и исследова
Abstract
This paper introduces a structured and interpretable online policy-iteration
framework for reinforcement learning (RL), built around the novel class of
sparse Gaussian mixture model Q-functions (S-GMM-QFs). Extending earlier work
that trained GMM-QFs offline, the proposed framework develops an online scheme
that leverages streaming data to encourage exploration. Model complexity is
regulated through sparsification by Hadamard overparametrization, which
mitigates overfitting while preserving expressiveness. The parameter space of
S-GMM-QFs is naturally endowed with a Riemannian manifold structure, allowing
for principled parameter updates via online gradient descent on a smooth
objective. Numerical tests show that S-GMM-QFs match the performance of dense
deep RL (DeepRL) methods on standard benchmarks while using significantly fewer
parameters, and maintain strong performance even in low-parameter-count regimes
where sparsified DeepRL methods fail to generalize.
Ссылки и действия
Дополнительные ресурсы: