Online reinforcement learning via sparse Gaussian mixture model Q-functions

2509.14585v1 cs.LG, math.OC 2025-09-20

Авторы:

Minh Vu, Konstantinos Slavakis

Резюме на русском

#### Контекст Область исследования — онлайн-обучение с подкреплением (RL), которое используется для решения задач принятия решений в неизвестных или изменчивых окружениях. Существующие проблемы включают неэффективность в обработке разреженных данных и нехватку интерпретируемости моделей. Мотивация заключается в создании моделей RL, которые обеспечивают сбалансированность между эффективностью, сложностью и аккуратностью решений. Это необходимо для применения в задачах, требующих быстрого адаптации и минимального потребления ресурсов. #### Метод Предложенный подход основывается на классе спарсных Гауссовских смесевых моделей Q-функций (S-GMM-QFs). Он расширяет предыдущие исследования, которые обучали GMM-QFs в автономном режиме, добавляя онлайн-схему, поощряющую эксплорирование окружения. Модель спарсивается с помощью параметризации Hadamard, что позволяет контролировать сложность, сохранив выразительность. Архитектура S-GMM-QFs естественно задана на римановой многообразии, что обеспечивает оптимальные апдейты параметров через онлайн-градиентный спуск. Это позволяет модели корректно адаптироваться к новым данным и уменьшать риск переобучения. #### Результаты Результаты экспериментов продемонстрировали, что S-GMM-QFs совпадают по эффективности с плотными DeepRL-методами на стандартных бенчмарках, но используют значительно меньше параметров. Это дает уникальную возможность применения в ресурсораспределенных средах. На простых и сложных задачах S-GMM-QFs показали высокую точность и устойчивость даже при минимальном числе параметров, не достигаемой спарсенными DeepRL-методами. Эти результаты подтверждают мощность и эффективность нового подхода. #### Значимость Предложенная модель может применяться в различных задачах, требующих быстрого адаптирования к изменяющимся условиям, например, в системах управления, энергетике и игровых системах. Она обладает преимуществами, такими как высокая интерпретируемость, регулируемая сложность и эффективность ресурсов. Ее внедрение может привести к значительным улучшениям в области RL, особенно в условиях ограниченных ресурсов и высоких требований к точности. #### Выводы Основным достижением является разработка структурированного и интерпретируемого онлайн-подхода к RL, основанного на S-GMM-QFs. Этот подход доказал свою эффективность на различных задачах и показал высокую устойчивость при минимальном числе параметров. Будущие исследования будут направлены на улучшение скорости обучения, расширение применимости к реальному миру и исследова

Abstract

This paper introduces a structured and interpretable online policy-iteration framework for reinforcement learning (RL), built around the novel class of sparse Gaussian mixture model Q-functions (S-GMM-QFs). Extending earlier work that trained GMM-QFs offline, the proposed framework develops an online scheme that leverages streaming data to encourage exploration. Model complexity is regulated through sparsification by Hadamard overparametrization, which mitigates overfitting while preserving expressiveness. The parameter space of S-GMM-QFs is naturally endowed with a Riemannian manifold structure, allowing for principled parameter updates via online gradient descent on a smooth objective. Numerical tests show that S-GMM-QFs match the performance of dense deep RL (DeepRL) methods on standard benchmarks while using significantly fewer parameters, and maintain strong performance even in low-parameter-count regimes where sparsified DeepRL methods fail to generalize.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Online reinforcement learning via sparse Gaussian mixture model Q-functions

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Convergence for Discrete Parameter Updates

The Geometry of Intelligence: Deterministic Functional Topology as a Foundation ...

Beyond Scaffold: A Unified Spatio-Temporal Gradient Tracking Method

Risk-Sensitive Q-Learning in Continuous Time with Application to Dynamic Portfol...

ARM-Explainer -- Explaining and improving graph neural network predictions for t...

Навигация