Stackelberg Coupling of Online Representation Learning and Reinforcement Learning

2508.07452v1 cs.LG, cs.AI 2025-08-13
Авторы:

Fernando Martinez, Tao Li, Yingdong Lu, Juntao Chen

Резюме на русском

## Контекст Область применения глубокого обучения, особенно в сфере глубокого обучения с подкреплением (deep reinforcement learning, RL), стала одной из самых динамичных и востребованных направлений в ИИ. Одна из сложностей в RL заключается в том, чтобы эффективно выучить функции представления (representation learning), которые позволяют оптимизировать поведение агента в сложных средах. Эта задача становится еще сложнее при недостатке сигналов отклика (sparse reward signal). Несмотря на успехы внедрения сложных дополнительных методов (auxiliary objectives) или полного разделения (decoupling) процессов представления и управления, эти подходы требуют дополнительных ресурсов и усложняют архитектуру. В настоящей работе предлагается новый подход, который структурирует взаимодействие между сетями представления и управления с помощью игровой динамики в стиле Stackelberg. ## Метод Предлагаемая модель, Stackelberg Coupled Representation and Reinforcement Learning (SCORER), основывается на принципах игры Stackelberg, где один из агентов (leader) стратегически выбирает представления, которые повышают эффективность действий второго агента (follower). Формализм заключается в том, что leader-сеть стремится минимизировать ошибку Bellman для follower-сети. Для поиска равновесия в игре используется алгоритм двух уровней (two-timescale algorithm). Это позволяет приближаться к оптимальному равновесию лидера и последователя. Метод может быть запущен на различных стандартных архитектурах, таких как DQN, и не требует дополнительных сложных архитектур или целей. ## Результаты Проведенные эксперименты показывают, что SCORER улучшает обучаемость (sample efficiency) и достигает высокой последней производительности (final performance) на бенчмарк-задачах, в том числе Atari-2600 и других. В сравнении с традиционными подходами, которые используют дополнительные цели или разделение представления и управления, SCORER показывает значительное улучшение с точки зрения эффективности и простоты реализации. Это подтверждает, что новый формализм динамики взаимодействия может быть более эффективен, чем сложные архитектуры или добавление дополнительных целей. ## Значимость Предлагаемый подход может быть применен в различных задачах глубокого обучения с подкреплением, где важно эффективно обучать функции представления и управления. Это может быть полезно в таких сферах, как игровые решения, моделирование систем, исследования робототехники и другие задачи, где требуется высокая эффективность и сложность решений. Одним из основных преимуществ является то, что данный подход уменьшает сложность и при этом повышает производительность. ## Выводы Предложенная модель SCORER демонстрирует, что можно совершенствовать RL-алгоритмы, не прибегая к добавлению сложных дополнительных

Abstract

Integrated, end-to-end learning of representations and policies remains a cornerstone of deep reinforcement learning (RL). However, to address the challenge of learning effective features from a sparse reward signal, recent trends have shifted towards adding complex auxiliary objectives or fully decoupling the two processes, often at the cost of increased design complexity. This work proposes an alternative to both decoupling and naive end-to-end learning, arguing that performance can be significantly improved by structuring the interaction between distinct perception and control networks with a principled, game-theoretic dynamic. We formalize this dynamic by introducing the Stackelberg Coupled Representation and Reinforcement Learning (SCORER) framework, which models the interaction between perception and control as a Stackelberg game. The perception network (leader) strategically learns features to benefit the control network (follower), whose own objective is to minimize its Bellman error. We approximate the game's equilibrium with a practical two-timescale algorithm. Applied to standard DQN variants on benchmark tasks, SCORER improves sample efficiency and final performance. Our results show that performance gains can be achieved through principled algorithmic design of the perception-control dynamic, without requiring complex auxiliary objectives or architectures.

Ссылки и действия