Value Function Initialization for Knowledge Transfer and Jump-start in Deep Reinforcement Learning

2508.09277v1 cs.AI, cs.LG, cs.LO 2025-08-15
Авторы:

Soumia Mehimeh

Резюме на русском

#### Контекст Данная статья рассматривает проблему ускорения обучения в среде глубокого reinforcement learning (DRL) с использованием метода value function initialization (VFI). VFI позволяет эффективно использовать знания, полученные на предыдущих задачах, для быстрого старта в новых задачах. Это подходят для статических табулярных задач, но в DRL, где пространство действий и состояний является непрерывным, использование таких методов становится сложным. Ограничения таких подходов включают трудности с нелинейными нейронными сетями, нестабильностью значений при оценке и невозможность хранения всех предыдущих моделей. Тем не менее, решение этой проблемы может позволить эффективно использовать существующие знания в DRL, ускорив обучение и повысив качество решения задач. #### Метод Метод, предложенный в данной статье, называется DQInit. Он предлагает адаптировать VFI для DRL, используя компактные табулярные Q-значения, полученные из предыдущих задач. Внедрение этих значений во время обучения DRL осуществляется через "механизм значимости", который способствует мягкому интегрированию этих знаний в неизученные регионы пространства. Это позволяет избежать проблем, связанных с фиксированной схемой устаревания. DQInit эффективно комбинирует принципы jumpstart RL и policy distillation, используя значения вместо политик или демонстраций. Также он уменьшает влияние шума и неточностей нейронных сетей. #### Результаты Для проверки работы метода DQInit проведены эксперименты на нескольких задачах с непрерывным пространством действий. Результаты показывают, что DQInit позволяет сократить время обучения и улучшить качество решений в сравнении с традиционными методами инициализации. Особенно заметное улучшение происходит в случаях, когда новая задача имеет сходство с задачами, решенными ранее. Эксперименты также показали, что DQInit повышает стабильность обучения и уменьшает влияние шума в данных. #### Значимость DQInit может быть применен в различных областях, где используется DRL, например, в игровых средах, автоматизированных системах, промышленному управлению и роботизированных системах. Он предоставляет преимущества в виде эффективного обучения, уменьшения времени работы, увеличения устойчивости и повышения качества решений задач. В будущем, DQInit может быть расширен для работы с более сложными задачами и использоваться в сочетании с другими методами RL для достижения еще более высокой производительности. #### Выводы Данная работа предоставляет новый подход к значениям инициализации в DRL, используя compact Q-значения из предыдущих задач. Это позволяет эффективно использовать знания, полученные ранее, и ускоряет обучение в новых задачах.

Abstract

Value function initialization (VFI) is an effective way to achieve a jumpstart in reinforcement learning (RL) by leveraging value estimates from prior tasks. While this approach is well established in tabular settings, extending it to deep reinforcement learning (DRL) poses challenges due to the continuous nature of the state-action space, the noisy approximations of neural networks, and the impracticality of storing all past models for reuse. In this work, we address these challenges and introduce DQInit, a method that adapts value function initialization to DRL. DQInit reuses compact tabular Q-values extracted from previously solved tasks as a transferable knowledge base. It employs a knownness-based mechanism to softly integrate these transferred values into underexplored regions and gradually shift toward the agent's learned estimates, avoiding the limitations of fixed time decay. Our approach offers a novel perspective on knowledge transfer in DRL by relying solely on value estimates rather than policies or demonstrations, effectively combining the strengths of jumpstart RL and policy distillation while mitigating their drawbacks. Experiments across multiple continuous control tasks demonstrate that DQInit consistently improves early learning efficiency, stability, and overall performance compared to standard initialization and existing transfer techniques.

Ссылки и действия

Связанные статьи

Efficient & Correct Predictive Equivalence for Decision Trees

## Контекст Область исследования, связанная с разработкой и анализом моделей деревьев решений (decision trees, DT), широ...

2025-09-26

Efficient & Correct Predictive Equivalence for Decision Trees

## Контекст Одной из актуальных проблем в области машинного обучения является анализ и эффективное использование моделе...

2025-09-24

Autonomous Code Evolution Meets NP-Completeness

willingness to pay for a utility bill in the form of cryptocurrencies. --- ## Контекст В последние годы системы управ...

2025-09-11

SATQuest: A Verifier for Logical Reasoning Evaluation and Reinforcement Fine-Tun...

## Контекст Настоящие построители суть вопроса (LLMs) показали впечатляющие возможности в области общего логического рас...

2025-09-05

P2C: Path to Counterfactuals

## Контекст Машинное обучение вступает важное значение в решении решений в высокорисковых сферах, таких как финансы, пра...

2025-08-29