#### Контекст
Данная статья рассматривает проблему ускорения обучения в среде глубокого reinforcement learning (DRL) с использованием метода value function initialization (VFI). VFI позволяет эффективно использовать знания, полученные на предыдущих задачах, для быстрого старта в новых задачах. Это подходят для статических табулярных задач, но в DRL, где пространство действий и состояний является непрерывным, использование таких методов становится сложным. Ограничения таких подходов включают трудности с нелинейными нейронными сетями, нестабильностью значений при оценке и невозможность хранения всех предыдущих моделей. Тем не менее, решение этой проблемы может позволить эффективно использовать существующие знания в DRL, ускорив обучение и повысив качество решения задач.
#### Метод
Метод, предложенный в данной статье, называется DQInit. Он предлагает адаптировать VFI для DRL, используя компактные табулярные Q-значения, полученные из предыдущих задач. Внедрение этих значений во время обучения DRL осуществляется через "механизм значимости", который способствует мягкому интегрированию этих знаний в неизученные регионы пространства. Это позволяет избежать проблем, связанных с фиксированной схемой устаревания. DQInit эффективно комбинирует принципы jumpstart RL и policy distillation, используя значения вместо политик или демонстраций. Также он уменьшает влияние шума и неточностей нейронных сетей.
#### Результаты
Для проверки работы метода DQInit проведены эксперименты на нескольких задачах с непрерывным пространством действий. Результаты показывают, что DQInit позволяет сократить время обучения и улучшить качество решений в сравнении с традиционными методами инициализации. Особенно заметное улучшение происходит в случаях, когда новая задача имеет сходство с задачами, решенными ранее. Эксперименты также показали, что DQInit повышает стабильность обучения и уменьшает влияние шума в данных.
#### Значимость
DQInit может быть применен в различных областях, где используется DRL, например, в игровых средах, автоматизированных системах, промышленному управлению и роботизированных системах. Он предоставляет преимущества в виде эффективного обучения, уменьшения времени работы, увеличения устойчивости и повышения качества решений задач. В будущем, DQInit может быть расширен для работы с более сложными задачами и использоваться в сочетании с другими методами RL для достижения еще более высокой производительности.
#### Выводы
Данная работа предоставляет новый подход к значениям инициализации в DRL, используя compact Q-значения из предыдущих задач. Это позволяет эффективно использовать знания, полученные ранее, и ускоряет обучение в новых задачах.