From Classical Data to Quantum Advantage -- Quantum Policy Evaluation on Quantum Hardware
2509.07614v1
quant-ph, cs.AI
2025-09-11
Авторы:
Daniel Hein, Simon Wiedemann, Markus Baumann, Patrik Felbinger, Justin Klein, Maximilian Schieder, Jonas Stein, Daniëlle Schuman, Thomas Cope, Steffen Udluft
Резюме на русском
## Контекст
В области искусственного интеллекта и машинного обучения, в том числе в рамках реинфорсментного обучения (RL), возникает необходимость в эффективных алгоритмах для политической оценки, которые могут обрабатывать большие объемы данных и дают более точные результаты. Однако существующие классические методы, такие как Monte Carlo estimation, часто сталкиваются с ограничениями, связанными с ресурсами и производительностью. Quantum Policy Evaluation (QPE) представляет собой подход, основанный на квантовой механике, который может установить квантовый преимущество за счет квадратичного увеличения эффективности в сравнении с классическими методами. Но, до сих пор, выполнение QPE приходилось ограничиваться манипулированием квантовыми параметрами вручную для проведения бенчмарков. Это решение ограничивает широкое применение QPE в реальных ситуациях, где использование квантового аппарата невозможно без автоматического вывода параметров на основе данных.
## Метод
В данной работе рассматривается интеграция Quantum Policy Evaluation (QPE) с Quantum Machine Learning (QML) на квантовом железе. Методология включает в себя два основных этапа: (1) обучение квантовой среды, в которой работают агент и окружение в суперпозиции, с помощью квантовой машинного обучения, и (2) применение полученного квантового окружения для выполнения QPE на квантовом оборудовании. Для обучения квантового окружения разработана архитектура, основанная на квантовых сверточных сетях, которая может выводить параметры среды непосредственно из классических наблюдательных данных. Это позволяет достичь более точного и эффективного определения квантовой среды, необходимого для QPE.
## Результаты
Использовав квантовый симулятор для моделирования квантовой среды и квантового железа для расчетов, проведены эксперименты, которые показали возможность выполнения существенно более эффективной политической оценки с использованием QPE на квантовом железе. Данные, использованные в экспериментах, были получены из классических ситуаций RL, а результаты показали, что QML-QPE может достичь более точных оценок по сравнению с классическим подходом Monte Carlo. Несмотря на значительные шумы и короткие периоды когерентности, результаты указывают на возможность достижения квантового преимущества в RL.
## Значимость
Полученный подход имеет многочисленные применения в области квантовых вычислений в реальных ситуациях. Основное преимущество QML-QPE заключается в том, что он устраняет необходимость ручного вмешательства при определении квантовых параметров, что делает QPE более сценарий-устойчивым. Потенциальное влияние этого подхода включает увеличение производительности RL-систем, увеличение э
Abstract
Quantum policy evaluation (QPE) is a reinforcement learning (RL) algorithm
which is quadratically more efficient than an analogous classical Monte Carlo
estimation. It makes use of a direct quantum mechanical realization of a finite
Markov decision process, in which the agent and the environment are modeled by
unitary operators and exchange states, actions, and rewards in superposition.
Previously, the quantum environment has been implemented and parametrized
manually for an illustrative benchmark using a quantum simulator. In this
paper, we demonstrate how these environment parameters can be learned from a
batch of classical observational data through quantum machine learning (QML) on
quantum hardware. The learned quantum environment is then applied in QPE to
also compute policy evaluations on quantum hardware. Our experiments reveal
that, despite challenges such as noise and short coherence times, the
integration of QML and QPE shows promising potential for achieving quantum
advantage in RL.
Ссылки и действия
Дополнительные ресурсы: