From Classical Data to Quantum Advantage -- Quantum Policy Evaluation on Quantum Hardware

2509.07614v1 quant-ph, cs.AI 2025-09-11

Авторы:

Daniel Hein, Simon Wiedemann, Markus Baumann, Patrik Felbinger, Justin Klein, Maximilian Schieder, Jonas Stein, Daniëlle Schuman, Thomas Cope, Steffen Udluft

Резюме на русском

## Контекст В области искусственного интеллекта и машинного обучения, в том числе в рамках реинфорсментного обучения (RL), возникает необходимость в эффективных алгоритмах для политической оценки, которые могут обрабатывать большие объемы данных и дают более точные результаты. Однако существующие классические методы, такие как Monte Carlo estimation, часто сталкиваются с ограничениями, связанными с ресурсами и производительностью. Quantum Policy Evaluation (QPE) представляет собой подход, основанный на квантовой механике, который может установить квантовый преимущество за счет квадратичного увеличения эффективности в сравнении с классическими методами. Но, до сих пор, выполнение QPE приходилось ограничиваться манипулированием квантовыми параметрами вручную для проведения бенчмарков. Это решение ограничивает широкое применение QPE в реальных ситуациях, где использование квантового аппарата невозможно без автоматического вывода параметров на основе данных. ## Метод В данной работе рассматривается интеграция Quantum Policy Evaluation (QPE) с Quantum Machine Learning (QML) на квантовом железе. Методология включает в себя два основных этапа: (1) обучение квантовой среды, в которой работают агент и окружение в суперпозиции, с помощью квантовой машинного обучения, и (2) применение полученного квантового окружения для выполнения QPE на квантовом оборудовании. Для обучения квантового окружения разработана архитектура, основанная на квантовых сверточных сетях, которая может выводить параметры среды непосредственно из классических наблюдательных данных. Это позволяет достичь более точного и эффективного определения квантовой среды, необходимого для QPE. ## Результаты Использовав квантовый симулятор для моделирования квантовой среды и квантового железа для расчетов, проведены эксперименты, которые показали возможность выполнения существенно более эффективной политической оценки с использованием QPE на квантовом железе. Данные, использованные в экспериментах, были получены из классических ситуаций RL, а результаты показали, что QML-QPE может достичь более точных оценок по сравнению с классическим подходом Monte Carlo. Несмотря на значительные шумы и короткие периоды когерентности, результаты указывают на возможность достижения квантового преимущества в RL. ## Значимость Полученный подход имеет многочисленные применения в области квантовых вычислений в реальных ситуациях. Основное преимущество QML-QPE заключается в том, что он устраняет необходимость ручного вмешательства при определении квантовых параметров, что делает QPE более сценарий-устойчивым. Потенциальное влияние этого подхода включает увеличение производительности RL-систем, увеличение э

Abstract

Quantum policy evaluation (QPE) is a reinforcement learning (RL) algorithm which is quadratically more efficient than an analogous classical Monte Carlo estimation. It makes use of a direct quantum mechanical realization of a finite Markov decision process, in which the agent and the environment are modeled by unitary operators and exchange states, actions, and rewards in superposition. Previously, the quantum environment has been implemented and parametrized manually for an illustrative benchmark using a quantum simulator. In this paper, we demonstrate how these environment parameters can be learned from a batch of classical observational data through quantum machine learning (QML) on quantum hardware. The learned quantum environment is then applied in QPE to also compute policy evaluations on quantum hardware. Our experiments reveal that, despite challenges such as noise and short coherence times, the integration of QML and QPE shows promising potential for achieving quantum advantage in RL.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

From Classical Data to Quantum Advantage -- Quantum Policy Evaluation on Quantum Hardware

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Adversarial Limits of Quantum Certification: When Eve Defeats Detection

TARA Test-by-Adaptive-Ranks for Quantum Anomaly Detection with Conformal Predict...

Towards Heterogeneous Quantum Federated Learning: Challenges and Solutions

Foundations of Quantum Granular Computing with Effect-Based Granules, Algebraic ...

Escaping Barren Plateaus in Variational Quantum Algorithms Using Negative Learni...

Навигация