Bandits roaming Hilbert space
2509.24569v1
quant-ph, cs.AI, cs.LG, stat.ML
2025-10-01
Авторы:
Josep Lumbreras
Резюме на русском
## Контекст
Изучение торговли с большим числом параметров (multi-armed bandits) широко распространено в машинном обучении и применяется для решения задач, где необходимо балансировать исследование (exploration) и использование накопленной информации (exploitation). В этой работе автор рассматривает применение многоруких бандитов для изучения свойств квантовых состояний с помощью онлайн-методов. Он отмечает, что существующие подходы к изучению квантовых состояний часто требуют большого количества измерений, что может повлечь деструктивное воздействие на состояние. Идея заключается в использовании многоруких бандитов для оптимизации измерений и сокращения количества необходимых измерений для получения точных оценок свойств квантовых состояний.
## Метод
Работа опирается на методику многоруких бандитов с оптимизацией значений ожидания. Автор использует методы, основанные на оптимистической логике, которые позволяют контролировать значения ожидания в основе выбора действий. Он разрабатывает алгоритмы, которые используют оптимистическую инициализацию для уменьшения регрета (суммарного отличия между текущим результатом и максимально возможным). Этот подход используется для переформулировки задачи томографии квантовых состояний и для оптимизации измерения в рамках теории информации.
## Результаты
Автор проверяет свой подход на различных ситуациях: для изучения чистого квантового состояния, для рекомендательных систем квантовых систем, а также для извлечения работы из квантовых состояний. В качестве теста используются различные структуры данных, включая дискретные и непрерывные диапазоны. Он показывает, что регрет масштабируется как квадратный корень от числа итераций, что демонстрирует эффективность подхода. Более того, применение этого подхода к томографии квантовых состояний позволяет эффективно измерять состояние с минимальным воздействием на него.
## Значимость
Предложенный подход может быть применен в оптимизации измерений в квантовой томографии, эффективном извлечении работы из квантовых состояний и в построении рекомендательных систем квантовых систем. Он обеспечивает эффективное уменьшение числа измерений, что критически важно для квантовых систем, где каждое измерение может повредить состояние. Этот подход также может иметь широкое применение в области машинного обучения, где необходимо балансировать исследование и использование накопленной информации.
## Выводы
Работа показывает, что многорукие бандиты могут эффективно применяться для изучения квантовых состояний, уменьшая количество измерений и оптимизируя получение информации. Будущие исследования могут сосредоточиться на расширении этого
Abstract
This thesis studies the exploration and exploitation trade-off in online
learning of properties of quantum states using multi-armed bandits. Given
streaming access to an unknown quantum state, in each round we select an
observable from a set of actions to maximize its expectation value. Using past
information, we refine actions to minimize regret; the cumulative gap between
current reward and the maximum possible. We derive information-theoretic lower
bounds and optimal strategies with matching upper bounds, showing regret
typically scales as the square root of rounds. As an application, we reframe
quantum state tomography to both learn the state efficiently and minimize
measurement disturbance. For pure states and continuous actions, we achieve
polylogarithmic regret using a sample-optimal algorithm based on a weighted
online least squares estimator. The algorithm relies on the optimistic
principle and controls the eigenvalues of the design matrix. We also apply our
framework to quantum recommender systems and thermodynamic work extraction from
unknown states. In this last setting, our results demonstrate an exponential
advantage in work dissipation over tomography-based protocols.