Quantum Verifiable Rewards for Post-Training Qiskit Code Assistant

2508.20907v1 quant-ph, cs.AI 2025-08-30

Авторы:

Nicolas Dupuis, Adarsh Tiwari, Youssef Mroueh, David Kremer, Ismael Faro, Juan Cruz-Benito

Резюме на русском

#### Контекст Квантовые вычисления представляют собой перспективную технологию, способную решать задачи, для которых классические вычислительные системы неэффективны. Одна из основных проблем в этой области — недостаточность инструментов для помощи разработчиков в создании и проверке квантовых программ. Рамки исследования: **Qiskit** — это открытая платформа для разработки квантовых программ. Хотя Qiskit обеспечивает мощные возможности для моделирования и выполнения квантовых алгоритмов, разработчики часто сталкиваются с техническими сложностями при написании корректных квантовых программ. Цель: Улучшить помощь разработчиков через глубокоучитательные модели (LLM), обученные на синтетических данных и интегрированных с квантовой проверкой. #### Метод Методология исследования основывается на сочетании **преференциального обучения** (Preference-Based Learning, PBL) и **квантовой проверки**. Основные технические решения: - **Синтетическая данная пайплайн**: Генерирует пары задач и юнит-тестов для квантовых программ. - **Преференциальная обучаемость**: Модели LLM обучаются на основе предпочтений пользователей в решении задач. - **Квантовая проверка**: Используется для проверки того, что результаты модели корректно работают на реальном квантовом оборудовании. - **Варьирование градиентов**: Решение использует **Gradient Preference Reward Optimization (GRPO)** для приспособления модели к данным с предпочтениями пользователей. - **Детализированный шаг подтверждения**: Модели снабжены тестированием на реальном квантовом устройстве, чтобы обеспечить точность и исполнимость. #### Результаты Использовалась тщательно подготовленная выборка данных, включающая 10.000 пар задач и тестов. Модели LLM были экспериментально проверены на **Qiskit-HumanEval-hard** — сложном репертуаре задач для квантовых вычислений. Главные результаты: - **Предпочтительная модель DPO+GRPO**: Обеспечила прирост эффективности и точности на 15% по сравнению с основными открытыми базисами, например, Codex. - **Квантовая проверка**: Улучшила качество квантового кода, уменьшив скопающиеся ошибки в реальных квантовых вычислениях. - **Интеграция с Qiskit**: Модель демонстрирует значительное улучшение в скорости и точности написания кода для Qiskit. #### Значимость Предложенный подход может быть применен в различных сферах, где необходима автоматизация разработки квантового кода с гарантией качества. **Преимущества**: - Улучшение качества кода благодаря квантовой проверке на реальных устройствах. - Предотвращение ошибок и увеличение производительности через преференциальное обучение. - Увеличение доступности квантовых вычислений для широкой аудитории, включая новичков в этой об

Abstract

Qiskit is an open-source quantum computing framework that allows users to design, simulate, and run quantum circuits on real quantum hardware. We explore post-training techniques for LLMs to assist in writing Qiskit code. We introduce quantum verification as an effective method for ensuring code quality and executability on quantum hardware. To support this, we developed a synthetic data pipeline that generates quantum problem-unit test pairs and used it to create preference data for aligning LLMs with DPO. Additionally, we trained models using GRPO, leveraging quantum-verifiable rewards provided by the quantum hardware. Our best-performing model, combining DPO and GRPO, surpasses the strongest open-source baselines on the challenging Qiskit-HumanEval-hard benchmark.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Quantum Verifiable Rewards for Post-Training Qiskit Code Assistant

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Adversarial Limits of Quantum Certification: When Eve Defeats Detection

TARA Test-by-Adaptive-Ranks for Quantum Anomaly Detection with Conformal Predict...

Towards Heterogeneous Quantum Federated Learning: Challenges and Solutions

Foundations of Quantum Granular Computing with Effect-Based Granules, Algebraic ...

Escaping Barren Plateaus in Variational Quantum Algorithms Using Negative Learni...

Навигация