Is data-efficient learning feasible with quantum models?

2508.19437v1 quant-ph, cs.LG 2025-08-30
Авторы:

Alona Sakhnenko, Christian B. Mendl, Jeanette M. Lorenz

Резюме на русском

## Контекст В последние годы интерес к использованию квантовых моделей в машинном обучении (QML) вырос ввиду потенциала этих моделей улучшить производительность и эффективность обработки данных. Однако существуют значительные недостатки в понимании того, как квантовые модели справляются с различными характеристиками данных. Особенно актуальным становится вопрос о том, могут ли квантовые модели демонстрировать преимущества в обучении с ограниченным объемом данных по сравнению с классическими. Этот вопрос имеет практическое значение для определения того, какие типы задач могут быть более подходящими для квантовых моделей. Несмотря на растущий интерес к этим вопросам, не существует согласованной методологии для оценки характеристик данных в контексте QML. В данной работе мы сосредоточились на размере данных как на основном показателе их сложности и исследовали возможность QML-моделей, особенно quantum kernel methods (QKMs), демонстрировать лучшую data-efficiency по сравнению с классическими методами. ## Метод Мы предложили метод для генерации семи-искусственных, полностью классических наборов данных, который позволяет изменять их свойства, такие как размер, связность и другие. Этот подход расширяет квантовые модели, позволяя проводить эксперименты на реально выглядящих, но в то же время управляемых наборах данных. Мы использовали QKMs, которые основываются на гипотезе о том, что квантовый спектр данных может обеспечить более эффективное обучение в сравнении с классическими моделями. Для оценки производительности QKMs в сравнении с классическими алгоритмами, такими как Support Vector Machines (SVMs), мы использовали метрики обучения и ошибки, чтобы измерить эффективность обучения на наших сгенерированных наборах данных. ## Результаты Наши эксперименты показали, что квантовые модели могут демонстрировать преимущества в обучении с ограниченным объемом данных, но только при определенных условиях связанных с самими данными. Мы изучили преимущества детально и показали, что QKMs могут достичь низких ошибочных рейтингов с меньшим объемом тренировочных данных по сравнению с классическими SVM-моделями. Наш аналитический инструмент, основанный на классических методах, позволил предсказать эту эффективность и показал великая аналогия с реальными экспериментами. Этот подход позволил нам заполнить прежний "gap" в понимании, какие характеристики данных могут быть более подходящими для QML. ## Значимость Наша работа открывает новые перспективы для исследования сложности данных в QML. Мы показали, что QKMs могут быть эффективными на небольших наборах данных, но только в том случае, когда данные обладаю

Abstract

The importance of analyzing nontrivial datasets when testing quantum machine learning (QML) models is becoming increasingly prominent in literature, yet a cohesive framework for understanding dataset characteristics remains elusive. In this work, we concentrate on the size of the dataset as an indicator of its complexity and explores the potential for QML models to demonstrate superior data-efficiency compared to classical models, particularly through the lens of quantum kernel methods (QKMs). We provide a method for generating semi-artificial fully classical datasets, on which we show one of the first evidence of the existence of classical datasets where QKMs require less data during training. Additionally, our study introduces a new analytical tool to the QML domain, derived for classical kernel methods, which can be aimed at investigating the classical-quantum gap. Our empirical results reveal that QKMs can achieve low error rates with less training data compared to classical counterparts. Furthermore, our method allows for the generation of datasets with varying properties, facilitating further investigation into the characteristics of real-world datasets that may be particularly advantageous for QKMs. We also show that the predicted performance from the analytical tool we propose - a generalization metric from classical domain - show great alignment empirical evidence, which fills the gap previously existing in the field. We pave a way to a comprehensive exploration of dataset complexities, providing insights into how these complexities influence QML performance relative to traditional methods. This research contributes to a deeper understanding of the generalization benefits of QKM models and potentially a broader family of QML models, setting the stage for future advancements in the field.

Ссылки и действия