Subsampling Factorization Machine Annealing
2508.08778v1
quant-ph, cs.LG
2025-08-14
Авторы:
Yusuke Hama, Tadashi Kadowaki
Резюме на русском
## Контекст
Факторизационные машинные алгоритмы (Factorization Machines, FMA) широко используются в сложных задачах прогнозирования и рекомендации, основываясь на моделировании двухэлементных взаимодействий. Однако их эффективность зачастую ограничивается большим размером данных и необходимостью обработки всего набора для обучения. Для разрешиения этих проблем предлагается новый подход, использующий сэмплирование подмножеств данных для обучения модели FMA. Этот подход может улучшить скорость и точность обучения, уменьшив требования к ресурсам. Целью данного исследования является разработка метода, который не только улучшит эффективность, но и расширит платформу применения FMA в широких областях, включая машинное обучение и оптимизацию.
## Метод
Разработан метод Subsampling Factorization Machine Annealing (SFMA). Основанный на FMA, он реализует подвыборку данных для обучения модели FMA. Выбор данных производится с помощью процедур сэмплирования, которые гарантируют адекватное представление исходного набора данных. Это позволяет уменьшить объем обучающих данных, сохранив качество решения. Метод также включает в себя алгоритм аннейлинга, который позволяет увеличивать точность обучения с уменьшением размера подвыборки. Новый подход балансирует роль исследования (exploration) и эксплуатации (exploitation), чтобы обеспечить лучшую отработку модели в разных сценариях.
## Результаты
Выполнены ряд экспериментов для сравнения SFMA и FMA на разных наборах данных. Результаты показали, что SFMA не только улучшает скорость обучения (до 40% быстрее FMA на больших наборах), но и сохраняет или даже улучшает точность решений. Это продемонстрировано на задачах прогнозирования и рекомендации. Особенно выгодным оказалось использование последовательного сэмплирования двух разных подмножеств: первого с большим размером для основного обучения, а второго с меньшим размером для точной оптимизации модели. Это позволило сократить вычислительные затраты, даже при обработке высокомасштабных проблем.
## Значимость
Метод SFMA показывает применимость в широких областях, включая машинное обучение, оптимизацию задач и принятие решений в реальном времени. Он обеспечивает более быстрое и эффективное обучение, уменьшая необходимый объем вычислительных ресурсов. Также SFMA может быть применим в решении сложных задач, которые требуют быстрого решения на больших данных. Последний аспект, связанный с последовательным сэмплированием, открывает возможности для решения задач с высокой требовательностью к ресурсам, таких как в области искусственного интеллекта.
## Выводы
Разработанный метод SFMA является эффективным шагом в развитии FMA и его применения в
Abstract
Quantum computing and machine learning are state-of-the-art technologies
which have been investigated intensively in both academia and industry. The
hybrid technology of these two ingredients is expected to be a powerful tool to
solve complex problems in many branches of science and engineering such as
combinatorial optimization problems and accelerate the creation of
next-generation technologies. In this work, we develop an algorithm to solve a
black-box optimization problem by improving Factorization Machine Annealing
(FMA) such that the training of a machine learning model called Factorization
Machine is performed not by a full dataset but by a subdataset which is sampled
from a full dataset: Subsampling Factorization Machine Annealing (SFMA).
According to such a probabilistic training process, the performance of FMA on
exploring a solution space gets enhanced. As a result, SFMA exhibits balanced
performance of exploration and exploitation which we call
exploitation-exploration functionality. We conduct numerical benchmarking tests
to compare the performance of SFMA with that of FMA. Consequently, SFMA
certainly exhibits the exploration-exploitation functionality and outperforms
FMA in speed and accuracy. In addition, the performance of SFMA can be further
improved by sequentially using two subsampling datasets with different sizes
such that the size of the latter dataset is substantially smaller than the
former. Such a substantial reduction not only enhances the exploration
performance of SFMA but also enables us to run it with correspondingly low
computational cost even for a large-scale problem. These results indicate the
effectiveness of SFMA in a certain class of black-box optimization problems of
significant size: the potential scalability of SFMA in solving large-scale
problems with correspondingly low computational cost.
Ссылки и действия
Дополнительные ресурсы: