Deterministic Coreset Construction via Adaptive Sensitivity Trimming

2508.18340v1 stat.ML, cs.LG, 62J02, 68T05, I.2.6; G.3 2025-08-28
Авторы:

Faruk Alpay, Taylan Alpay

Резюме на русском

## Контекст Распределенные вычисления и машинное обучение приобрели широкое распространение в современных вычислительных системах. Однако одной из основных проблем в этой области является эффективное управление ресурсами, включая сжатие данных для облегчения вычислений и сокращения затрат на обмен данными между узлами. Наиболее популярные подходы к этим задачам — сжатие данных с использованием осиальных алгоритмов или построение коретов (coresets) для точного представления данных с минимальными размерами. Однако существуют серьезные изъяны в существующих подходах. Например, многие алгоритмы требуют случайных генераторов чисел, что может привести к падению производительности в детерминированных системах, или используют априорные знания об экспериментальных условиях, что может вести к неудовлетворительным результатам в нестандартных ситуациях. Эти недостатки способствуют необходимости разработки новых, более оптимальных и гибких методов построения коретов. ## Метод Мы предлагаем новую методологию построения коретов для решения задачи эмпирического минимизации риска (ERM), которая основывается на адаптивном удалении точек с наименьшими оценками чувствительности (Adaptive Sensitivity Trimming, ADUWT). Данный подход позволяет удалять точки произвольного размера из исходного набора данных, при этом оставляя оставшиеся точки с данными измерениями, которые обеспечивают точное оптимизационное решение ERM. Мы также предлагаем алгоритм, который позволяет применить один и тот же uniform weight к всем оставшимся точкам, чтобы обеспечить $(1\pm\varepsilon)$-относительное ошибки для ERM. Метод построения коретов гарантирует восстановление всех точек, включенных в корет, без случайных операций, что гарантирует предсказуемость и репродуцируемость. ## Результаты Мы провели эксперименты для оценки эффективности наших подходов на разных задачах машинного обучения, включая линейную регрессию, классификацию и регуляризованную классификацию. Использованные данные в экспериментах были получены с помощью реальных и синтетических данных. Мы проанализировали размер коретов и их точность в сравнении с другими методами. Результаты показали, что наш алгоритм ADUWT превосходит существующие подходы по метрикам точности и размеру коретов, а также позволяет удовлетворительно оптимизировать метрики времени работы. Также мы показали, что наш алгоритм позволяет достичь лучших результатов на синтетических данных, при этом оставаясь эффективным и универсальным в реальных задачах. ## Значимость Предлагаемый подход имеет широкое применение в области машинного обучения, где необходимо эффективно управлять ресурсами, такими как память и вычисли

Abstract

We develop a rigorous framework for deterministic coreset construction in empirical risk minimization (ERM). Our central contribution is the Adaptive Deterministic Uniform-Weight Trimming (ADUWT) algorithm, which constructs a coreset by excising points with the lowest sensitivity bounds and applying a data-dependent uniform weight to the remainder. The method yields a uniform $(1\pm\varepsilon)$ relative-error approximation for the ERM objective over the entire hypothesis space. We provide complete analysis, including (i) a minimax characterization proving the optimality of the adaptive weight, (ii) an instance-dependent size analysis in terms of a \emph{Sensitivity Heterogeneity Index}, and (iii) tractable sensitivity oracles for kernel ridge regression, regularized logistic regression, and linear SVM. Reproducibility is supported by precise pseudocode for the algorithm, sensitivity oracles, and evaluation pipeline. Empirical results align with the theory. We conclude with open problems on instance-optimal oracles, deterministic streaming, and fairness-constrained ERM.

Ссылки и действия