📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Faruk Alpay, Taylan Alpay

## Контекст Распределенные вычисления и машинное обучение приобрели широкое распространение в современных вычислительных системах. Однако одной из основных проблем в этой области является эффективное управление ресурсами, включая сжатие данных для облегчения вычислений и сокращения затрат на обмен данными между узлами. Наиболее популярные подходы к этим задачам — сжатие данных с использованием осиальных алгоритмов или построение коретов (coresets) для точного представления данных с минимальными размерами. Однако существуют серьезные изъяны в существующих подходах. Например, многие алгоритмы требуют случайных генераторов чисел, что может привести к падению производительности в детерминированных системах, или используют априорные знания об экспериментальных условиях, что может вести к неудовлетворительным результатам в нестандартных ситуациях. Эти недостатки способствуют необходимости разработки новых, более оптимальных и гибких методов построения коретов. ## Метод Мы предлагаем новую методологию построения коретов для решения задачи эмпирического минимизации риска (ERM), которая основывается на адаптивном удалении точек с наименьшими оценками чувствительности (Adaptive Sensitivity Trimming, ADUWT). Данный подход позволяет удалять точки произвольного размера из исходного набора данных, при этом оставляя оставшиеся точки с данными измерениями, которые обеспечивают точное оптимизационное решение ERM. Мы также предлагаем алгоритм, который позволяет применить один и тот же uniform weight к всем оставшимся точкам, чтобы обеспечить $(1\pm\varepsilon)$-относительное ошибки для ERM. Метод построения коретов гарантирует восстановление всех точек, включенных в корет, без случайных операций, что гарантирует предсказуемость и репродуцируемость. ## Результаты Мы провели эксперименты для оценки эффективности наших подходов на разных задачах машинного обучения, включая линейную регрессию, классификацию и регуляризованную классификацию. Использованные данные в экспериментах были получены с помощью реальных и синтетических данных. Мы проанализировали размер коретов и их точность в сравнении с другими методами. Результаты показали, что наш алгоритм ADUWT превосходит существующие подходы по метрикам точности и размеру коретов, а также позволяет удовлетворительно оптимизировать метрики времени работы. Также мы показали, что наш алгоритм позволяет достичь лучших результатов на синтетических данных, при этом оставаясь эффективным и универсальным в реальных задачах. ## Значимость Предлагаемый подход имеет широкое применение в области машинного обучения, где необходимо эффективно управлять ресурсами, такими как память и вычисли
Annotation:
We develop a rigorous framework for deterministic coreset construction in empirical risk minimization (ERM). Our central contribution is the Adaptive Deterministic Uniform-Weight Trimming (ADUWT) algorithm, which constructs a coreset by excising points with the lowest sensitivity bounds and applying a data-dependent uniform weight to the remainder. The method yields a uniform $(1\pm\varepsilon)$ relative-error approximation for the ERM objective over the entire hypothesis space. We provide compl...
ID: 2508.18340v1 stat.ML, cs.LG, 62J02, 68T05, I.2.6; G.3