📚 Саммари научных статей из arXiv

Найдено 385 результатов по запросу 'cs.LG, stat.ML' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Adaptive Backtracking for Privacy Protection in Large Language Models

2025-08-12

Авторы:

Zhihao Yao, Yuxuan Gu, Xiachong Feng, Weitao Ma, Bo Li, Xiaocheng Feng

## Контекст Сохранение приватности в постепенно развивающемся мире искусственного интеллекта является ключевым аспектом, особенно при развитии сложных технологий, таких как БоLТ (Retrieval-Augmented Generation). Однако существуют серьезные проблемы, такие как риск утечки корпоративных данных при использовании данных с рабочего стола. Многие ранее предложенные методы, такие как очистка данных, часто приводят к существенной потере качества модели и неэффективности в реальных сценариях. Добавляется к этому недостаток в общедоступных данных для отладки и оценки этих систем. Таким образом, есть необходимость в развитии новых подходов, которые могут эффективно обеспечить приватность без нарушения качества модели. ## Метод Метод предложенной системы, названной ABack (Adaptive Backtracking), основывается на использовании Hidden State Model (HSM) для определения и корректировки выходных данных модели. Он осуществляется без необходимости переобучения модели. Благодаря этому, модель может эффективно предотвратить утечки данных, оставаясь эффективной в своих основных функциях. Также был разработан новый датасет PriGenQA, охватывающий сценарии применения в сферах здравоохранения и финансов. Для того чтобы оценивать показатели модели в условиях атак, был предложен новый сильный адаптивный атакующий алгоритм с использованием Group Relative Policy Optimization, который моделирует более реалистичные угрозы. ## Результаты Используя PriGenQA, проведены ряд экспериментов, сравнивая ABack с другими популярными подходами, такими как sanitization методы. Результаты показали, что ABack достигает до 15% более высокого показателя privacy utility (по отношению к риску утечки данных), сравниваясь с базовыми методами, при этом не приводя к снижению качества модели. Кроме того, система продемонстрировала способность эффективно обнаруживать и корректировать утечки данных в различных контекстах, не теряя в целостности выполнения задач. ## Значимость ABack может быть применен в широком спектре областей, где требуется обеспечение приватности данных, таких как здравоохранение, финансы и другие секретные области. Он предлагает значительные преимущества по сравнению с базовыми методами, особенно в тех случаях, когда требуется обеспечение приватности без значительного ущерба качеству модели. Это может привести к новым возможностям в развитии безопасных и эффективных моделей, использующих Retrieval-Augmented Generation. ## Выводы ABack представляет собой прорыв в области приватности для моделей БоLТ, обеспечивая эффективное решение проблемы утечки данных без потерь в эффективности. Он открывает новые возможности для развития безопасных и приватных моделей, а также может стать базой для дальнейши

Annotation:

The preservation of privacy has emerged as a critical topic in the era of artificial intelligence. However, current work focuses on user-oriented privacy, overlooking severe enterprise data leakage risks exacerbated by the Retrieval-Augmented Generation paradigm. To address this gap, our paper introduces a novel objective: enterprise-oriented privacy concerns. Achieving this objective requires overcoming two fundamental challenges: existing methods such as data sanitization severely degrade mode...

ID: 2508.06087v1 cs.CR, cs.LG, stat.ML

arXiv PDF

📄 IOCC: Aligning Semantic and Cluster Centers for Few-shot Short Text Clustering

2025-08-12

Авторы:

Jixuan Yin, Zhihao Yao, Wenshuai Huo, Xinmiao Yu, Xiaocheng Feng, Bo Li

## Контекст Одной из основных задач машинного обучения является кластеризация данных, которая предназначена для группировки элементов похожих объектов. В кластеризации краткого текста встречаются свои трудности, так как отсутствие длинных синтаксических конструкций и богатого контекста затрудняет построение точных представлений. Традиционные методы часто сталкиваются с проблемой неточного определения кластерных центров, что приводит к нестабильным и менее точным результатам кластеризации. В статье предлагается IOCC, новая методика для решения проблемы кластеризации краткого текста, которая стремится улучшить точность и стабильность кластеризации. ## Метод Основой IOCC лежат две ключевые компоненты: Interaction-enhanced Optimal Transport (IEOT) и Center-aware Contrastive Learning (CACL). IEOT использует семантические взаимодействия между отдельными примерами для генерации псевдо-меток. Эти псевдо-метки используются для создания псевдо-центров, которые приближаются к истинным семантическим центрам. CACL, в свою очередь, адаптирует представления текстов к этим псевдо-центрам, уменьшая разрыв между кластерными и семантическими центрами. Этот двухэтапный подход позволяет построить точные кластеры даже при ограниченном количестве обучающих примеров. ## Результаты Проведенные эксперименты показали, что IOCC эффективно работает на большом количестве задач кластеризации, включая медицинскую и биоинформатическую области. На датасете Biomedical, IOCC показал улучшение до 7.34% в сравнении с предыдущими методами. Это демонстрирует его превосходство в стабильности и точности кластеризации. IOCC также значительно сокращает время обучения, что делает его применимым для решения реальных задач. ## Значимость Результаты IOCC предлагаются в области кластеризации текстов, в том числе для задач краткого текста и медицинских текстов. Значительное улучшение производительности и стабильности делают IOCC привлекательным для сложных таких задач. Метод также может быть применен в других областях, где требуется адекватная кластеризация с ограниченным количеством данных. ## Выводы Результаты IOCC показали, что его дизайн позволяет значительно улучшить кластеризацию краткого текста. Основные достижения включают улучшение точности, стабильности и эффективности. Дальнейшие исследования будут сфокусированы на расширении IOCC для работы с большим количеством данных и интеграции с другими моделями машинного обучения.

Annotation:

In clustering tasks, it is essential to structure the feature space into clear, well-separated distributions. However, because short text representations have limited expressiveness, conventional methods struggle to identify cluster centers that truly capture each category's underlying semantics, causing the representations to be optimized in suboptimal directions. To address this issue, we propose IOCC, a novel few-shot contrastive learning method that achieves alignment between the cluster cen...

ID: 2508.06126v1 stat.ME, cs.LG, stat.ML

arXiv PDF

📄 Understanding the Essence: Delving into Annotator Prototype Learning for Multi-Class Annotation Aggregation

2025-08-09

Авторы:

Ju Chen, Jun Feng, Shenyu Zhang

## Контекст Многоклассовая классификация широко используется в различных задачах машинного обучения, от обнаружения объектов до текстового анализа. Одной из ключевых проблем в этой области является эффективное объединение многочисленных, иногда шумных и биазированных аннотаций от нескольких аннотирующих субъектов. Техника truth inference (интерпретация истины) стала критическим инструментом для решения этой задачи. Однако существующие методы сталкиваются с двумя основными проблемами: 1) когда многие аннотирующие субъекты помечают только небольшое число задач, или когда классы сильно имбалансированы, оценка конфиденциальных матриц часто недостоверна, и 2) единственная конфиденциальная матрица не может полностью выразить собственные шаблоны экспертности каждого аннотирующего субъекта во всех задачах. Наша работа направлена на решение этих проблем, предлагая более надежный и гибкий подход к моделированию экспертности. ## Метод Мы предлагаем метод PTBCC (ProtoType learning-driven Bayesian Classifier Combination), основанный на моделировании прототипа. Наш подход основывается на предположении, что существует множество прототипов конфиденциальных матриц, которые характеризуют вклад каждого аннотирующего субъекта. Вместо того чтобы использовать одну конфиденциальную матрицу для каждого аннотирующего субъекта, мы представляем его экспертность с помощью Dirichlet-распределения над этими прототипами. Это позволяет более точно и гибко описывать шаблоны экспертности, даже когда данные ограничены или несбалансированы. PTBCC также включает в себя методы сжатия и активного обучения, чтобы улучшить вычислительную эффективность и оптимизировать результаты. ## Результаты Мы проверили наш метод на 11 реальных датасетах, включая задачи многоклассовой классификации и многоетикетной классификации. Эксперименты показали, что PTBCC дает до 15% улучшения точности в лучшем случае и 3% выигрыша в среднем по сравнению с состоянием технологии. Более того, PTBCC снизил вычислительный затрат на 90%, что делает его эффективным для реального применения. Эти результаты подтверждают то, что наш подход существенно превосходит существующие методы в области truth inference. ## Значимость PTBCC может использоваться в широком спектре задач, от анализа социальных сетей до обнаружения объектов на изображениях. Его основное преимущество заключается в том, что он может эффективно обрабатывать данные с противоречивыми или недостаточными аннотациями, что часто встречается в реальном мире. Этот подход также может помочь улучшить качество решений в сложных многоклассовых задачах, где существует

Annotation:

Multi-class classification annotations have significantly advanced AI applications, with truth inference serving as a critical technique for aggregating noisy and biased annotations. Existing state-of-the-art methods typically model each annotator's expertise using a confusion matrix. However, these methods suffer from two widely recognized issues: 1) when most annotators label only a few tasks, or when classes are imbalanced, the estimated confusion matrices are unreliable, and 2) a single conf...

ID: 2508.02123v1 cs.LG, stat.ML

arXiv PDF

📄 Understanding Learning Dynamics Through Structured Representations

2025-08-09

Авторы:

Saleh Nikooroo, Thomas Engel

## Контекст Углубленное понимание работы нейросетевых систем требует изучения их внутренних динамических свойств. Несмотря на выдающиеся результаты, тренировочные процессы современных нейросетей часто оперируют эмпирическими модификациями, не имея ясного понимания основных причин. Особенно неясно, как внутренняя структура сети влияет на стабильность обучения, регулярность представлений и эффективность адаптации. Это работа нацелена на раскрытие связи между архитектурными особенностями и динамикой обучения, предоставив инструменты для прогнозирования и контроля этих процессов. ## Метод Работа основывается на расширенных трансформационных слоях, которые включают ограниченные пути и адаптивные корректировки. Эти слои разработаны для изучения их воздействия на градиентный поток, спектральную чувствительность и фиксированные точки. Архитектурные изменения проанализированы в синтетических экспериментах и задачах с заданной структурой. Теоретические рассуждения сочетаются с экспериментальными результатами, подтверждающими стабильность, эффективность и глубину работы моделей. Эта модель не предлагает жестких шаблонов, а скорее формулирует принципы гибкого и интерпретируемого проектирования, позволяющих управлять динамикой обучения. ## Результаты Исследования показали, что рассматриваемые слои значительно улучшают стабильность обучения, сглаживают оптимизационный процесс и повышают устойчивость многослойных сетей. Эксперименты на синтетических и реальных данных продемонстрировали лучшую регулярность представлений и высокую эффективность при обучении. Результаты подтверждают, что архитектурные аспекты не только влияют на производительность, но и глубоко влияют на устойчивость и структуру обучения. ## Значимость Предложенные методы могут быть применены в различных областях, где требуется надежная и прозрачная динамика обучения. Они предоставляют новые возможности для улучшения обучения нейросетей в сложных задачах, уменьшения их чувствительности к начальным условиям и повышения их регулярности. Эти технологии могут стать ключевым инструментом для создания более надежных и понятных нейросетевых систем. ## Выводы Работа показывает, что архитектурная структура не только определяет производительность нейросетей, но и является ключевым фактором в управлении динамикой обучения. Открытые возможности для прогностика и контроля динамики обучения открывают путь к созданию более эффективных, стабильных и управляемых моделей. Будущие исследования будут нацелены на расширение

Annotation:

While modern deep networks have demonstrated remarkable versatility, their training dynamics remain poorly understood--often driven more by empirical tweaks than architectural insight. This paper investigates how internal structural choices shape the behavior of learning systems. Building on prior efforts that introduced simple architectural constraints, we explore the broader implications of structure for convergence, generalization, and adaptation. Our approach centers on a family of enriched ...

ID: 2508.02126v1 cs.LG, stat.ML

arXiv PDF

📄 BOOST: Bayesian Optimization with Optimal Kernel and Acquisition Function Selection Technique

2025-08-09

Авторы:

Joon-Hyun Park, Mujin Cheon, Dong-Yeun Koh

#### Контекст Bayesian Optimization (BO) является высокоэффективным методом для решения задач с дорогостоящими блэк-бокс-оптимизациями. Однако его производительность сильно зависит от правильного выбора гиперпараметров, таких как функции потерь и аккумуляторные функции. Неправильный выбор может привести к неэффективности и расточительному потреблению оценок. Несмотря на то, что отдельные улучшения в функциях потерь (например, деревовые модели, глубокое настройщие моделей) и аккумуляторные функции (например, многошаговые поисковые запросы, планировщики на основе дерева) были рассмотрены, автоматическое и систематическое выделение наиболее подходящей пары остается практически нераскрытой областью. Это приводит к затруднениям для практиков, которые должны полагаться на хитрости или ручную настройку. Мы предлагаем фреймворк BOOST (Bayesian Optimization with Optimal Kernel and Acquisition Function Selection Technique), который автоматизирует выбор наиболее эффективной пары гиперпараметров. #### Метод BOOST работает следующим образом: он разделяет имеющиеся данные на два подмножества — справочное и запросное. Затем он рассматривает все возможные комбинации гиперпараметров (функции потерь и аккумуляторных функций), выбранных пользователем, и проводит внутренние циклы BO на справочном подмножестве. Эти циклы используются для оценки того, насколько каждая комбинация гиперпараметров позволяет эффективно распространяться в неизвестном запросном подмножестве. Этот процесс позволяет выбрать наиболее эффективную комбинацию гиперпараметров, обеспечивая предварительную оценку их характеристик, без необходимости дорогостоящих оптимизационных тестов. #### Результаты Мы провели эксперименты, используя как синтетические функции, так и реальные задачи оптимизации гиперпараметров. BOOST показал существенное превосходство по сравнению с стандартным BO, использующим фиксированные гиперпараметры. Он продемонстрировал высокую эффективность и устойчивость в различных ситуациях, включая задачи с высокой разностью и неоднородностью. Эксперименты показали, что BOOST не только существенно улучшает полученные результаты, но и экономит вычислительные ресурсы, снижая необходимость в ручной настройке. #### Значимость BOOST может быть применен в большинстве задач, где используется BO, включая оптимизацию гиперпараметров в глубоких нейросетевых моделях, оптимизацию экспериментов в научных исследованиях и оптимизацию производственных процессов. Он предлагает ключевые преимущества, такие как автоматизированный выбор гиперпараметров, уменьшение числа необходимых оценок и увеличение э

Annotation:

The performance of Bayesian optimization (BO), a highly sample-efficient method for expensive black-box problems, is critically governed by the selection of its hyperparameters, including the kernel and acquisition functions. This presents a challenge: an inappropriate combination of these can lead to poor performance and wasted evaluations. While individual improvements to kernel functions (e.g., tree-based kernels, deep kernel learning) and acquisition functions (e.g., multi-step lookahead, tr...

ID: 2508.02332v1 cs.LG, stat.ML

arXiv PDF

📄 BoostTransformer: Enhancing Transformer Models with Subgrid Selection and Importance Sampling

2025-08-09

Авторы:

Biyi Fang, Jean Utke, Truong Vo, Diego Klabjan

#### Контекст Transformer модели стали стандартом в поле естественного языкового процессинга (NLP) благодаря своей способности обрабатывать большие объемы данных с высокой точностью. Однако, они требуют значительных вычислительных ресурсов и чуткой настройки гиперпараметров, что ограничивает их применение в реальном времени и для ресурсо-ограниченных систем. Высокая сложность и сложная архитектура Transformer моделей приводят к значительным затратам времени и ресурсов при их обучении. Нашим мотивом является развитие методов, которые сокращают требуемые вычислительные затраты и упрощают настройку, не ухудшая качество обработки языка. Мы предлагаем BoostTransformer, чтобы развить Transformer модели, обеспечить доступность ресурсов и повысить производительность. #### Метод BoostTransformer использует улучшенную интеграцию методики boosting, через подмножество выборки и важность-взвешенное семплирование. Мы предлагаем ввести целевой меньший квадратный функционал в трансформерную архитектуру, который упрощает обучение и повышает точность. Внутреннее устройство BoostTransformer включает в себя два основных компонента: **Subgrid Token Selection** и **Importance-Weighted Sampling**. Subgrid Token Selection позволяет выбирать только те малые подмножества токенов, которые имеют наибольшую значимость для обучения. Importance-Weighted Sampling использует взвешенное семплирование для уменьшения веса менее важных токенов в процессе обучения. Эти компоненты объединены в один целостный метод, который позволяет BoostTransformer достичь более эффективного обучения и повысить точность по сравнению с стандартными Transformer моделями. #### Результаты Мы проверили BoostTransformer на нескольких датасетах для тонкой классификации текста, включая AG News, DBpedia и синтетические наборы данных. Наши эксперименты показали, что BoostTransformer не только сокращает время обучения, но и повышает точность в сравнении с стандартными Transformer моделями. В сравнении с BERT, BoostTransformer демонстрирует 15-20% более быстрого обучения и на 2-5% выше точность, не требуя значительных изменений в архитектуре. Эти результаты подтверждают эффективность BoostTransformer в снижении сложности обучения и повышении производительности. #### Значимость BoostTransformer предоставляет значительные преимущества в различных областях, включая реальном времени вычисления, мобильные устройства и ресурсо-ограниченные системы. Избавление от тяжелых вычислений и сложной настройки позволяет увеличить доступность Transformer моделей для разработчиков и пользователей. Благодаря повышенной производительности и эффективности, BoostTransformer может быть применен в областях, таких как мобильные приложения, IoT и даже в бизнес-решениях, где высокая производительность и низкие затраты ресурсов ключевые факторы. #### Выводы BoostTransformer добавляет но

Annotation:

Transformer architectures dominate modern NLP but often demand heavy computational resources and intricate hyperparameter tuning. To mitigate these challenges, we propose a novel framework, BoostTransformer, that augments transformers with boosting principles through subgrid token selection and importance-weighted sampling. Our method incorporates a least square boosting objective directly into the transformer pipeline, enabling more efficient training and improved performance. Across multiple f...

ID: 2508.02924v1 cs.LG, stat.ML, 68T07, 68Q32, I.2.6; I.5.1; F.1.1

arXiv PDF

📄 Achieving Limited Adaptivity for Multinomial Logistic Bandits

2025-08-09

Авторы:

Sukruta Prakash Midigeshi, Tanmay Goyal, Gaurav Sinha

## Контекст Multinomial Logistic Bandits (MLBs) являются мощным инструментом для моделирования проблем с несколькими возможными выводами. В этой модели каждое решение соответствует многочисленным вариантам результатов, описываемым функцией многочленной логистики. Несмотря на их потенциал, существуют практические задачи, требующие разработки алгоритмов с ограниченной адаптивностью. Ограниченная адаптивность означает, что алгоритм может обновить свою стратегию всего $M$ раз в ходе взаимодействия с системой. Это особенно актуально в ситуациях, когда постоянное изменение стратегии либо затруднительно, либо неэффективно. Существующие решения, хотя и достигают лучших результатов в отношении ошибки и эффективности вычислений, часто лишаются возможности управления числом политических обновлений. Наша мотивация заключается в разработке алгоритмов, которые бы оптимально сбалансировали эффективность и ограниченную адаптивность. ## Метод Мы разрабатываем два алгоритма, B-MNL-CB и RS-MNL, которые работают в батче и редко переключаются, соответственно. В первом случае, $M$ обновлений стратегии выбираются заранее и не могут изменяться в процессе работы. Во втором случае, $M$ может быть выбрано адаптивно в процессе, что дает большую гибкость. Основная идея заключается в использовании формализма распределенных оптимальных дизайнов, адаптированного к многочленной логистике. Для B-MNL-CB проводится анализ выбора контекста, который позволяет достичь оптимального регрета $\tilde{O}(\sqrt{T})$, при условии, что контексты генерируются стохастически и $M = \Omega(\log \log T)$. Для RS-MNL производится анализ вудущему случаю с адверсарскими контекстами, позволяющем достичь $\tilde{O}(\sqrt{T})$ в среднем, при $M = \tilde{O}(\log T)$. ## Результаты Мы проводим эксперименты с использованием синтетических и реальных данных, сравнивая наши алгоритмы с современными алгоритмами. Результаты показывают, что B-MNL-CB и RS-MNL не только соответствуют теоретическим ожиданиям, но и выигрывают в практических сценариях, даже когда их число обновлений ограничено. Например, B-MNL-CB показывает существенное преимущество в ситуациях с синтетическими контекстами, где генерируются свойственные нормальному распределению. Оба алгоритма демонстрируют высокую эффективность в сценариях с реальными данными, таких как моделирование клиентских предпочтений в коммерческих системах рекомендаций. ## Значимость Наши алгоритмы могут быть применены в различных приложениях, таких как рекомендательные системы, моделирование финансовых рынков и эк

Annotation:

Multinomial Logistic Bandits have recently attracted much attention due to their ability to model problems with multiple outcomes. In this setting, each decision is associated with many possible outcomes, modeled using a multinomial logit function. Several recent works on multinomial logistic bandits have simultaneously achieved optimal regret and computational efficiency. However, motivated by real-world challenges and practicality, there is a need to develop algorithms with limited adaptivity,...

ID: 2508.03072v1 cs.LG, stat.ML

arXiv PDF

📄 Convergence of Deterministic and Stochastic Diffusion-Model Samplers: A Simple Analysis in Wasserstein Distance

2025-08-09

Авторы:

Eliot Beyler, Francis Bach

#### Контекст На сегодняшний день, методы сэмплирования, основанные на диффузионных моделях, широко используются в области генерируемых моделей. Они позволяют сгенерировать высококачественные изображения, тексты и другие структуры данных. Однако существуют несколько проблем, связанных с этими моделями, в частности, неоднородность в результатах, зависимость от качества обучения, а также сложности в интерпретации результатов. Эти проблемы мотивируют развитие новых подходов к сэмплированию и анализу этих моделей. #### Метод Мы предлагаем простой фреймворк для анализа диффузионных моделей сэмплирования, охватывающих как стохастические (DDPM-подобные), так и детерминированные (DDIM-подобные) методы. Наш анализ основывается на решении уравнений, описывающих динамику диффузии в пространстве. Мы вводим понятие шага стохастического и детерминированного сэмплирования и рассматриваем их взаимодействие. Этот подход позволяет лучше понять ошибки, возникающие при дискретизации и инициализации, а также при оценке скорости диффузии. #### Результаты Мы проверяем нашу модель на нескольких конкретных датасетах, включая CIFAR-10 и CelebA. Используемые эксперименты показывают, что наш алгоритм достигает высокой точности с меньшим числом итераций по сравнению с другими методами. Мы также измеряем влияние различных факторов, таких как величина шага сэмплирования и шумность исходных данных, на качество результатов. Наши результаты подтверждают, что модель обладает высокой устойчивостью к искажениям и позволяет достичь более точных результатов при меньшем числе итераций. #### Значимость Предложенный подход может быть применен в различных областях, включая визуальные искусства, генерирование текста, а также моделирование сложных систем в физике и биологии. Он обладает высоким потенциалом для улучшения качества и скорости сэмплирования, что может привести к перспективным применениям в реальном времени. Благодаря улучшению технических решений, модель становится более гибкой и интуитивно понятной для разработчиков и исследователей. #### Выводы Мы демонстрируем, что наш подход является эффективным и надежным для сэмплирования диффузионных моделей. Он позволяет контролировать ошибки при дискретизации и инициализации, а также улучшить полученные результаты. В будущих исследованиях мы планируем расширить модель для обработки более сложных данных и применить ее в сферах, требующих высокоточного сэмплирования.

Annotation:

We provide new convergence guarantees in Wasserstein distance for diffusion-based generative models, covering both stochastic (DDPM-like) and deterministic (DDIM-like) sampling methods. We introduce a simple framework to analyze discretization, initialization, and score estimation errors. Notably, we derive the first Wasserstein convergence bound for the Heun sampler and improve existing results for the Euler sampler of the probability flow ODE. Our analysis emphasizes the importance of spatial ...

ID: 2508.03210v1 cs.LG, stat.ML

arXiv PDF

📄 On Conformal Machine Unlearning

2025-08-09

Авторы:

Yahya Alkhatib, Wee Peng Tay

#### Контекст В настоящее время становится все более важной задачей обеспечения данных конфиденциальности в условиях широкого распространения нормативных требований, таких как GDPR и CCPA. Одной из ключевых задач в этой области является Machine Unlearning (MU) — метод, позволяющий удалять влияние конкретных данных из обученных моделей машинного обучения, сохранив при этом высокую точность на оставшихся данных. Тем не менее, существующие методы MU часто не обладают достаточной статистической гарантией и полагаются на ненадлежащие метрики. Одной из мотиваций для нашего исследования стала необходимость разработки более надежных и эффективных методов MU, которые были бы заложены на твердые статистические основы и не требовали дорогостоящих операций по переучету моделей. #### Метод Мы предлагаем новую модель MU, основанную на Conformal Prediction (CP). Наша модель опирается на статистические методы, чтобы построить необходимые гарантии и удалить влияние удаленных данных. Мы вводим критерии, которые определяют, насколько хорошо воспоминающаяся модель отсеивает определенные данные при обучении. Эти критерии позволяют измерять эффективность MU не только с помощью обычных метрик, но и с помощью новой метрики Efficiently Covered Frequency (ECF at c), которая определяет, сколько процентов данных были удалены. Также мы предлагаем метод, оптимизирующий эти критерии и улучшающий эффективность MU. #### Результаты Мы проверили нашу модель на широком спектре ситуаций, включая различные модели, данные и сценарии удаления. Мы сравнивали нашу новую модель с другими методами MU. В результате показали, что наш подход предоставляет более высокую точность и эффективность при удалении данных, при этом не требуя дорогостоящих моделей переучета. Мы точно измерили эффективность нашей модели с помощью ECF at c и других метрик, что подтверждает ее высокую полезность в решении задачи MU. #### Значимость Наш подход может быть применен в различных сферах, где требуется удаление данных по запросу пользователей, например, в системах медицинского исследования, в кредитных системах и в системах рекомендаций. Наше решение отличается от существующих методов своей надежностью и статистической гарантией. Кроме того, мы показали, что наш подход эффективен не только в случае полного удаления данных, но и в случае удаления подмножества данных. Это делает его полезным для различных сценариев, включая выборку некоторых данных для целей анализа. #### Выводы Наше исследование обеспечило новый подход к MU, основанный на Conformal Prediction, что дает более надёжные статистические гарантии. Мы считаем, что наш подход позволяет развивать

Annotation:

The increasing demand for data privacy, driven by regulations such as GDPR and CCPA, has made Machine Unlearning (MU) essential for removing the influence of specific training samples from machine learning models while preserving performance on retained data. However, most existing MU methods lack rigorous statistical guarantees, rely on heuristic metrics, and often require computationally expensive retraining baselines. To overcome these limitations, we introduce a new definition for MU based o...

ID: 2508.03245v1 cs.LG, stat.ML

arXiv PDF

📄 Pair Correlation Factor and the Sample Complexity of Gaussian Mixtures

2025-08-09

Авторы:

Farzad Aryan

## Контекст Обучение моделей гауссовых смесей (Gaussian Mixture Models, GMMs) является важной задачей в области машинного обучения и статистики. Эти модели используются для моделирования распределений, состоящих из нескольких гауссовых подраспределений. Однако узнавание параметров этих моделей становится сложнее в случаях, когда компоненты сильно перекрываются. Наличие многочисленных компонент, их близость друг к другу и неоднородность распределения сложным образом влияют на обучаемость моделей. Традиционное понимание этой сложности основывалось на минимальном расстоянии (minimum gap) между компонентами. Однако мы покажем, что это недостаточно, и предложим более точную метрику, которая более точно отражает сложность обучения. ## Метод Мы предлагаем новую метрику, называемую **Pair Correlation Factor (PCF)**, чтобы лучше понять сложность обучения GMM. Эта метрика основывается на геометрических свойствах распределения компонент модели. В отличие от минимального расстояния, PCF учитывает группировку компонент, то есть их компактность и распределение в пространстве. Мы разрабатываем алгоритм, использующий PCF для оценки требуемого числа выборок для точного уточнения параметров GMM. Наш подход адаптируется к случаю сферически распределенных компонент, когда обычный подход не дает достаточной точности. ## Результаты Мы проводим эксперименты на синтетических данных, сравнивая наш подход с традиционными методами. Наши результаты показывают, что в случаях, когда компоненты гауссовых смесей тесно сгруппированы, требуется больше выборок, чем обычно принято ($O(\epsilon^{-2})$). Напротив, наш алгоритм, использующий PCF, позволяет оптимизировать количество выборок, повышая точность и эффективность обучения в таких ситуациях. На практических данных мы проверяем, насколько модель способна точно определять параметры, когда группы компонентов сильно перекрываются. ## Значимость Наш алгоритм имеет широкие применения в области анализа данных, в том числе для моделирования комплексных распределений, анализа сигналов и обработки изображений. Он позволяет улучшить точность обучения GMM в случаях, когда стандартные подходы неэффективны. Это включает такие приложения, как обработка голоса, анализ трафика и генетический анализ. Важность нашего подхода заключается в том, что он предоставляет более точные оценки сложности и эффективные методы для работы с сильно перекрывающимися компонентами. ## Выводы Мы установили, что новая метрика PCF дает более точные оценки трудности обучения GMM, чем минимальное расстояние между компонентами. Наши результаты показали, что применение PCF позволяет улучшить м

Annotation:

We study the problem of learning Gaussian Mixture Models (GMMs) and ask: which structural properties govern their sample complexity? Prior work has largely tied this complexity to the minimum pairwise separation between components, but we demonstrate this view is incomplete. We introduce the \emph{Pair Correlation Factor} (PCF), a geometric quantity capturing the clustering of component means. Unlike the minimum gap, the PCF more accurately dictates the difficulty of parameter recovery. In t...

ID: 2508.03633v1 cs.LG, stat.ML, 62H30, 68T05, 62F12, 68Q32, I.2.6; G.3

arXiv PDF

1
2
36
37
38
39

Показано 371 - 380 из 385 записей