📚 Саммари научных статей из arXiv

Найдено 564 результатов по запросу 'stat.ML, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Sparse minimum Redundancy Maximum Relevance for feature selection

2025-08-28

Авторы:

Peter Naylor, Benjamin Poignard, Héctor Climente-González, Makoto Yamada

#### Контекст Обработка данных часто связана с использованием огромных наборов признаков, которые могут включать много нерелевантных и взаимосвязанных компонент. Это затрудняет использование многих алгоритмов машинного обучения, так как они могут сталкиваться с проблемами, такими как переобучение и высокая сложность вычислений. Целью многих методов feature selection является определение наиболее важных признаков, уменьшение размера набора данных и улучшение эффективности и точности алгоритмов. Однако, существующие методы часто не учитывают взаимозависимости между признаками или неэффективно используют зависимости с целевой переменной. #### Метод Предлагаемый метод, названный **Sparsified Minimum Redundancy Maximum Relevance (SmRMR)**, является подходом к feature selection, который учитывает как взаимосвязи между признаками, так и взаимосвязь между признаками и целевой переменной. Метод основан на минимуме ряда штрафов, использующих регуляризаторы, не являющиеся конвексивными, для отбора фичей, которые могут быть не значимы. Он использует не только зависимость между признаками (релевантность), но и их независимость от целевой переменной, чтобы идентифицировать "активные" признаки. Алгоритм построен на базе неконвексивного регуляризатора, который позволяет строить модели с меньшим числом признаков, но более точными. #### Результаты Чтобы проверить эффективность метода, проведены эксперименты с использованием синтетических данных и реальных данных, в которых были показаны преимущества SmRMR в сравнении с другими методами, такими как HSIC-LASSO. Данные эксперименты показали, что SmRMR не только способен определять активные признаки, но и уменьшает число ненужных признаков. Метод показал хорошие результаты в ситуациях, когда много признаков являются неактивными, что может повысить точность алгоритмов обучения. Однако, SmRMR более склонен к более консервативному выбору признаков, что в некоторых случаях может быть недостатком. #### Значимость Заявленный метод может быть использован в различных областях, где требуется выборка признаков, таких как биологическая инженерия, текстовый анализ, машинное обучение. Одним из преимуществ является то, что он не требует явного указания числа признаков для сохранения, в отличие от многих других методов. Также он показал хорошую способность идентифицировать неактивные признаки, что может сильно повысить эффективность моделей. Будущие исследования могут быть направлены на усовершенствование метода для обработки более сложных данных, таких как данные с высокой размерностью. #### Выводы Метод SmRMR является эффективным подходом к feature selection, который учитыва

Annotation:

We propose a feature screening method that integrates both feature-feature and feature-target relationships. Inactive features are identified via a penalized minimum Redundancy Maximum Relevance (mRMR) procedure, which is the continuous version of the classic mRMR penalized by a non-convex regularizer, and where the parameters estimated as zero coefficients represent the set of inactive features. We establish the conditions under which zero coefficients are correctly identified to guarantee accu...

ID: 2508.18901v1 stat.ML, cs.LG, stat.ME

arXiv PDF

📄 Echoes of the past: A unified perspective on fading memory and echo states

2025-08-28

Авторы:

Juan-Pablo Ortega, Florian Rossmannek

## Контекст Область исследования связана с рекуррентными нейронными сетями (RNN), которые широко используются для обработки временных рядов и временных данных. Основной свойством RNN является способность формировать надежные входно-выходные ответы, которые зависят от того, как сеть обрабатывает и хранит информацию. Несколько понятий были предложены для описания поведения памяти в RNN, включая стационарные состояния, эхо-состояния, забытость входов и выходов, а также "затухающая память". Несмотря на их популярность, однозначное понимание их взаимосвязей отсутствует. Целью данной работы является установить ясную семантическую связь между этими понятиями, вывести новые результаты и альтернативные доказательства, углубить понимание RNN и их возможностей в обработке временных данных. ## Метод Предложена методология, которая строится на основе анализа формальных определений ключевых понятий, связанных с памятью в RNN. Разработаны математические модели, описывающие поведение системы в различных условиях. Использованы аналитические методы для проверки утверждений и построения новых теорем. Также использованы искусственные нейронные сети, которые позволили проверить гипотезы в тренировочных данных и провести эмпирический анализ. Архитектура исследований основывается на математической теории линейных систем и рекуррентных моделях. ## Результаты Были получены новые теоремы, установившие точные связи между понятиями, такими как эхо-состояния, забытость информации и затухающая память. Данные эксперименты проводились на разных типах временных рядов, и результаты показали, что модели, основанные на этих понятиях, эффективно обрабатывают данные. Показано, что затухающая память является ключевым фактором, обеспечивающим ровное временное распределение входных данных, и что это поведение может быть систематически контролировано в различных сетях. ## Значимость Результаты этого исследования имеют большое значение для развития RNN в таких областях, как прогнозирование временных рядов, автоматическое управление, робототехника и другие задачи, требующие обработки временных данных. Они позволяют лучше понять, как RNN обрабатывают информацию в пространстве времени и улучшить алгоритмы их обучения. Эти открытия могут привести к развитию более эффективных моделей, которые будут иметь применение в областях, таких как финансы, медицина и безопасность. ## Выводы Предложенная работа дает новый взгляд на взаимосвязь понятий, связанных с памятью в RNN, и обеспечивает ясность в их понимании. Она открывает пу

Annotation:

Recurrent neural networks (RNNs) have become increasingly popular in information processing tasks involving time series and temporal data. A fundamental property of RNNs is their ability to create reliable input/output responses, often linked to how the network handles its memory of the information it processed. Various notions have been proposed to conceptualize the behavior of memory in RNNs, including steady states, echo states, state forgetting, input forgetting, and fading memory. Although ...

ID: 2508.19145v1 stat.ML, cs.LG, math.DS, 37N35, 68T05, 93B03

arXiv PDF

📄 GraphPPD: Posterior Predictive Modelling for Graph-Level Inference

2025-08-27

Авторы:

Soumyasundar Pal, Liheng Ma, Amine Natik, Yingxue Zhang, Mark Coates

## Контекст Одной из ключевых задач в области базовых и прикладных исследований является моделирование и квантификация неопределенности в моделях глубокого обучения. Для повышения надежности моделей необходимо гарантировать, что они могут делать безопасные решения при неполных или неоднозначных данных. Информация о неопределенности позволяет пользователю оценить уверенность модели в своих прогнозах. Несмотря на то, что в последние годы графовые нейронные сети (GNN) получили огромный интерес, большинство техник, оценивающих неопределенность, разработаны для узлов или связей, а не для задач на уровне графов. Это создает проблему, так как поиск решений на уровне графа требует более сложной модели неопределенности. В этой статье предлагается новая фреймворм для моделирования постериорного предиктивного распределения (PPD), которая может применяться в задачах на уровне графа. ## Метод Методология предложенного подхода основывается на использовании граф-уровневой репрезентации, полученной из существующих GNN. Наш фреймворк, GraphPPD, позволяет учитывать индивидуальные характеристики каждого графа и учитывать характеристики распределения на уровне графа. Мы используем вариационную модель для того, чтобы установить граф-уровневую репрезентацию. Наша модель генерирует неопределенность в моделировании, учитывая не только статистические характеристики, но и конкретные характеристики каждого графа. Это позволяет получить более точные и индивидуальные предсказания. ## Результаты Мы проверили нашу модель на нескольких бенчмарк-датасетах, включая задачи классификации графов. Мы сравнили нашу модель с другими подходами, которые оценивают неопределенность в GNN. Наши результаты показали, что GraphPPD превосходит другие техники в характеристиках точности и уверенности предсказаний. Были проведены эксперименты для измерения точности неопределенности и сравнения с другими моделями. Эти эксперименты показали, что GraphPPD может достигать более высокого уровня аккуратности в прогнозировании. ## Значимость Модель GraphPPD может применяться в различных областях, включая биоинформатику, химическое моделирование, информационные системы и другие области, где графы играют ключевую роль. Наш подход предоставляет более точные и надежные предсказания, что может быть полезно для принятия решений в сложных ситуациях, где неопределенность играет важную роль. Этот фреймворк может помочь улучшить надежность и понятность GNN-моделей в задачах на уровне графа. ## Выводы Результаты наших исследований показали, что GraphPPD является эффективным подходом для моде

Annotation:

Accurate modelling and quantification of predictive uncertainty is crucial in deep learning since it allows a model to make safer decisions when the data is ambiguous and facilitates the users' understanding of the model's confidence in its predictions. Along with the tremendously increasing research focus on \emph{graph neural networks} (GNNs) in recent years, there have been numerous techniques which strive to capture the uncertainty in their predictions. However, most of these approaches are ...

ID: 2508.16995v1 stat.ML, cs.LG

arXiv PDF

📄 Limitations of refinement methods for weak to strong generalization

2025-08-27

Авторы:

Seamus Somerstep, Ya'acov Ritov, Mikhail Yurochkin, Subha Maity, Yuekai Sun

#### Контекст Одна из ключевых проблем в области машинного обучения — **слабая добавочность**. Это ситуация, когда новые данные, добавляемые в обучающую выборку, не приводят к улучшению модели, а иногда даже ухудшают ее работу. Это возникает из-за ограничений существующих методов обучения, которые не в состоянии эффективно обрабатывать новые данные. Особенно актуальна эта проблема при работе с большими языковыми моделями, где требуется сильное сжатие начального знания, чтобы адаптировать модель к новым условиям. Недавние исследования показывают, что традиционные методы обучения могут быть неэффективными при попытке достичь более высокой степени общности моделей. Это приводит к поиску альтернативных подходов, позволяющих эффективно решать проблему слабая добавочности. #### Метод В данной работе используются **методы отражения**, которые позволяют синтезировать новые данные, используя информацию из уже существующих, а также **методы искусственного обучения**, чтобы улучшить качество модели. Рассматривается **архитектура глубоких графов**, которая позволяет обрабатывать большие объемы данных, используя не только информацию о структуре, но и выполнять сложные вычисления на основе этой структуры. Используется метод **обучения с подкреплением**, который позволяет модели учиться на основе непосредственных ответов, а также применяются методы **эмпирического анализа**, чтобы оценить качество модели в различных сценариях. #### Результаты Полученные результаты показывают, что применение процедур отражения и искусственного обучения действительно позволяет улучшить качество модели. Во время эксперимента был проведен анализ на различных данных, включая обучение модели на основе текстовых данных, а также применение модели к реальным задачам, таким как классификация изображений. Результаты показали, что модель, использующая эти методы, показала значительное улучшение в общих характеристиках, в том числе в скорости обучения и точности выдачи результатов. Однако некоторые ограничения также были отмечены, такие как необходимость большого объема данных для эффективного обучения. #### Значимость Результаты этой работы могут быть применены в **сфере робототехники, систем автоматического перевода, искусственного интеллекта и здравоохранения**, где требуется надежное обучение моделей к новым условиям. Одним из основных преимуществ является **уменьшение времени обучения** модели и **улучшение качества результатов**. Потенциальное влияние заключается в том, что эти методы могут быть использованы для создания моделей, которые не только будут эффективно адаптироваться к новым

Annotation:

Standard techniques for aligning large language models (LLMs) utilize human-produced data, which could limit the capability of any aligned LLM to human level. Label refinement and weak training have emerged as promising strategies to address this superalignment problem. In this work, we adopt probabilistic assumptions commonly used to study label refinement and analyze whether refinement can be outperformed by alternative approaches, including computationally intractable oracle methods. We show ...

ID: 2508.17018v1 stat.ML, cs.LG

arXiv PDF

📄 CP4SBI: Local Conformal Calibration of Credible Sets in Simulation-Based Inference

2025-08-27

Авторы:

Luben M. C. Cabezas, Vagner S. Santos, Thiago R. Ramos, Pedro L. C. Rodrigues, Rafael Izbicki

## Контекст Симуляционная основанная инференция (SBI) широко используется в экспериментальных науках для инверсии сложных нелинейных моделей с неопределимой вероятностью. Однако, полученные при помощи SBI постериорные оценки часто оказываются малокалиброванными, что приводит к тому, что кредибилити-регионы недооценивают настоящие параметры. Это приводит к недостатку надежности в оценке неуверенности, что является критическим для принятия решений в таких областях, как медицина, экология и физика. Наша мотивация заключается в разработке метода, который сможет улучшить калибровку постериорных регионов в SBI, увеличив надежность и точность оценок неуверенности. ## Метод Мы предлагаем $\texttt{CP4SBI}$, модели-агностическую рамформу, основанную на конформальной калибровке, которая строит кредибилити-регионы с локальной байесовской калибровкой. Наш фреймворк имеет две версии: локальная калибровка с использованием регрессионных деревьев и калибровка на основе оценок CDF. Основной идеей является то, чтобы убедиться в локальной байесовской калибровке на основе локальных оценок вероятности, которые могут быть применены к любой скоринг-функции, включая ХПД, симметричные и квантильные регионы. Функциональность $\texttt{CP4SBI}$ позволяет ему адаптироваться к различным SBI-методам, включая нормализующие потоки и модели скорости сдвига. ## Результаты Мы проводили эксперименты на различных SBI-benchmarks, включая симуляции в управляемых и неуправляемых методах SBI. Мы сравнивали наш подход с другими методами калибровки на таких метриках, как локальная байесовская калибровка, лог-дивергенция и точность оценки. Наши результаты показывают, что $\texttt{CP4SBI}$ существенно улучшает калибровку постериорных регионов, даже при небольших выборках. Мы также показали, что наш метод работает хорошо с разными SBI-подходами, включая нормализующие потоки и модели скорости сдвига, что демонстрирует его модели-агностичность. ## Значимость Наш подход имеет широкую область применения в экспериментальных науках, где SBI используется для инверсии нелинейных моделей с неопределимой вероятностью. Он может быть применен в таких областях, как биология, физика, экономика и машинное обучение. Основные преимущества $\texttt{CP4SBI}$ заключаются в его модели-агностичности, точности и улучшении калибровки. Это может привести к более надежным оценкам неуверенности в принятии решений и моделировании в этих областях. ## Выводы Мы представляем $\texttt{CP4SBI}$, новую модели-агностическую систему калибровки для кредибилити-регионов в SBI. На

Annotation:

Current experimental scientists have been increasingly relying on simulation-based inference (SBI) to invert complex non-linear models with intractable likelihoods. However, posterior approximations obtained with SBI are often miscalibrated, causing credible regions to undercover true parameters. We develop $\texttt{CP4SBI}$, a model-agnostic conformal calibration framework that constructs credible sets with local Bayesian coverage. Our two proposed variants, namely local calibration via regress...

ID: 2508.17077v1 stat.ML, cs.LG

arXiv PDF

📄 Neural Stochastic Differential Equations on Compact State-Spaces

2025-08-27

Авторы:

Yue-Jane Liu, Malinda Lu, Matthew K. Nock, Yaniv Yacoby

## Контекст В настоящее время многие модели стохастических дифференциальных уравнений (SDEs) используются в области машинного обучения для моделирования динамики систем и решения задач регрессии, классификации и других. Однако существуют значительные проблемы, связанные с нестабильностью, неэффективным индуктивным базом при работе с неограниченными пространствами и ограниченными динамическими моделями. Эти ограничения приводят к низкой точности и непонятному поведению моделей в задачах, требующих качественного прогнозирования динамических процессов. Поэтому необходимо разработать методы, которые позволят более эффективно использовать модели SDEs в пространствах с ограниченными границами, обеспечивая при этом более стабильную работу, высокую точность и лучшую интерпретируемость. ## Метод Мы предлагаем новую модель стохастических дифференциальных уравнений (Neural SDEs), которая работает в пространствах с ограниченными границами, используя продолжительные динамические модели и высокоточные схемы решения. Метод основывается на разработке нейросетевых моделей, которые могут адаптироваться к ограниченным пространствам, используя полиедральные пространства и непрерывные динамические модели. Наш подход включает в себя разработку новых схем решения SDEs, которые обеспечивают лучшую точность и стабильность. Мы также используем высокоточные способы решения SDEs, что позволяет повысить точность и уменьшить время работы модели. ## Результаты Мы провели эксперименты на различных данных, включая обучение на синтетических данных с ограниченным пространством и реальных данных с неограниченным пространством. Результаты показали, что наш подход оказался более эффективным и точным по сравнению с существующими методами. Мы также производили сравнение с другими моделями, в том числе с традиционными SDEs и моделями с зеркальным динамикой, и показали существенные преимущества нашего метода во всех аспектах. ## Значимость Наш подход имеет широкие применения в области машинного обучения, а также в задачах моделирования динамики систем, прогнозирования и решения задач, требующих более точного и стабильного прогноза. Мы можем применить наш подход в области финансового моделирования, биологии, физики и других областях, где требуется моделирование динамики систем. Мы привлекаем внимание к тому, что наш метод имеет лучшую точность, стабильность и высокую скорость работы, что делает его более привлекательным для решения реальных задач. ## Выводы Мы показали, что наш подход является эффективным и точным для решения задач моделирования динамики систем на ограниченных простран

Annotation:

Many modern probabilistic models rely on SDEs, but their adoption is hampered by instability, poor inductive bias outside bounded domains, and reliance on restrictive dynamics or training tricks. While recent work constrains SDEs to compact spaces using reflected dynamics, these approaches lack continuous dynamics and efficient high-order solvers, limiting interpretability and applicability. We propose a novel class of neural SDEs on compact polyhedral spaces with continuous dynamics, amenable t...

ID: 2508.17090v1 stat.ML, cs.LG

arXiv PDF

📄 Factor Informed Double Deep Learning For Average Treatment Effect Estimation

2025-08-27

Авторы:

Jianqing Fan, Soham Jana, Sanjeev Kulkarni, Qishuo Yin

## Контекст Оценка среднего эффекта лечения (ATE) — важная задача в медицине, экономике и социальных науках, которая позволяет определять влияние некоторого лечения или воздействия на группу людей. Существуют сложности при оценке ATE, в том числе из-за высокой размерности данных, высокой корреляции признаков и существования спарших нелинейных эффектов в моделях пропensity и результата. Эти модели часто являются высоко-мерной и нетривиальной, что создает вызовы для существующих методов. Необходимо разработать метод, который может эффективно работать с такими характеристиками данных. ## Метод Мы предлагаем Double Deep Learning подход, который объединяет недавно разработанные factor-augmented deep learning-based estimators, FAST-NN, для оценки результата и модели наиболее вероятности. FAST-NN делает это непараметрически, используя глубокие нейронные сети для выбора значимых признаков и адаптивного уменьшения размерности моделей. Основываясь на этом, мы предлагаем FIDDLE (Factor Informed Double Deep Learning Estimator), который использует augmented inverse propensity weighting (AIPW) для оценки ATE. Этот подход обеспечивает глубокую адаптивность для выбора признаков и моделирования, что дает ему высокую точность и гибкость. ## Результаты Мы проводили ряд экспериментов на синтетических и реальных данных, показав высокую точность FIDDLE в оценке ATE. Мы использовали различные модели, включая сложные, высоко-мерные и спаршные. Наши результаты показали, что FIDDLE обеспечивает более точные оценки в сравнении с другими существующими методами, особенно когда размер данных и размерность признаков высоки. Мы также продемонстрировали, что FIDDLE поддерживает гибкость в работе с различными моделями и может восстанавливать ATE даже при потенциальной неверной модели. ## Значимость Наш метод широко применим в медицинских исследованиях, экономических моделях и других областях, где важно оценить влияние внешних факторов на результаты. FIDDLE обеспечивает высокую точность и устойчивость при работе с высоко-мерными и спаршными данными, что делает его предпочтительным в сложных задачах. Благодаря использованию нейронных сетей, FIDDLE может адаптироваться к различным условиям данных, что делает его гибким и мощным инструментом. ## Выводы Мы представили FIDDLE — новый подход к оценке ATE, который объединяет нейронные сети и factor-augmented deep learning. Этот метод доказал свою эффективность в сложных задачах, особенно если данные высоко-мерны. Мы планируем продолжать развивать этот подход, оптимизировав его для работы с более сложными моделями и применяя его в реальных задачах.

Annotation:

We investigate the problem of estimating the average treatment effect (ATE) under a very general setup where the covariates can be high-dimensional, highly correlated, and can have sparse nonlinear effects on the propensity and outcome models. We present the use of a Double Deep Learning strategy for estimation, which involves combining recently developed factor-augmented deep learning-based estimators, FAST-NN, for both the response functions and propensity scores to achieve our goal. By using ...

ID: 2508.17136v1 stat.ML, cs.LG, math.ST, stat.ME, stat.TH, 62G08, 62G20

arXiv PDF

📄 On the sample complexity of semi-supervised multi-objective learning

2025-08-27

Авторы:

Tobias Wegel, Geelon So, Junhyung Park, Fanny Yang

## Контекст Многообъективное обучение (Multi-Objective Learning, MOL) представляет собой подход, в котором необходимо решать несколько задач предсказания одновременно с помощью одной модели. Эти задачи могут быть взаимоисключающими, что делает их решение сложнее. Традиционные подходы к MOL требуют большого количества обучающих данных, чтобы достичь хороших результатов. Однако, когда доступны дополнительные непомеченные данные, можно улучшить эффективность обучения. Целью данной работы является изучение статистического вклада непомеченных данных в MOL и оценка степени улучшения обучения при их использовании. ## Метод Мы рассматриваем обучение с подписанием (semi-supervised learning), в котором модель имеет доступ к непомеченным данным и использует их для оптимизации. Наша методология основывается на анализе теоретических баундов для того, чтобы понять, как непомеченные данные влияют на обучение. Мы используем Bregman расстояния для определения потерь, так как они позволяют описать различные типы задач. Модель, которую мы исследуем, объединяет несколько целей в одну, и мы анализируем, как непомеченные данные помогают улучшить точность предсказаний. ## Результаты Мы проводим эксперименты на различных наборах данных и сравниваем результаты модели с и без использования непомеченных данных. Мы показываем, что непомеченные данные могут значительно улучшить точность предсказаний, особенно когда данные хорошо распределены. Мы также показываем, что такое улучшение можно связать с теоретическими баундами, что дает нам уверенность в том, что модель работает хорошо в разных ситуациях. Эти результаты позволяют нам понять, какие типы задач будут выигрывать больше от непомеченных данных. ## Значимость Наша работа имеет большое значение в области многообъективного обучения, где существует необходимость эффективно решать несколько задач синхронно. Мы показываем, что непомеченные данные могут существенно сократить количество нужных отмеченных данных, что может быть критично для задач, где трудно собрать много отмеченных данных. Это предоставляет новое представление о том, как модели MOL могут быть обучены более эффективно. Наши результаты также открывают пути для будущих исследований в области MOL, в частности, в исследовании новых стратегий обучения с подписанием. ## Выводы Мы провели глубокий анализ того, как непомеченные данные могут повлиять на точность обучения в MOL. Мы показали, что непомеченные данные могут значительно улучшить точность без дополнительных трудозатрат на отметки данных. Это открывает новые возможности для эффективного обучения в MOL. Будущие исследования могут сосредотачиваться на допо

Annotation:

In multi-objective learning (MOL), several possibly competing prediction tasks must be solved jointly by a single model. Achieving good trade-offs may require a model class $\mathcal{G}$ with larger capacity than what is necessary for solving the individual tasks. This, in turn, increases the statistical cost, as reflected in known MOL bounds that depend on the complexity of $\mathcal{G}$. We show that this cost is unavoidable for some losses, even in an idealized semi-supervised setting, where ...

ID: 2508.17152v1 stat.ML, cs.LG

arXiv PDF

📄 High-Order Langevin Monte Carlo Algorithms

2025-08-27

Авторы:

Thanh Dang, Mert Gurbuzbalaban, Mohammad Rafiqul Islam, Nian Yao, Lingjiong Zhu

## Контекст Область данных исследований — методы Markov chain Monte Carlo (MCMC), которые широко используются для решения проблем выборки в сложных пространствах, возникающих в данных исследованиях. Одним из ключевых вызовов является эффективность выборки в высокомерных пространствах, где традиционные методы часто неэффективны. Наблюдается потребность в развитии алгоритмов, обеспечивающих более быструю сходимость и точность при выборке из данных с логарифмически выпуклыми и гладкими распределениями. ## Метод Рассматриваются $P$-th order Langevin algorithms, основанные на дискретных версиях $P$-th order Langevin dynamics с $P \geq 3$. Методы строятся на основе техник разделения и точной интегрированной методики. Это позволяет достичь гарантий сходимости в метрике Wasserstein. Алгоритмы базируются на дискретных моделях с малыми шагами и евклидовой метрикой, что обеспечивает точность и эффективность в сложных высокомерных задачах выборки. ## Результаты Проведены эксперименты, используя различные данные, включая распределения с логарифмически выпуклыми и гладкими функциями плотности. Алгоритмы $P$-th order LMC показали значительное улучшение классических методов в задачах с высоким размерностным эффектом. Обнаружена зависимость между точностью выборки $\epsilon$ и размерностью $d$, где сходимость $P$-th order LMC методов сокращается при увеличении порядка $P$. Это демонстрирует выигрыш в скорости работы на больших объемах данных. ## Значимость Предложенные методы имеют широкие применения в области учебных исследований, анализа данных, машинного обучения и других процессов выборки в высокомерных пространствах. Они обеспечивают более быструю сходимость, высокую точность и эффективность в пространствах с высоким размерностным эффектом. Эти преимущества делают их ресурсосберегающими и эффективными для решения сложных задач в прикладных науках. ## Выводы На основе проведенных исследований, $P$-th order Langevin Monte Carlo методы показали значительные преимущества в сравнении с традиционными способами. Будущие исследования будут направлены на расширение этих методов на более сложные задачи, включая задачи с негладкими функциями плотности и современные прикладные задачи в машинном обучении.

Annotation:

Langevin algorithms are popular Markov chain Monte Carlo (MCMC) methods for large-scale sampling problems that often arise in data science. We propose Monte Carlo algorithms based on the discretizations of $P$-th order Langevin dynamics for any $P\geq 3$. Our design of $P$-th order Langevin Monte Carlo (LMC) algorithms is by combining splitting and accurate integration methods. We obtain Wasserstein convergence guarantees for sampling from distributions with log-concave and smooth densities. Spe...

ID: 2508.17545v1 stat.ML, cs.LG, math.PR

arXiv PDF

📄 The Statistical Fairness-Accuracy Frontier

2025-08-27

Авторы:

Alireza Fallah, Michael I. Jordan, Annie Ulichney

## Контекст Область исследования, связанная с машинным обучением, становится все более важной в современном мире, где модели машинного обучения применяются во многих сферах жизнедеятельности. Одна из ключевых проблем этой области — достижение того, чтобы модели были как аккуратными, так и справедливыми. Справедливость в ходе обучения модели — это ключевой фактор, особенно когда данные имеют происхождение из различных демографических групп. Насколько объективной является модель, когда данные несбалансированы или определенные группы занимают доминирующую позицию в обучающих данных? Эти вопросы мотивируют разработку различных методов, которые позволят понять и минимизировать несправедливость в моделях машинного обучения, особенно когда ограничения на ресурсы неопределены. ## Метод Данная работа исследует модели машинного обучения с точки зрения справедливости и точности, опираясь на методологию, которая позволяет определить, в какой степени модели могут быть обучены с учетом ограничений на справедливость. Авторы рассматривают метод, который определяет "справедливость-точность" (Fairness-Accuracy, FA) границу, характеризующую множество моделей, которые не могут быть синхронно улучшены ни в справедливости, ни в точности без ущерба другому критерию. Исследование включает в себя описание моделей, которые работают в условиях ограниченных данных, а также выявление минимакс-оптимальных алгоритмов, которые позволяют динамически вносить изменения в модели, учитывая известную информацию о распределении ковариатов. ## Результаты В ходе исследования, авторы проводят эксперименты на ограниченных обучающих выборках, чтобы определить, как ограничения на данные влияют на справедливость и точность моделей. Обсуждается, как подбор весов моделей может быть оптимизирован, чтобы достичь максимальной справедливости без потери точности. Для разных сценариев, когда распределение ковариатов известно или неизвестно, авторы предлагают различные алгоритмы, которые могут быть применены в практических задачах. Например, в случае неизвестного распределения, алгоритмы могут быть применены для оптимизации ресурсов и избежания нежелательных эффектов на определенные демографические группы. ## Значимость Результаты этого исследования имеют значительное значение для различных областей, включая медицину, финансы, социальные сети и т.д., где модели машинного обучения принимают решения, которые могут иметь значительное влияние на жизнь индивидуумов. Одним из основных преимуществ является то, что справедливость моделей может быть теперь оптими

Annotation:

Machine learning models must balance accuracy and fairness, but these goals often conflict, particularly when data come from multiple demographic groups. A useful tool for understanding this trade-off is the fairness-accuracy (FA) frontier, which characterizes the set of models that cannot be simultaneously improved in both fairness and accuracy. Prior analyses of the FA frontier provide a full characterization under the assumption of complete knowledge of population distributions -- an unrealis...

ID: 2508.17622v1 stat.ML, cs.LG, econ.TH, math.OC

arXiv PDF

1
2
48
49
50
51
52
56
57

Показано 491 - 500 из 564 записей