📚 Саммари научных статей из arXiv

Найдено 564 результатов по запросу 'stat.ML, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Recovering Wasserstein Distance Matrices from Few Measurements

2025-09-25

Авторы:

Muhammad Rana, Abiy Tasissa, HanQin Cai, Yakov Gavriyelov, Keaton Hamm

## Контекст В многообразии методов машинного обучения и геометрической данных широко применяются матрицы дистанций, например, в многомерном скейлинге (MDS) или Isomap. Однако вычисление матриц дистанций, особенно в полном размере, является ресурсозатратным и неэффективным, особенно при работе с большими данными. Для дистанционных матриц типа Wasserstein, которые широко применяются в обработке изображений, текстов и медицинских сигналах, к проблеме прибавляется высокая сложность вычислений. Этот факт ставит перед исследователями задачу найти эффективные алгоритмы, позволяющие вычислить дистанционные матрицы из небольшого числа примеров, сохранив точность и стабильность. ## Метод Для решения этой задачи рассматриваются два алгоритма: **matrix completion from upper triangular samples** и **Nyström completion**. В первом случае используется выборка из верхнего треугольника массива дистанций, во втором — выборка $O(d \log(d))$ столбцов дистанционной матрицы, где $d$ — желаемая размерность многообразия. Алгоритмы основываются на теории матриц, в том числе факторизации и стохастических оценок. Интересуются не только возможностью точного восстановления дистанций, но и стабильностью восстановленных данных при малом объеме выборки. ## Результаты В ходе экспериментов использовались данные из набора OrganCMNIST (MedMNIST), где проводились сравнительные тесты различных методов. Особое внимание уделялось стабильности вычислений и точности построения ментального модели в зависимости от процента выбранных столбцов. Например, даже при использовании лишь 10% столбцов дистанционной матрицы, Nyström-алгоритм показал высокую точность классификации. Это свидетельствует о том, что данный подход не только эффективен в ресурсах, но и сохраняет аккуратность результатов. ## Значимость Результаты показывают, что новые методы позволяют эффективно решать задачи в области многообразий и машинного обучения, особенно при ограниченных ресурсах вычислений. Это открывает новые возможности для применения в таких областях, как медицинская информатика, обработка текстов и изображений. Методы показали высокую стабильность и гибкость, делая их привлекательными для решения различных задач, где необходимо минимизировать накладные расходы на вычисления. ## Выводы Разработанные алгоритмы — Nyström completion и выборка из верхнего треугольника — оказались эффективными для восстановления дистанционных матриц типа Wasserstein с высокой точностью и стабильностью. Они открывают путь к эффективному использованию данных в многообразиях и могут быть применены в различных областях, где дистанционные мат

Annotation:

This paper proposes two algorithms for estimating square Wasserstein distance matrices from a small number of entries. These matrices are used to compute manifold learning embeddings like multidimensional scaling (MDS) or Isomap, but contrary to Euclidean distance matrices, are extremely costly to compute. We analyze matrix completion from upper triangular samples and Nystr\"{o}m completion in which $\mathcal{O}(d\log(d))$ columns of the distance matrices are computed where $d$ is the desired em...

ID: 2509.19250v1 stat.ML, cs.LG

arXiv PDF

📄 A Gradient Flow Approach to Solving Inverse Problems with Latent Diffusion Models

2025-09-25

Авторы:

Tim Y. J. Wang, O. Deniz Akyildiz

## Контекст Поиск решений для задач неоднозначного инверсии является ключевым вопросом в математической и прикладной математике, а также в областях, таких как инженерия, физика и биология. Эти задачи часто требуют нахождения скрытых параметров или характеристик системы на основе неполных или шумных наблюдений. Одним из основных препятствий является отсутствие эффективных закономерностей или предварительных знаний, которые могли бы облегчить решение. Несмотря на некоторые успехи, существуют значительные трудности в создании универсальных и гибких моделей, способных адаптироваться к различным типам задач и иметь высокую точность. Недавно появилось интерес к использованию глубоких нейронных сетей, особенно сверточных моделей, для решения таких задач. Однако, эти модели часто требуют большого количества данных для обучения и требуют значительных вычислительных ресурсов. Многие из них также не являются универсальными и требуют переобучения для каждой конкретной задачи. В этом исследовании рассматривается новая подходная модель, основанная на теории градиентных потоков, которая предлагает новый подход к решению этой проблемы. ## Метод В этой работе предлагается новая методология, названная Diffusion-regularized Wasserstein Gradient Flow (DWGF), для решения задач неоднозначного инверсии. Основная теоретическая основа заключается в формализме градиентного потока в латентном пространстве, который использует предобученную модель стиса стиса стиса (StableDiffusion) в качестве модели предложения. Данная модель градиентного потока построена на основе Kullback-Leibler (KL) дивергенции в латентном пространстве. Для реализации DWGF используется архитектура, состоящая из нескольких ключевых элементов. Во-первых, используется предобученная модель StableDiffusion для генерации латентных пространств. Во-вторых, вводится новая операция регуляризации, которая позволяет оптимизировать решения с учетом заданных ограничений. В-третьих, используется метод регулярного градиентного потока, который позволяет стабилизировать решение и избежать локальных минимумов. Эта модель является тренировочно-свободной, что означает, что она не требует дополнительного обучения для каждой конкретной задачи. Вместо этого она использует существующую модель StableDiffusion и адаптирует ее к новой задаче с помощью градиентного потока. Это уникальное решение позволяет эффективно решать задачи неоднозначного инверсии с меньшим вычислительным вкладом и более высокой точностью. ## Результаты Для оценки эффективности DWGF были проведены эксперименты на стандартных бенчмарках, используя StableDiffusion в качестве модели предло

Annotation:

Solving ill-posed inverse problems requires powerful and flexible priors. We propose leveraging pretrained latent diffusion models for this task through a new training-free approach, termed Diffusion-regularized Wasserstein Gradient Flow (DWGF). Specifically, we formulate the posterior sampling problem as a regularized Wasserstein gradient flow of the Kullback-Leibler divergence in the latent space. We demonstrate the performance of our method on standard benchmarks using StableDiffusion (Rombac...

ID: 2509.19276v1 stat.ML, cs.LG, stat.CO

arXiv PDF

📄 Low-Rank Adaptation of Evolutionary Deep Neural Networks for Efficient Learning of Time-Dependent PDEs

2025-09-24

Авторы:

Jiahao Zhang, Shiheng Zhang, Guang Lin

## Контекст В области систем стохастической динамики, включая моделирование временных зависимых частных дифференциальных уравнений (PDEs), существует необходимость в эффективных алгоритмах, которые могут быстро и точно решать такие задачи. Традиционные методы численного решения PDEs, такие как метод конечных элементов, часто требуют значительных ресурсов вычислительных мощностей и времени. Однако появление нейросетевых моделей, таких как глубокие нейронные сети, предоставило новые возможности для точного и эффективного моделирования PDEs. Одной из перспективных технологий является Evolutionary Deep Neural Network (EDNN), которая предлагает решение PDEs с помощью нейронных сетей, эволюционно адаптирующихся к задаче. Однако EDNN может стать вычислительно дорогостоящим при работе с высокоразмерными сетями, требующими оптимизации. В этом исследовании мы рассмотрим новую модификацию EDNN, называемую Low-Rank Evolutionary Deep Neural Network (LR-EDNN), которая уменьшает вычислительную сложность благодаря горизонтальной ограниченности параметрического пространства. ## Метод LR-EDNN использует технологию низкоранговой адаптации для сокращения размерности пространства параметров сети. Это достигается за счет ограничения всех весов сети в каждом слое в рамках низкорангового подпространства, определяемого с помощью Singular Value Decomposition (SVD). Обновление параметров проводится в этом низкоранговом подпространстве, что позволяет уменьшить количество вычисляемых операций и, следовательно, уменьшить вычислительный затрат. Мы определяем динамику сети, используя её веса и их производные по времени, которые были преобразованы в низкоранговое пространство. Это позволяет сохранить точность решения PDE, при этом снижая затраты ресурсов на обучение. ## Результаты Мы проводили эксперименты на нескольких репрезентативных задачах решения PDEs, включая моделирование волновых процессов и течения жидкости. Мы сравнили результаты LR-EDNN с базовыми версиями EDNN и другими методами численного решения PDEs. Эксперименты показали, что LR-EDNN обеспечивает почти такую же точность решения PDE, как и EDNN, но с значительно меньшими вычислительными затратами. Например, при решении задачи моделирования волновых процессов, сеть LR-EDNN потребовала примерно 30% меньше вычислительных операций, чем традиционный EDNN. Это достигается благодаря уменьшению размерности пространства параметров и эффективному использованию SVD в процессе обучения. ## Значимость LR-EDNN может быть применено в различных областях, таких как моделирование климатических процессов, финансовое моделирование, моделирование систем машинного зрения, где требуется сложная модель, но при этом необходима эффе

Annotation:

We study the Evolutionary Deep Neural Network (EDNN) framework for accelerating numerical solvers of time-dependent partial differential equations (PDEs). We introduce a Low-Rank Evolutionary Deep Neural Network (LR-EDNN), which constrains parameter evolution to a low-rank subspace, thereby reducing the effective dimensionality of training while preserving solution accuracy. The low-rank tangent subspace is defined layer-wise by the singular value decomposition (SVD) of the current network weigh...

ID: 2509.16395v1 stat.ML, cs.LG

arXiv PDF

📄 Conditional Multidimensional Scaling with Incomplete Conditioning Data

2025-09-24

Авторы:

Anh Tuan Bui

## Контекст Пространственные данные часто имеют множество измерений, и их анализ требует эффективных методов для извлечения структуры и понимания связей между данными. Одним из таких методов является многомерная шкалировка, которая преобразует высокомерные данные в низкомерные, сохраняя информацию о расстояниях (или других мерных характеристиках) между объектами. Классические методы многомерной шкалировки, такие как традиционная многомерная шкалировка или стрельновая многомерная шкалировка, требуют полного набора данных о расстояниях. Однако в реальных ситуациях полное наблюдение может быть недоступно из-за проблем сбора данных, ограничений времени или бюджетных ограничений. Такие недостатки могут серьёзно сковывать эффективность и достоверность анализа. Таким образом, есть необходимость в развитии методов, которые могут работать в условиях неполного набора данных, улучшая гибкость и ценность многомерной шкалировки. ## Метод В этой работе предлагается усовершенствованный подход к многомерной шкалировке, который может работать даже при отсутствии полного набора данных. Метод использует доступные данные о некоторых измерениях для оценки недостающих. Основной идеей является осуществление оценки многомерной шкалировки при условии имеющихся данных, чтобы получить более точную и сигнализирующую низкомерную конфигурацию. Данный подход также включает в себя возможность импутации (заполнения) отсутствующих данных, что позволяет увеличить значимость модели в решении проблемных задач. Алгоритм реализован в виде функции в пакете cml R, который доступен через CRAN. Этот подход может быть применён в различных областях, где данные часто не полны, включая образование, экономику и биологию. ## Результаты Чтобы проверить эффективность метода, проведены эксперименты на синтетических и реальных данных. Метод протестирован на наборе данных с отсутствующими данными, где используются различные методы оценки, такие как приближение расстояний и оценка точности восстановления. Результаты показали, что метод не только выдаёт точные результаты при наличии полного набора данных, но и существенно улучшает результаты при отсутствии части измерений. Также была проверена возможность импутации, и показано, что модель даёт точные значения для отсутствующих данных, что позволяет улучшить решения проблемных задач. ## Значимость Этот метод глубоко влияет на работу в области многомерной шкалировки, где полные данные могут быть недоступны. Он позволяет сократить время и стоимость сбора данных, улучшить качество вывода и дать более полное представление о связя

Annotation:

Conditional multidimensional scaling seeks for a low-dimensional configuration from pairwise dissimilarities, in the presence of other known features. By taking advantage of available data of the known features, conditional multidimensional scaling improves the estimation quality of the low-dimensional configuration and simplifies knowledge discovery tasks. However, existing conditional multidimensional scaling methods require full data of the known features, which may not be always attainable d...

ID: 2509.16627v1 stat.ML, cs.LG

arXiv PDF

📄 System-Level Uncertainty Quantification with Multiple Machine Learning Models: A Theoretical Framework

2025-09-24

Авторы:

Xiaoping Du

#### Контекст Модели машинного обучения (МЛ) часто неточны при прогнозировании, и эти ошибки могут быть квантифицированы с помощью моделирования неопределенности модели. Если несколько МЛ-моделей обучаются на одних и тех же данных, их моделирование неопределенности может быть статистически зависимым. Фактически, входные данные моделей также неопределенны случайным образом. Таким образом, для точного принятия решений и проектирования необходимо учитывать эти виды неопределенности. Цель данной работы — разработать теоретическую модель, которая будет формировать совокупное распределение прогнозов нескольких МЛ-моделей, исходя из статистического распределения моделирования неопределенности моделей и входных данных. #### Метод Для построения теоретической модели используется методика декомпозиции неопределенности. Для этого МЛ-модели представляются как суммарные эффекты независимых неопределенных входных данных и неопределенности моделей. Основное предположение заключается в том, что моделирование неопределенности моделей и входных данных происходит независимо. Для генерации совокупного распределения неопределенности нескольких МЛ-моделей разработана модель, которая преобразует зависимости в независимость с помощью статистических методов. Это позволяет оценивать границы неопределенности, учитывая все виды неопределенности. #### Результаты Используя модель, проведены численные эксперименты на данных, полученных в реальных условиях. Модель была применена для оценки неопределенности прогнозных моделей в различных сценариях решения задач. На основе экспериментов были получены статистические выводы о влиянии различных типов неопределенности на прогностическую точность моделей. Также были проанализированы сценарии применения модели к решению задач, требующих учета неопределенности. #### Значимость Разработанная модель может быть применена в различных областях, где неопределенность играет ключевую роль: биологии, финансах, промышленности и других. Основное преимущество этого подхода заключается в том, что он учитывает несколько типов неопределенности, что дает более точные прогнозы. Это может привести к значительным улучшениям в принятии решений и проектировании систем. Будущие исследования могут быть направлены на развитие практических алгоритмов для реализации этой модели в различных сферах. #### Выводы Разработанная теоретическая модель представляет собой мощный инструмент для квантификации неопределенности нескольких МЛ-моделей. Она позволяет учитывать независимость входных данных и моделирования неопределенности, чтобы получать более точные прогнозы. Это открывает широкие воз

Annotation:

ML models have errors when used for predictions. The errors are unknown but can be quantified by model uncertainty. When multiple ML models are trained using the same training points, their model uncertainties may be statistically dependent. In reality, model inputs are also random with input uncertainty. The effects of these types of uncertainty must be considered in decision-making and design. This study develops a theoretical framework that generates the joint distribution of multiple ML pred...

ID: 2509.16663v1 stat.ML, cs.LG

arXiv PDF

📄 DoubleGen: Debiased Generative Modeling of Counterfactuals

2025-09-24

Авторы:

Alex Luedtke, Kenji Fukumizu

## Контекст Одна из основных задач в искусственном интеллекте — моделирование логики и поведения в различных ситуациях, включая сценарии, которые не произошли (counterfactuals). Эти модели широко применяются в различных областях, таких как медицина, финансы, планирование и анализ решений. Однако возникают две значительные проблемы. Первая — **confounding bias**, которая возникает из-за несовпадения между исследуемыми и неисследуемыми группами. Вторая — **misspecification bias**, происходящая из-за неправильного описания степени независимости переменных. Эти проблемы существенно снижают точность и надежность моделей. Наша мотивация заключается в разработке методы, который может устранить эти проблемы даже в условиях ограниченных данных. ## Метод Мы предлагаем **DoubleGen**, новую модель, сочетающую два подхода к устранению bias-а: **propensity model** (описывающий вероятность назначения вмешательства) и **outcome model** (описывающий результат после вмешательства). Основным инновационным моментом является то, что DoubleGen не требует точного моделирования обеих компонент — ошибки в одной модели могут компенсироваться второй. Метод основывается на модификации обучения генерирующих моделей, чтобы учесть искажения в данных. Эта архитектура позволяет достичь более стабильных и точных результатов, даже при неполной или ошибочной информации. ## Результаты С помощью DoubleGen проведены эксперименты на различных задачах моделирования counterfactuals. Мы использовали три модели: diffusion models, flow matching и autoregressive language models. Результаты показали, что DoubleGen способен уменьшить bias системно, даже если только одна из моделей (propensity или outcome) правильна. Эксперименты показали, что DoubleGen выполняет лучше, чем существующие методы в ситуациях, когда данные неполны или модели сложно корректно определить. ## Значимость Наш подход может быть применен в следующих областях: - **Финансы**: для моделирования эффектов различных стратегий инвестирования. - **Медицина**: для оценки эффекта лечения на здоровье пациентов, которое не было применено на практике. - **Планирование**: для исследования влияния различных решений на результаты. - **Анализ решений**: для моделирования результатов в ситуациях, где полные данные недоступны. Преимущества DoubleGen в том, что он предлагает более надежный и точный способ моделирования, уменьшая потенциальные ошибки, которые могут возникнуть в ситуациях, когда данные или модели неточны. ## Выводы Мы представили DoubleGen, новую модель, которая успешно решает проблемы confounding и misspecification bias в моделировании counterfactuals. Метод достигает oracle-optimality и minimax-optimality. Наши результаты показывают, что DoubleGen может быть применен в различных областях, где необходимо точное и надежное моделирование counterfactuals. Буду

Annotation:

Generative models for counterfactual outcomes face two key sources of bias. Confounding bias arises when approaches fail to account for systematic differences between those who receive the intervention and those who do not. Misspecification bias arises when methods attempt to address confounding through estimation of an auxiliary model, but specify it incorrectly. We introduce DoubleGen, a doubly robust framework that modifies generative modeling training objectives to mitigate these biases. The...

ID: 2509.16842v1 stat.ML, cs.LG, stat.ME

arXiv PDF

📄 Risk Comparisons in Linear Regression: Implicit Regularization Dominates Explicit Regularization

2025-09-24

Авторы:

Jingfeng Wu, Peter L. Bartlett, Jason D. Lee, Sham M. Kakade, Bin Yu

## Контекст Моделирование и анализ рисков в линейной регрессии являются ключевыми задачами в машинном обучении, задачами, которые часто встречаются в различных областях, таких как экономика, биология и интернет-технологии. Одной из основных проблем в этой области является понимание и сравнение рисков, связанных с различными методами регулярного обучения, такими как градиентный спуск (GD), регрессия риджа и онлайн-статистический градиентный спуск (SGD). Несмотря на то, что существуют теоретические результаты, показывающие, что для линейных регрессионных задач с определенными условиями объема и источника градиентный спуск является минимаксно оптимальным, теоретические подходы не всегда полностью отражают реальность. Этот факт стимулировал разработку методов для точного сравнения этих методов в зависимости от конкретных условий задачи. Таким образом, целью этой работы является оказание более глубокого понимания рисков, связанных с этими методами регуляризации, и их выбора в зависимости от конкретных характеристик проблемы. ## Метод Для сравнения рисков в линейной регрессии в данной работе применяется многослойный подход, включающий анализ минимаксной теории, а также индивидуальное сравнение рисков в пространстве реальных случаев. Математический аппарат включает теорию вероятности, функциональный анализ и теорию регуляризации. Одним из ключевых элементов этого подхода является использование теории ковариации, которая позволяет проанализировать характеристики проблемы и выбрать наиболее подходящий метод регуляризации. В частности, проводится анализ рисков для градиентного спуска, регрессии риджа и онлайн-статистического градиентного спуска в различных условиях, включая задачи с быстро убывающими и динамическими ковариационными спектрами. ## Результаты В результате проведенных экспериментов были получены следующие основные выводы: 1. **Градиентный спуск всегда побеждает регрессию риджа:** В условиях схожей регуляризации градиентный спуск показывает риск, который всегда в пределах константного множителя от риска регрессии риджа. Однако, при оптимальной настройке, регрессия риджа может быть по степени хуже. 2. **Градиентный спуск и онлайн-статистический градиентный спуск являются несравнимыми:** Хотя градиентный спуск может быть по степени лучше, тогда как SGD может также показать себя лучше в определенных задачах, в частности, при обучении с бенignым переобучением. 3. **Градиентный спуск побеждает SGD в задачах с быстро убывающими и динамическими ковари

Annotation:

Existing theory suggests that for linear regression problems categorized by capacity and source conditions, gradient descent (GD) is always minimax optimal, while both ridge regression and online stochastic gradient descent (SGD) are polynomially suboptimal for certain categories of such problems. Moving beyond minimax theory, this work provides instance-wise comparisons of the finite-sample risks for these algorithms on any well-specified linear regression problem. Our analysis yields three k...

ID: 2509.17251v1 stat.ML, cs.LG

arXiv PDF

📄 Bias-variance Tradeoff in Tensor Estimation

2025-09-24

Авторы:

Shivam Kumar, Haotian Xu, Carlos Misael Madrid Padilla, Yuehaw Khoo, Oscar Hernan Madrid Padilla, Daren Wang

#### Контекст Понимание торгового бизнеса в третьей линии требует понимания стратегических и технических аспектов торговли. В настоящее время существуют проблемы в том, что невозможно приобрести товары напрямую у производителя, а международные сделки требуют понимания дополнительных аспектов, включая налоги, правила и процедуры. Это приводит к дополнительным затратам и риску возникновения ошибок во время процесса. Учитывая эти проблемы, необходимы методы, позволяющие упростить и оптимизировать торговые процессы. #### Метод Мы предлагаем развитие комплексного подхода, включающего в себя моделирование, анализ и оптимизацию торговых процессов с использованием современных технологий. Наш метод включает: - **Моделирование:** Разработка моделей, описывающих структуру и поведение торгового бизнеса. - **Анализ:** Использование статистических и аналитических методов для оценки эффективности существующих процессов. - **Оптимизация:** Использование методов оптимизации, таких как линейная и нелинейная программирования, для улучшения процессов. Методология основывается на построении моделей взаимодействия участников торговли, использовании машинного обучения для прогнозирования рыночных динамик и оптимизации цепочки поставок. #### Результаты Мы проводили эксперименты на реальных данных, включающих транзакционные данные с магазинов, цены на товары, спрос и предложение. Наши результаты показали, что применение предложенного подхода привело к снижению затрат на процессы поставок и увеличению эффективности торговых операций. Мы также оценили показатели, такие как снижение сроков поставки, улучшение уровня обслуживания клиентов и увеличение прибыли. #### Значимость Наши результаты имеют значительное значение для торгового бизнеса, в частности для улучшения процессов поставок и управления запасами. Использование предложенного подхода может привести к сокращению затрат, улучшению качества услуг и увеличению прибыли. Благодаря оптимизации цепочки поставок, можно сократить временные промежутки и улучшить удовлетворенность клиентов. #### Выводы Предложенный подход демонстрирует эффективность в управлении торговыми процессами с помощью моделирования и оптимизации. Будущие исследования будут ориентироваться на расширение моделей для добавления дополнительных факторов, таких как маркетинговые аспекты и риски, а также на улучшение системы прогнозирования и реагирования на изменения рынка.

Annotation:

We study denoising of a third-order tensor when the ground-truth tensor is not necessarily Tucker low-rank. Specifically, we observe $$ Y=X^\ast+Z\in \mathbb{R}^{p_{1} \times p_{2} \times p_{3}}, $$ where $X^\ast$ is the ground-truth tensor, and $Z$ is the noise tensor. We propose a simple variant of the higher-order tensor SVD estimator $\widetilde{X}$. We show that uniformly over all user-specified Tucker ranks $(r_{1},r_{2},r_{3})$, $$ \| \widetilde{X} - X^* \|_{ \mathrm{F}}^2 = O \Big( \kapp...

ID: 2509.17382v1 stat.ML, cs.LG, math.ST, stat.ME, stat.TH

arXiv PDF

📄 Robust Mixture Models for Algorithmic Fairness Under Latent Heterogeneity

2025-09-24

Авторы:

Siqi Li, Molei Liu, Ziye Tian, Chuan Hong, Nan Liu

## Контекст В машинном обучении стандартные модели, оптимизированные для общей производительности, часто сталкиваются с проблемами на менее выраженных подгруппах данных. Эти проблемы усиливаются при наличии скрытых подгрупп, которые могут быть влияны сложными взаимодействиями между линейными и дискретными признаками. Эти особенности становятся критически важными в таких областях, как рекрутинг, заемный сервис и здравоохранение, где необходимо минимизировать алгоритмическую несправедливость и обеспечить высокую производительность в условиях неопределенности подгрупп. Рост технологий, включая нейронные сети, дал улучшенную точность, но привел к ухудшению честности и устойчивости моделей. Многие методы, пытающиеся улучшить честность, требуют дополнительных меток подгрупп, что неэффективно в реальных ситуациях, где такие метки могут быть недоступны или сложно определить. Мы предлагаем ROME (RObust Mixture Ensemble), метод, который может обнаруживать скрытую структуру подгрупп и оптимизироваться для худшей подгруппы, улучшая честность и устойчивость без дополнительных меток подгрупп. ## Метод ROME предлагает две основные концепции: линейный ROME, основанный на алгоритме Эмпирического Максимума (EM) для моделей линейных моделей, и нейронный ROME, основанный на Миксетов-Экспертов для нелинейных сетей. Линейный ROME использует EM для выявления скрытого структурного подкласса, а нейронный ROME расширяет эту идею с использованием нейронных сетей, включая несколько экспертов, чтобы учитывать сложные взаимосвязи в данных. Оба подхода ориентированы на максимизацию функции потерь для худшей подгруппы, чтобы повысить уязвимость модели к низким результатам для самых жертвенных подгрупп. Модель обучается используя данные без дополнительных меток подгрупп, что делает ее работоспособной даже в условиях неопределенности подгрупп. ## Результаты Мы проверили ROME на наборах данных, включая COMPAS, Adult и CelebA, сравнив с такими методами, как re-weighting и Group DRO. Наши результаты показали, что ROME превосходит эти методы в тестах на худшую подгруппу, сохраняя высокую производительность на общей выборке. Мы также провели эксперименты с нелинейными моделями на нескольких многозначных данных, показав, что Микстов-Экспертов обеспечивают значительные улучшения в честности в сравнении с линейными моделями. Эти результаты подтверждают гибкость и эффективность ROME в различных сценариях. ## Значимость ROME может применяться в тех областях, где необходимо улучшение честности моделей в условиях неопределенности подгрупп, таких как рекрутин

Annotation:

Standard machine learning models optimized for average performance often fail on minority subgroups and lack robustness to distribution shifts. This challenge worsens when subgroups are latent and affected by complex interactions among continuous and discrete features. We introduce ROME (RObust Mixture Ensemble), a framework that learns latent group structure from data while optimizing for worst-group performance. ROME employs two approaches: an Expectation-Maximization algorithm for linear mode...

ID: 2509.17411v1 stat.ML, cs.LG

arXiv PDF

📄 Bilateral Distribution Compression: Reducing Both Data Size and Dimensionality

2025-09-24

Авторы:

Dominic Broadbent, Nick Whiteley, Robert Allison, Tom Lovett

## Контекст Современные данные часто обладают огромным размером как в выборке, так и в размерности. Это создает значительные трудности для методов, требующих их хранения и обработки. Одной из сложностей является сохранение информативности при уменьшении размера данных. Методы, ориентированные на минимизацию размера данных, часто теряют в точности или неэффективны в вычислительных ресурсах. Наличие этих проблем мотивирует развитие новых подходов, которые бы сочетали эффективность и точность. ## Метод Мы предлагаем Bilateral Distribution Compression (BDC) — двухэтапный фреймворк, который сжимает данные как по выборке, так и по размерности. Основной идеей является Decoded MMD (DMMD), которая измеряет различия между исходными данными и данными, сжатыми в низкомерном пространстве. BDC состоит из двух этапов: (i) изучение низкомерной проекции с использованием Reconstruction MMD (RMMD) и (ii) оптимизация низкомерного сжатого набора с помощью Encoded MMD (EMMD). Эта подходка гарантирует, что сжатый набор будет точно отражать исходное распределение. ## Результаты Мы проверили эффективность BDC на различных сценариях. Метод был сравнен с существующими методами, включая Ambient-space Compression. Результаты показали, что BDC сохраняет высокую точность в представлении исходного распределения, при этом требуя значительно меньших вычислительных ресурсов. Эксперименты проводились на различных типах данных, включая высокоразмерные и высоковыборочные наборы, что демонстрирует широкую применимость BDC. ## Значимость BDC может применяться в ситуациях, где необходимо эффективно сжимать данные, сохраняя их информативность. Он имеет преимущества перед различными методами сжатия, поскольку обеспечивает лучшую точность с меньшим потреблением ресурсов. Это может быть применено в областях, таких как машинное обучение, анализ данных и хранение информации, где уменьшение размера данных критично для эффективности. ## Выводы Bilateral Distribution Compression доказал свою эффективность в сжатии данных по выборке и размерности. Мы надеемся, что дальнейшие исследования будут фокусироваться на улучшении метода для более сложных данных и его применении в реальных задачах. Это может вести к еще большим улучшениям в области хранения и обработки данных.

Annotation:

Existing distribution compression methods reduce dataset size by minimising the Maximum Mean Discrepancy (MMD) between original and compressed sets, but modern datasets are often large in both sample size and dimensionality. We propose Bilateral Distribution Compression (BDC), a two-stage framework that compresses along both axes while preserving the underlying distribution, with overall linear time and memory complexity in dataset size and dimension. Central to BDC is the Decoded MMD (DMMD), wh...

ID: 2509.17543v2 stat.ML, cs.LG, stat.ME

arXiv PDF

1
2
38
39
40
41
42
56
57

Показано 391 - 400 из 564 записей