📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Hong Ye Tan, Stanley Osher, Wuchen Li

## Контекст Семплирование из Гиббсовых законов распределения широко применяется в различных областях, включая машинное обучение, графику и физические модели. Однако существуют значительные проблемы с эффективностью и точностью таких процессов, особенно при работе с нелинейными и негладкими потенциалами. Это приводит к необходимости развития новых методов, которые могли бы улучшить стабильность и точность семплирования. Наша мотивация заключается в исследовании новых алгоритмов, которые могли бы решить эти проблемы, в том числе предлагая новые аппроксимации и математические решения для улучшения семплирования. ## Метод Мы предлагаем подсистему, основанную на preconditioned regularized Wasserstein proximal sampling. Основная идея заключается в использовании оптимизационного подхода, где мы используем нормализованный закон распределения, регулируемый регуляризатором. Это достигается при помощи Cole--Hopf-трансформации, которая позволяет связать кратковременные решения с градиентным потоком. Мы также предлагаем алгоритм, который использует аппроксимацию score function, полученной через регуляризацию градиента. Такой подход позволяет улучшить стабильность и точность семплирования, особенно в случае независимого от шага скорости сходимости. ## Результаты Мы проводили эксперименты, используя различные лог-конкавые и не-лог-конкавые распределения, включая постановку задачи баYESianьных моделей и моделей с тренировкой нейросетей. Мы сравнивали наши результаты с существующими методами и показали, что наш метод показывает лучшую точность и стабильность. Также мы проверили эффективность нашего метода на задаче Bayesian Total-Variation Regularized Image Deconvolution. Наши результаты демонстрируют улучшение качества семплирования, особенно при использовании вариативных матриц преобразования. ## Значимость Наш метод имеет широкие потенциальные применения в области машинного обучения, статистики и физических моделей. Он предлагает новую архитектуру для эффективного семплирования, что может позволить улучшить точность решений в задачах, где требуется использование Гиббсовых законов распределения. Это может привести к улучшению качества результатов в задачах обработки изображений, физики и других областях, где требуется эффективное семплирование. ## Выводы Мы предложили новый подход к семплированию, основанный на preconditioned regularized Wasserstein proximal. Этот подход показал существенное улучшение стабильности и точности в сравнении с существующими методами. Мы также показали, что наш метод может быть применен в различных задачах, включая варианты с негладкими потенциалами и различными нейронными сетями. Будущие исследования будут сфокусиро
Annotation:
We consider sampling from a Gibbs distribution by evolving finitely many particles. We propose a preconditioned version of a recently proposed noise-free sampling method, governed by approximating the score function with the numerically tractable score of a regularized Wasserstein proximal operator. This is derived by a Cole--Hopf transformation on coupled anisotropic heat equations, yielding a kernel formulation for the preconditioned regularized Wasserstein proximal. The diffusion component of...
ID: 2509.01685v1 stat.ML, cs.LG, math.OC, stat.CO, 65C05, 62G07
Авторы:

Haijie Xu, Chen Zhang

#### Контекст Одна из основных задач в статистическом обучении и теории графов — определение структуры как циклических, так и нециклических связей между переменными, например, в моделях структурных каузальных моделей (SCM). Такие модели позволяют глубоко проникнуться в природу систем, но их исследование становится сложнее при наличии циклических связей и усложнении ситуаций с независимостью. Изучение этих проблем может быть применено в различных областях, включая биологию, экономику и социальные науки. В данной статье авторы сосредоточились на разработке эффективных методов для выявления структуры графов с как положительными, так и отрицательными связями, что позволяет улучшить понимание сложных систем. #### Метод Авторы предлагают двухэтапный подход для решения задачи выявления как циклических, так и бинарных связей. Этап первый — применение тестов двойной отделимости ($d$-separation) и $\sigma$-отделимости для определения возможных связей. Это позволяет аккуратно отфильтровать потенциальные противоречия в данных. На втором этапе используются до-эксперименты (do-see tests) для уточнения взаимосвязей. Эта модель основывается на идее, что до-эксперименты позволяют избежать неточностей, которые могут возникнуть при обычных тестах независимости. Разработанная архитектура использует способы для получения графа, в котором четко выделяются двунаправленные связи, но при этом оставляется возможность выявления циклических связей. #### Результаты Авторы проверили свой подход на различных синтетических и реальных данных. Они доказали, что используемый метод позволяет выявить большую часть структуры графа, в том числе и циклические связи, при этом сохраняя достаточную точность. За счет сочетания методов тестирования независимости и до-экспериментов, алгоритмы демонстрируют высокую эффективность в решении сложных задач выявления структуры. Также было доказано, что алгоритмы могут работать с ограниченными ресурсами (например, ограниченным числом интервенций), что делает их применимыми в реальных условиях. #### Значимость Предложенные методы могут быть применены в различных областях, где требуется выявить структуру систем, включая биологические системы, модели экономических процессов и социальных сетей. Основное преимущество заключается в том, что алгоритмы могут работать в условиях, когда данные содержат циклы и наличие независимости не гарантируется. Это открывает широкие возможности для улучшения качества моделей в сложных и нелинейных системах. #### Выводы Авторы подтвердили, что их подход является эффективным для выявления структуры графо
Annotation:
We study the problem of experimental design for accurately identifying the causal graph structure of a simple structural causal model (SCM), where the underlying graph may include both cycles and bidirected edges induced by latent confounders. The presence of cycles renders it impossible to recover the graph skeleton using observational data alone, while confounding can further invalidate traditional conditional independence (CI) tests in certain scenarios. To address these challenges, we establ...
ID: 2509.01887v1 stat.ML, cs.LG
Авторы:

Sakshi Arya, Wentao Lin

## Контекст Современные проблемы в сельском хозяйстве, такие как ограниченные ресурсы, изменение климата и рост численности населения, привели к необходимости развития эффективных методов управления сельскохозяйственными ресурсами. Одним из ключевых аспектов является **последовательное принятие решений** в области управления ресурсами, например, при оптимизации добавок удобрений или воды. Традиционные подходы, такие как линейные модели или техники случайных поисков, часто не учитывают специфику агротехнических задач и неэффективны в условиях неопределенности. Необходимо разработать методы, которые учитывали бы специфические характеристики сельскохозяйственных процессов и обеспечивали бы оптимальные решения с минимальными затратами ресурсов и времени. ## Метод Мы предлагаем семейство **нелинейных модели-основыных алгоритмов для последовательных решений** в сельском хозяйстве. Наш подход включает (i) **принципиальное оценивание неопределенности** и (ii) **закрытое выражение или быстро вычисляемые максимумы выгоды**. Модели учитывают характеристики отклика сельскохозяйственных систем, позволяя эффективно комбинировать эксплорацию и эксплойт критически важными ресурсами. Метод основан на теоретических границах для уменьшения **regret** (регрета) и поддерживает высокую точность при простых вычислениях. Эта модель является интерпретируемой, что позволяет легко рассуждать о результатах и принятии решений в сельском хозяйстве. ## Результаты Мы проводили эксперименты, используя симуляционные данные, которые эмулируют реальные задачи оптимизации добавок удобрений. Наши алгоритмы показали **сублинейный регрет** и получили близкие к оптимальным результаты в условиях небольшого количества наблюдений. Результаты постоянно превосходили линейные модели (например, UCB-линейная) и даже непараметрические базовые модели, такие как $k$-NN UCB. Эти результаты подтвердят эффективность нашего подхода в условиях **неопределенности** и **ограниченных данных**, где традиционные модели часто терпят неудачу. ## Значимость Наш подход имеет широкие приложения в **природоохране**, **управлении сельскохозяйственными ресурсами** и в области **искусственного интеллекта в агротехнике**. Он позволяет сделать сельское хозяйство более **данно-направленным**, **прозрачным** и **учетным**, что соответствует **Целям Общего Развития 2 (Холодное голод) и 12 (Ответственное Потребление и Производство)**. Наш подход может улучшить процессы принятия решений, уменьшить затраты ресурсов и сделать сельское
Annotation:
Sequential decision-making is central to sustainable agricultural management and precision agriculture, where resource inputs must be optimized under uncertainty and over time. However, such decisions must often be made with limited observations, whereas classical bandit and reinforcement learning approaches typically rely on either linear or black-box reward models that may misrepresent domain knowledge or require large amounts of data. We propose a family of nonlinear, model-based bandit algor...
ID: 2509.01924v1 stat.ML, cs.LG, stat.AP, stat.ME, 62P12, 91B06
Авторы:

Yifan Chen, Eric Vanden-Eijnden

## Контекст Многомерные данные в научных и прикладных задачах часто имеют сложные структуры и поведение в разных масштабах. Одной из основных проблем при моделировании таких данных является точность в подробных масштабах, которая часто страдает в силу ограниченности моделей. Задача построения эффективных генерирующих моделей для таких данных является важной, но до сих пор неудовлетворительно решаемой, особенно для сложных систем, например, систем физической неустойчивости, которые характеризуются многомерностью и многомерным динамическим поведением. ## Метод Методология, предложенная в работе, основывается на возобновлении идеи генерирующих моделей на основе потоков, но с учетом многомасштабности данных. Авторы предлагают использовать спектрально соответствующие шумы (noise distributions), чтобы исключить значительные ошибки в подробных масштабах. Также предлагается усовершенствованный подход к интерполяции, который учитывает многомасштабность и неустойчивость данных. Технически, это осуществляется с помощью спектральной адаптации шумов и интерполяции, чтобы создать модели, которые могут успешно оперировать с данными в разных масштабах. ## Результаты Авторы продемонстрировали свой подход на двух примерах: синтетических случайных полей и решениях кинетических уравнений. Результаты показывают, что использование шумов, соответствующих спектру данных, позволяет существенно повысить точность модели в подробных масштабах по сравнению с традиционными методами, такими как модели с белым шумом. Кроме того, новый подход демонстрирует значительное сокращение вычислительных затрат, не теряя в качестве результата. ## Значимость Предложенный подход может быть применен в различных областях, включая моделирование физических систем, генерирование данных для симуляций и прикладное исследование сложных динамических систем. Этот подход предоставляет преимущества в том, что он не только повышает точность, но и сокращает вычислительные затраты, что важно для решения научных и прикладных задач. Эффективность и точность моделей могут иметь значительное влияние на развитие глубокого обучения в научных задачах. ## Выводы Авторы успешно показали, что спектрально соответствующие модели могут эффективно сочетать точность и вычислительную эффективность в моделировании многомасштабных данных. Будущие исследования будут направлены на расширение этого подхода на более сложные системы и проверку его на реальных научных задачах.
Annotation:
Flow-based generative models can face significant challenges when modeling scientific data with multiscale Fourier spectra, often producing large errors in fine-scale features. We address this problem within the framework of stochastic interpolants, via principled design of noise distributions and interpolation schedules. The key insight is that the noise should not be smoother than the target data distribution -- measured by Fourier spectrum decay rates -- to ensure bounded drift fields near th...
ID: 2509.02971v1 stat.ML, cs.LG, cs.NA, math.NA, math.PR
Авторы:

Seokhun Park, Insung Kong, Yongdai Kim

#### Контекст Байесовские аддитивные деревья регрессии (Bayesian Additive Regression Trees, BART) являются мощным статистическим инструментом, который объединяет преимущества Байесовской информации и регрессионных деревьев. Он получил широкое применение в задачах, требующих локализации сложных нелинейных связей и взаимодействий между описательными переменными. Однако одной из проблем BART является относительная сложность в интерпретации результатов. Для решения этой проблемы была предложена модификация, названная ANOVA BART (англ. Additive Regression Trees based on Functional ANOVA Decomposition), которая основывается на анализе вариации функций с помощью функционального анализа вариаций (англ. Functional ANOVA). Новый подход позволяет декомпозировать вариацию функции на различные подпространства, каждое из которых отвечает за конкретный набор описательных переменных или факторов. ANOVA BART не только улучшает интерпретируемость модели, но и сохраняет и расширяет теоретические гарантии BART. Необходимость данного развития возникла из потребности в моделях, сочетающих высокую точность воспроизведения данных, высокую интерпретируемость и теоретическую надежность. #### Метод Метод ANOVA BART основывается на анализе вариации функции с помощью функционального анализа вариаций. Основополагающим элементом данного метода является декомпозиция функции на пространства, соответствующие различным компонентам вариации. В данном случае, пространство вариации декомпозируется на подпространства, каждое из которых отвечает за конкретный набор описательных переменных. Входные данные разбиваются на группы по группировочным переменным, после чего каждая группа представляется в виде дерева регрессии. Основным этапом метода является обучение деревов регрессии для каждой группы, чтобы отобразить вариацию функции на соответствующие подпространства. Поскольку данный подход не требует полного пересчета всех данных при изменении описательных переменных, он эффективен в высокомерных задачах. Для реализации подхода используются новые алгоритмы, которые позволяют разделить вариацию функции на компоненты с учетом ограничений на их взаимодействия. Это позволяет улучшить теоретические гарантии и повысить точность модели. #### Результаты Для оценки эффективности ANOVA BART проводились многочисленные эксперименты с различными данными. Были сравнивались результаты ANOVA BART и BART на тестовых наборах в задачах классификации и регрессии. Обнаружено, что ANOVA BART показывает более высокую точность и улучшенную оценку неизвестности во всех случаях. Было показано, что модель ANOVA BART предлагает более четкие оценки для каждой компоненты вариации, что д
Annotation:
Bayesian Additive Regression Trees (BART) is a powerful statistical model that leverages the strengths of Bayesian inference and regression trees. It has received significant attention for capturing complex non-linear relationships and interactions among predictors. However, the accuracy of BART often comes at the cost of interpretability. To address this limitation, we propose ANOVA Bayesian Additive Regression Trees (ANOVA-BART), a novel extension of BART based on the functional ANOVA decompos...
ID: 2509.03317v2 stat.ML, cs.LG
Авторы:

Wu Lin, Scott C. Lowe, Felix Dangel, Runa Eschenhagen, Zikun Xu, Roger B. Grosse

## Контекст Модель Shampoo является адаптивным методом, использующим структурированную второстепенную оценку моментов. Она стала популярной благодаря своей эффективности в обучении нейронных сетей, особенно при работе с большими моделями и данными. Однако, существующие исследования ограничиваются анализом схемы оценки Shampoo с применением нормы Фробениуса. Этот подход оставляет въедать некоторые вопросы о поведении метода в нестандартных ситуациях. Мы вносим новый взгляд на оценку второго момента Shampoo, рассматривая ее как процесс оценки ковариационной матрицы через минимизацию Kullback-Leibler (KL). Это новая точка зрения позволяет выявить ограничения модели и предложить улучшения, которые могут повысить ее производительность. ## Метод Мы предлагаем новую схему оценки, названную KL-Shampoo, которая использует минимизацию Kullback-Leibler для улучшения точности и стабильности Shampoo. Базовая идея заключается в том, что вместо того, чтобы приближать вторую моментную оценку градиента к специальному структурированному виду, мы оптимизируем ее с помощью минимизации KL, что дает более точные и стабильные результаты. Этот подход устраняет зависимость от Adam для стабилизации, что убирает дополнительную память, необходимую для работы Adam. Мы также проводим эксперименты, которые демонстрируют, что KL-Shampoo может значительно повысить производительность Shampoo, даже в сравнении с ее Adam-stabilized вариантом SOAP. ## Результаты Мы проводили эксперименты на нескольких задачах, включая задачу обучения нейронных сетей. Использовались большие данные, как на реальных, так и на синтетических задачах, чтобы оценить производительность KL-Shampoo. Результаты показывают, что KL-Shampoo не только улучшает стабильность, но и повышает точность, в том числе выполняя лучше, чем Adam-stabilized вариант SOAP в задачах предварительного обучения нейронных сетей. Эти результаты подтверждают, что KL-Shampoo может быть использован вместо Adam для стабилизации Shampoo и демонстрирует значительные выгоды в производительности и эффективности. ## Значимость Наши результаты показывают, что KL-Shampoo может быть применено в различных областях, включая не только обучение нейронных сетей, но и другие задачи, где требуется эффективное обновление весов модели. Одним из основных преимуществ является убирание зависимости от Adam, что позволяет экономить ресурсы памяти и улучшать производительность. Кроме того, мы убедились, что KL-Shampoo может быть применено в реальных ситуациях, что делает его привлекательным для применения в сложных нейронных сетях и другой сложной моделировании. Мы считаем, что это может открыть новые возможности в глубоком обучении и других областях, где модели
Annotation:
As an adaptive method, Shampoo employs a structured second-moment estimation, and its effectiveness has attracted growing attention. Prior work has primarily analyzed its estimation scheme through the Frobenius norm. Motivated by the natural connection between the second moment and a covariance matrix, we propose studying Shampoo's estimation as covariance estimation through the lens of Kullback-Leibler (KL) minimization. This alternative perspective reveals a previously hidden limitation, motiv...
ID: 2509.03378v1 stat.ML, cs.LG
Авторы:

Benjamin Heymann, Otmane Sakhi

## Контекст Во многих реальных задачах, таких как маркетинг, экономика и системы рекомендаций, необходимо оптимизировать некоторую функцию, которая влияет на результат, но не является непосредственным результатом. Этот результат часто представляет собой сумму многих мелких вкладов, каждый из которых вносит свой небольшой прирост. Данная задача отличается тем, что функция нелинейна, что означает, что оптимизация не просто равносильна оптимизации ожидаемого вклада каждого индивидуума. Эта проблема может возникнуть при оптимизации вероятности успеха таких процессов, как A/B-тестирование, где вместо максимизации ожидаемого выигрыша может быть более приоритетно достичь конкретного целевого показателя, например, превысить определенный уровень эффекта. Данная работа рассматривает этот класс задач и предлагает метод, решающий эту проблему. ## Метод Работа предлагает алгоритм оптимизации, который основывается на понятии "концентрации" результатов и методах градиентного спуска. Основная идея заключается в том, чтобы использовать свойства суммы многих независимых случайных величин, которые участвуют в результате. Алгоритм градиентного спуска адаптируется для нелинейной функции, используя оценки градиента, полученные из свойств распределения вкладов. Также в методе используется природа суммы вкладов, что позволяет эффективно "увидеть" как ориентироваться на целевой нормировочный показатель. Это позволяет проводить оптимизацию непосредственно на функции, не прибегая к преобразованиям или дополнительным вычислениям. ## Результаты Авторы проводят эксперименты на синтетических данных, которые подтверждают эффективность предложенного метода. Изучены различные сценарии, в том числе ситуации, когда целевой показатель задается в виде нормировочного уровня. Отмечено, что алгоритм позволяет эффективно оптимизировать функцию в случаях, когда есть много небольших вкладов, и при этом целевой показатель не является ожидаемым значением, а является целевым показателем, например, превышением заданного уровня. Эти результаты показывают, что метод эффективен в случаях, когда требуется оптимизация нелинейной функции с несколькими мелкими вкладами. ## Значимость Предложенный метод может быть применен в ситуациях, где необходимо оптимизировать результат, который является суммой многих небольших вкладов. В том числе, это может быть применено в маркетинге (например, в A/B-тестировании, где цель - превысить заданный уровень эффекта), в экономике (в проблемах многоцелевого оптимизации), и в других областях, где и
Annotation:
We consider the problem of directly optimizing a non-linear function of an outcome, where this outcome itself is the sum of many small contributions. The non-linearity of the function means that the problem is not equivalent to the maximization of the expectation of the individual contribution. By leveraging the concentration properties of the sum of individual outcomes, we derive a scalable descent algorithm that directly optimizes for our stated objective. This allows for instance to maximize ...
ID: 2509.03438v1 stat.ML, cs.LG
Авторы:

Imad Aouali, Otmane Sakhi

## Контекст Контекст данной работы — это область **off-policy learning (OPL)**, используемая в **offline contextual bandits** для принятия решений. Офф-полити стандарта (off-policy evaluation, OPE) и офф-полити обучения (off-policy learning, OPL) являются ключевыми компонентами в этой области. Они позволяют оценивать и улучшать политики действий в условиях выбора данных, не требуя проведения экспериментов в реальном времени. Проблема, которая вдохновила написание данной работы, заключается в том, что несмотря на теоретические доказательства, оптимизация OPE-оценщиков не всегда приводит к получению лучших политик в трудных оптимизационных условиях. Мотивация заключается в том, что текущие алгоритмы OPL не всегда эффективно справляются с оптимизационными задачами в ситуациях, когда количество возможных действий (action spaces) становится очень велико. Это вызывает необходимость изучения оптимизационных аспектов в OPL. ## Метод В этой работе рассматриваются теоретические основы и эмпирические эксперименты, направленные на изучение оптимизационных аспектов в OPL. Особое внимание уделено анализу проблем, возникающих в оптимизационных ландшафтах в ситуациях с большим количеством возможных действий. Авторы предлагают новый анализ **weighted log-likelihood objectives**, показывая, что эти функции оптимизации обладают значительно лучшими свойствами оптимизации в сравнении с другими подходами. Рассматривается архитектура алгоритмов, включающую в себя стратегии, оптимизирующие эти целевые функции. Это позволяет получить более стабильные и эффективные результаты при обучении политик в больших пространствах действий. ## Результаты Эксперименты были проведены на различных симуляционных и реальных данных, включая сценарии с большим количеством действий. Авторы сравнили новую подходящую методику с существующими методами OPL. Основные полученные результаты показывают, что **weighted log-likelihood objectives** демонстрируют значительное улучшение в скорости и качестве оптимизации. В результате, полученные политики не только эффективнее, но и часто превосходят политики, полученные при использовании стандартных OPL-методов. Эти результаты демонстрируют, что оптимизация целевых функций имеет большое значение в OPL, особенно в сложности оптимизационных задач в больших пространствах действий. ## Значимость Полученные результаты имеют несколько важных приложений. Во-первых, они могут быть применены в **рекламных системах**, где необходимо выбирать оптимальные действия на основе данных, не требуя реального времени. Во-вторых, в **экономике**, где требуется оценивать результаты различных стратегий в условиях
Annotation:
Off-policy evaluation (OPE) and off-policy learning (OPL) are foundational for decision-making in offline contextual bandits. Recent advances in OPL primarily optimize OPE estimators with improved statistical properties, assuming that better estimators inherently yield superior policies. Although theoretically justified, we argue this estimator-centric approach neglects a critical practical obstacle: challenging optimization landscapes. In this paper, we provide theoretical insights and extensiv...
ID: 2509.03456v1 stat.ML, cs.LG
Авторы:

Peiqi Zhao, Carlos E. Rodríguez, Ramsés H. Mena, Stephen G. Walker

## Контекст Область исследований сосредоточена на развитии методов генерируемых моделей, которые могут эффективно представлять информацию о данных с минимальными вычислительными затратами. Существующие подходы, такие как Generative Adversarial Networks (GANs) и Denoising Diffusion Probabilistic Models (DDPMs), хотя и эффективны, часто трудно интерпретировать и требуют значительных ресурсов. Были предложены методы, основанные на бутстреп-анализе и случайных весах, которые могут генерировать действительно интерпретируемые выборки. Однако эти методы часто ограничены в своих возможностях и не всегда достаточно мощны для больших и сложных данных. Мы предлагаем новый подход, основанный на теории образцов, который может оптимизировать представление данных в меньшем пространстве, сохраняя интерпретируемость и эффективность. ## Метод Мы предлагаем новый подход к генерируемым моделям, основанный на методе образцов, который использует случайные весы, вдохновленные Дирихлевским процессом и бутстрепом байесовским. Метод эффективно оптимизирует выборку случайных точек, которые могут лучше представлять данные, чем случайные точки в обычных методах. Выборка генерируется из весов, которые образуются из случайного процесса, используя теорию Бутстрепа и Дирихлевских процессов. Мы оптимизируем эти веса с помощью Convex--Concave Procedure (CCP), что позволяет найти наилучшее представление данных в указанном пространстве. Наша методология является скелетной, но может быть расширена для работы с различными типами данных и задачей. Мы разрабатываем алгоритмы, которые позволяют оптимально выбирать точки для представления данных в том числе для моделей генерируемых моделей. ## Результаты Мы проверили наш подход на двух различных наборах данных: MNIST и CelebA-HQ. Наши результаты показывают, что наш подход генерирует высококачественные и разнообразные выборки, при этом, не требуя больших вычислительных ресурсов. На MNIST, наш метод достиг квалити-эквивалентного результата Generative Adversarial Networks (GANs), но с меньшими вычислительными затратами. На CelebA-HQ, наши результаты показали, что наш подход производит высококачественные и разнообразные изображения, сохраняя интерпретируемость и эффективность. Мы также проверили, что наши выборки могут лучше представлять структуру данных по сравнению с существующими методами. ## Значимость Наш подход имеет широкое применение в сферах, где необходимо эффективно представлять данные с минимальными ресурсами. Он может быть использован для генерирования выборок для моделей генерируемых моделей, Monte Carlo-интегрирования, и других задач, где требуется
Annotation:
Support points summarize a large dataset through a smaller set of representative points that can be used for data operations, such as Monte Carlo integration, without requiring access to the full dataset. In this sense, support points offer a compact yet informative representation of the original data. We build on this idea to introduce a generative modeling framework based on random weighted support points, where the randomness arises from a weighting scheme inspired by the Dirichlet process an...
ID: 2508.21255v1 stat.ML, cs.LG
Авторы:

Marius Hofert, Gan Yao

## Контекст Генерируемые модели моментов (Generative Moment Matching Networks, GMMNs) широко применяются в области искусственного интеллекта для решения задач, подразумевающих учет зависимостей в данных. Однако существуют проблемы с устойчивостью и эффективностью обучения в этих моделях, особенно при работе с высокомерновыми зависимостями. Недостаток универсальных методов выбора параметров обучения приводит к неоптимальному обучению и снижению качества моделей. Необходимы новые подходы, позволяющие улучшить обучение GMMNs и увеличить их точность, особенно при работе с высокомерновыми зависимостями в сложных данных. ## Метод Предложен адаптивный процесс выбора банераных ядер (bandwidth selection procedure) для смесевого ядра в максимальной дискретизированной метрике различия (Maximum Mean Discrepancy, MMD), применяемой в GMMNs. Эта процедура стремится повысить точность и устойчивость обучения. Банераное ядро с подбираемым банером увеличивается во время обучения на основе относительного ошибки как для обучающихся, так и для проверочных потерь. Эта стратегия позволяет адаптироваться к изменениям данных и уменьшить вероятность переобучения. Кроме того, используется ансамбль ядер для повышения точности. Метод также включает в себя раннюю остановку на основе относительной ошибки проверочных потерь, чтобы предотвратить переучение. ## Результаты Выполнены эксперименты, показавшие значительное повышение эффективности обучения адаптивно обученных генерируемых моделей моментов (Adaptive GMMNs, AGMMNs) по сравнению с неадаптивными. Результаты подтверждаются тремя наборами данных: 1. **Копулы высоких размерностей**: Демонстрируется улучшение в обучении AGMMNs для генерации высокомерновых зависимостей. 2. **Моделирование финансовых данных**: Улучшенная модель AGMMNs показывает лучший результат при моделировании корреляции между активами в зависимости от риска. 3. **Параметрические модели**: AGMMNs избирательно превосходят классические модели, увеличивая точность и устойчивость. ## Значимость Предложенный подход может быть применен в различных сферах прикладной математики, финансовой теории и интеллектуальных системах. Он позволяет повысить точность моделей, уменьшить время обучения и обеспечить более стабильную работу. Это предоставляет потенциал для улучшения анализа и моделирования сложных зависимостей в данных. ## Выводы Адаптивный подход к выбору банераных ядер в AGMMNs позволяет значительно повысить точность и устойчивость обучения. Он показал выдающиеся результаты в различных приложениях, включая моделирование высокомерновых зависимостей и моделирование финансовых данных. Необходимы будущие исследования для расширения этого подхода к другим моделям и задачам, а также для
Annotation:
An adaptive bandwidth selection procedure for the mixture kernel in the maximum mean discrepancy (MMD) for fitting generative moment matching networks (GMMNs) is introduced, and its ability to improve the learning of copula random number generators is demonstrated. Based on the relative error of the training loss, the number of kernels is increased during training; additionally, the relative error of the validation loss is used as an early stopping criterion. While training time of such adaptive...
ID: 2508.21531v1 stat.ML, cs.LG, stat.CO, 62H99, 65C60, 60E05, 00A72, 65C10
Показано 471 - 480 из 564 записей