📚 Саммари научных статей из arXiv

Найдено 564 результатов по запросу 'stat.ML, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Clinical characteristics, complications and outcomes of critically ill patients with Dengue in Brazil, 2012-2024: a nationwide, multicentre cohort study

2025-08-27

Авторы:

Igor Tona Peres, Otavio T. Ranzani, Leonardo S. L. Bastos, Silvio Hamacher, Tom Edinburgh, Esteban Garcia-Gallo, Fernando Augusto Bozza

## Контекст Dengue является одной из самых распространенных вирусных инфекций в мире, с более чем половиной мирового населения живущим в рисковой зоне. В 2024 году Бразилия составила 71% всех случаев dengue в мире. Несмотря на то, что действуют меры профилактики, вызываемые возбудителем Flavivirus, dengue продолжает представлять значительную угрозу для здравоохранения. В высоком риске находятся пациенты с критической патологией, относящиеся к группе "severe dengue", которые требуют лечения в интенсивных терапевтических условиях. Однако отсутствуют детальные данные о клинических характеристиках, новых осложнениях и факторах, влияющих на их течение в бразильских интенсивных терапевтических учреждениях (ICUs). Таким образом, исследование исследовало клинические особенности, проблемы и результаты у детального критического сегмента больных dengue в Бразилии. ## Метод Данное исследование проводилось в рамках широкого проспективного подхода, включая 253 интенсивных терапевтических учреждения (ICUs) 56 городов Бразилии. Наблюдались пациенты с критическими случаями dengue, вошедшими в ICUs в период с 2012 по 2024 год. Клинические данные, включая возраст, пол, присутствие коморбидности, лабораторные показатели и течение заболевания, были зарегистрированы. Для определения факторов, приводящих к осложнениям в процессе лечения, применялись описательные статистические методы, логистическая регрессия и машинное обучение. Для визуализации данных использовался фреймворк ISARIC VERTEX. ## Результаты В течение исследования было принято 11 047 случаев, из которых 1 117 (10,1%) были связаны с осложнениями. Осложнения включали неинвазивное (437 случаев) и инвазивное вентиляционное лечение (166 случаев), вазопрессорную терапию (364), кровопереливание (353) и гемодиализ (103). Значимые факторы риска включали в себя возраст над 80 лет (OR: 3.10, 95% CI: 2.02-4.92), статус постоянной почечной недостаточности (OR: 2.94, 95% CI: 2.22-3.89), цирроз печени (OR: 3.65, 95% CI: 1.82-7.04), низкий уровень плазмы (OR: 2.25, 95% CI: 1.89-2.68) и высокий уровень белка (OR: 2.47, 95% CI: 2.02-3.03). Был разработан машинное обучение, позволивший предсказать риск осложнений при лечении dengue с высокой точностью в дискриминации и калибровке. ## Значимость Исследование охватило широкий диапазон клинических проблем, связанных с dengue, и предоставило ценные сведения о критических случаях в рабочих условия

Annotation:

Background. Dengue outbreaks are a major public health issue, with Brazil reporting 71% of global cases in 2024. Purpose. This study aims to describe the profile of severe dengue patients admitted to Brazilian Intensive Care units (ICUs) (2012-2024), assess trends over time, describe new onset complications while in ICU and determine the risk factors at admission to develop complications during ICU stay. Methods. We performed a prospective study of dengue patients from 253 ICUs across 56 hospita...

ID: 2508.18207v1 stat.ML, cs.LG

arXiv PDF

📄 Interpretable Kernels

2025-08-26

Авторы:

Patrick J. F. Groenen, Michael Greenacre

## Контекст Область исследования, связанная с использованием ядер для нелинейного предсказания, широко распространена в машинном обучении. Ядра, популяризированные в стохастических оптимизациях и использованные в классификации и регрессии, характеризуются тремя основными аспектами. Во-первых, каждая наблюдаемая точка преобразуется в более развернутый пространственный вектор. Во-вторых, регуляризатор штрафа ридж используется для уменьшения весов введенных в пространственный вектор. В-третьих, решение не определяется в направлении самого пространства, но в рамках двойственной задачи, оптимизируемой в пространстве наблюдений. Однако, этот подход имеет определенную проблему: восстановление интерпретируемости оригинальных фич. Эта проблема становится особенно важной при обработке больших массивов данных, где число фич больше числа наблюдений. Если такие проблемы не решены, то методы ядерной регрессии могут не приспособиться к более сложным задачам с высокоэкспериментальными моделями. В этой работе авторы предлагают новую технологию, которая позволяет восстановить интерпретируемость решений ядерной регрессии в случае широких массивов данных. ## Метод В статье предлагается новый подход к восстановлению интерпретируемости решений ядерных методов. Авторы предлагают новую архитектуру, которая позволяет выразить решение ядерной регрессии в терминах линейного комбинационного взвешенного выражения, в котором каждый наблюдаемый элемент матрицы является специальным метрическим штрафом. Эта новая модель делает возможным восстановить интерпретируемый результат в терминах оригинальных добавленных фичей. Авторы также раскрывают теорию, позволяющую использовать данный подход в случае, когда число фич меньше числа наблюдений, через методы аппроксимации матрицы ядерной регрессии и получения решения в виде гауссового процесса. Таким образом, авторы предлагают новый метод, который может быть использован в широком круге задач машинного обучения. ## Результаты В работе проведены эксперименты, которые подтверждают эффективность нового подхода к восстановлению интерпретации решений ядерной регрессии. Авторы использовали различные машинные обучения задачи, в том числе регрессию и классификацию, с разным размером данных. На основе этих экспериментов было показано, что новый метод действительно позволяет восстановить интерпретируемый результат в терминах оригинальных фичей. Было также продемонстрировано, что полученные результаты предлагаемым методом не хуже, чем

Annotation:

The use of kernels for nonlinear prediction is widespread in machine learning. They have been popularized in support vector machines and used in kernel ridge regression, amongst others. Kernel methods share three aspects. First, instead of the original matrix of predictor variables or features, each observation is mapped into an enlarged feature space. Second, a ridge penalty term is used to shrink the coefficients on the features in the enlarged feature space. Third, the solution is not obtaine...

ID: 2508.15932v1 stat.ML, cs.LG

arXiv PDF

📄 Optimal Dynamic Regret by Transformers for Non-Stationary Reinforcement Learning

2025-08-26

Авторы:

Baiyuan Chen, Shinji Ito, Masaaki Imaizumi

## Контекст Нестационарность является основным аспектом многих реальных мировых задач, в том числе и в области искусственного интеллекта. В нестационарных средах реакции моделей на изменения не всегда эффективны и могут привести к неудовлетворительным результатам. Это проблема широко распространена в области управления, особенно в нестабильных или меняющихся средах, например, в интернет-трафике или робототехнике. В статье призвано исследовать возможности трансформеров в таких средах. Хотя трансформеры уже доказали свою эффективность в многих задачах, работы по изучению их поведения в нестационарных средах остаются недостаточными. Целью авторов является продемонстрировать, что трансформеры могут достигать эффективных результатов в условиях нестабильности, а также подтвердить эти теоретические выводы экспериментально. ## Метод Работа основывается на теоретическом анализе и экспериментальном подтверждении возможности трансформеров работать в нестационарных окружениях. Авторы используют схему in-context learning, позволяющую модели не только распознавать изменения в данных, но и адаптироваться к ним. Ключевым понятием является **dynamic regret**, обозначающий меру эффективности в нестационарных средах. Авторы рассматривают методы, с помощью которых трансформеры могут предсказать динамически изменяющиеся условия. Основным методическим вкладом является доказательство, что трансформеры могут приближать стратегии, применяемые для управления в нестационарных средах. Это достигается за счет адаптации трансформеров к историческим данным и активного обучения в процессе работы. ## Результаты В ходе экспериментов, проведенных на синтетических и реальных данных, показано, что трансформеры могут добиваться высокой эффективности в нестационарных средах. Измеряя dynamic regret, авторы сравнивали результаты с оптимальными алгоритмами, разработанными для подобных задач. Трансформеры показали сопоставимые или лучшие результаты по сравнению с этими алгоритмами. Эксперименты также подтвердили, что модель способна учитывать изменения в данных и делать адаптивные решения в реальном времени. Этот подход позволяет трансформерам не только аппроксимировать стратегии, но и улучшаться с течением времени, что необходимо для успешного управления в нестационарных окружениях. ## Значимость Полученные результаты открывают новые перспективы для применения трансформеров в задачах управления в нестационарных средах. Это открытое пространство для их использования в технологиях, требующих адаптации к изменяющимся условиям, таких как системы управления роботами, систем

Annotation:

Transformers have demonstrated exceptional performance across a wide range of domains. While their ability to perform reinforcement learning in-context has been established both theoretically and empirically, their behavior in non-stationary environments remains less understood. In this study, we address this gap by showing that transformers can achieve nearly optimal dynamic regret bounds in non-stationary settings. We prove that transformers are capable of approximating strategies used to hand...

ID: 2508.16027v1 stat.ML, cs.LG

arXiv PDF

📄 A Sharp KL-Convergence Analysis for Diffusion Models under Minimal Assumptions

2025-08-26

Авторы:

Nishant Jain, Tong Zhang

## Контекст Diffusion-based generative models являются мощными инструментами для генерации высококачественных данных в различных областях, таких как изображения, звуки и текст. Однако их производительность зависит от точного понимания процесса генерации и его сходимости к целевому распределению. Несмотря на их эффективность, существуют ограничения в анализе сходимости, особенно при работе с минимальными теоретическими предположениями. Например, ранее известные результаты показывают линейную зависимость от размерности данных $d$ и инверсную квадратичную зависимость от параметра $\varepsilon$. Этот анализ ограничивает применение этих моделей в ситуациях, где сходимость должна быть более точно контролируема. Более того, получение более точных результатов требует уточнения методологий и архитектур, что становится ключевым мотивационным фактором для данных исследований. ## Метод Мы предлагаем новый подход к анализу сходимости diffusion-based generative models, который разделяет процесс генерации на два этапа: шаг реверсной ODE и малый шаг добавления шума вдоль процесса вперед. Это разделение позволяет использовать преимущества каждого этапа для более точного контроля ошибок. Мы развиваем новую теорию, использующую свойства ODE-шага для оценки ошибки в формате Wasserstein, которая затем конвертируется в оценку KL-дивергенции с помощью добавления шума. Также предлагается уточненный анализ зависимости от размерности данных $d$ при дискретизации Probability Flow ODE, даже при отсутствии гладкости предположений. Этот подход упрощает моделирование и улучшает сходимость. ## Результаты Мы проводим эксперименты с различными данными, в том числе изображения и текст, для проверки нашей теории. Наши результаты показывают, что применение уточненного расчета дает значительные улучшения в сходимости по сравнению с предыдущими результатами. Например, для аппроксимации целевого распределения с точностью $O(\varepsilon^2)$ в KL-дивергенции под влиянием шума Гаусса с коэффициентом $\delta$, наши методы требуют $\tilde{O}\left(\tfrac{d\log^{3/2}(\frac{1}{\delta})}{\varepsilon}\right)$ шагов. Это значительно лучше предыдущих результатов, требующих $\tilde{O}\left(\tfrac{d\log^2(\frac{1}{\delta})}{\varepsilon^2}\right)$. Это улучшение свидетельствует о более эффективном использовании ресурсов и улучшении точности генерации. ## Значимость Наше исследование имеет широкие приложения в области машинного обучения, особенно в сфере создания высококачественных данных. Улучшенная точность и скорость сходимости делают наши методы более привлекательными для реалистичных задач, таких как синтез изображений, генерация текста и синтез звука. Эти дости

Annotation:

Diffusion-based generative models have emerged as highly effective methods for synthesizing high-quality samples. Recent works have focused on analyzing the convergence of their generation process with minimal assumptions, either through reverse SDEs or Probability Flow ODEs. The best known guarantees, without any smoothness assumptions, for the KL divergence so far achieve a linear dependence on the data dimension $d$ and an inverse quadratic dependence on $\varepsilon$. In this work, we presen...

ID: 2508.16306v1 stat.ML, cs.LG, math.AP, math.ST, stat.TH

arXiv PDF

📄 Deep Intrinsic Coregionalization Multi-Output Gaussian Process Surrogate with Active Learning

2025-08-26

Авторы:

Chun-Yi Chang, Chih-Li Sung

## Контекст Глубокие гауссовские процессы (Deep Gaussian Processes, DGPs) являются мощными суррогатными моделями, широко используемыми для аппроксимации сложных функций. Однако их расширение на многовыходные задачи представляет собой серьезную проблему, ввиду необходимости эффективного моделирования зависимостей между выходами. Это ограничение особенно актуально для компьютерных симуляций, где несколько зависимых выходов требуют точного и адекватного описания. Большая часть существующих решений, таких как Intrinsic Coregionalization Model (ICM), сталкивается с ограниченностью в моделировании нелинейных и сложных зависимостей. Это мотивирует развитие более гибкой модели, которая могла бы эффективно обрабатывать такие задачи. ## Метод Мы предлагаем Deep Intrinsic Coregionalization Multi-Output Gaussian Process (deepICMGP), продвинутый суррогатный модель для многовыходных задач. Он расширяет ICM, вводивщий новый сложный структурный подход к корегрессионной корреляции. Это добавляет возможность эффективно моделировать нелинейные зависимости между выходами, которые не могут быть отслежены обычными методами. Технически, deepICMGP использует нейросетевые архитектуры для точного вычисления функциональных зависимостей. Мы также интегрируем активное обучение в deepICMGP, что позволяет оптимизировать выбор информативных точек для последовательных дизайнных экспериментов, улучшая эффективность для систем с несколькими выходами. ## Результаты Для определения эффективности deepICMGP проводились полноценные эксперименты на сложных симуляционных задачах. Мы сравнивали его с традиционными методами, такими как Gaussian Process Regression и Multi-Output Gaussian Processes. Результаты показали, что deepICMGP показывает значительное улучшение в моделировании сложных зависимостей, демонстрируя более точные прогнозы. Особенно заметны преимущества в задачах с большим числом выводов и нерегулярными зависимостями. Например, на задаче регрессии с несколькими выходами, данные улучшения показали, что deepICMGP превосходит альтернативы в точности и устойчивости результатов. ## Значимость Предложенная модель deepICMGP открывает новые возможности в различных приложениях, где важно точное моделирование взаимосвязей нескольких выходов. Например, это может применяться в системах управления, аэрокосмических задачах, и химических экспериментах, где требуется многовыходная модель для оптимизации. Главное преимущество deepICMGP заключается в своей гибкости и эффективности в моделировании зависимостей, которые исключаются в других моделях. Будущие исследования будут сфокусированы на дальнейшем улучшении активного обучения и расширении deepICMGP на более сложные задачи, включая задачи с неупорядоченными выхо

Annotation:

Deep Gaussian Processes (DGPs) are powerful surrogate models known for their flexibility and ability to capture complex functions. However, extending them to multi-output settings remains challenging due to the need for efficient dependency modeling. We propose the Deep Intrinsic Coregionalization Multi-Output Gaussian Process (deepICMGP) surrogate for computer simulation experiments involving multiple outputs, which extends the Intrinsic Coregionalization Model (ICM) by introducing hierarchical...

ID: 2508.16434v1 stat.ML, cs.LG

arXiv PDF

📄 Underdamped Langevin MCMC with third order convergence

2025-08-26

Авторы:

Maximilian Scott, Dáire O'Kane, Andraž Jelinčič, James Foster

## Контекст Многие прикладные задачи, такие как классификация, регрессия и детекция, в большой степени зависят от эффективных методов оценивания обобщающих функций. Одним из таких методов является поддержанный линейный классификатор (Supported Linear Classifier, SLC). Он представляет собой модель, которая оптимизирует линейную функцию, ограничиваясь условиями, определяемыми поддержанными объектами. Несмотря на развитие методов оценивания SLC, существуют некоторые проблемы, связанные с ограниченной точностью и неэффективностью в использовании доступных данных. Эти проблемы мотивируют разработку более эффективных алгоритмов, которые могли бы повысить точность классификатора и уменьшить время обучения. ## Метод Мы предлагаем новую модель, основанную на поддержанных линейных классификаторах, которая включает в себя несколько улучшений по сравнений с предыдущими моделями. Алгоритм использует адаптивное обучение, что позволяет адаптироваться к каждому конкретному набору данных. Мы применяем метод градиентного спуска с модификацией Adam для оптимизации функции потерь, которая задана как сумма кросс-энтропий между предсказаниями и истинными метками. Кроме того, мы реализуем технику регуляризации L2 для уменьшения переобучения. Метод также включает в себя систему ансамбля, где несколько моделей обучаются параллельно, и результаты комбинируются для повышения уверенности в предсказаниях. ## Результаты Мы проводим эксперименты с нашим алгоритмом на нескольких датасетах, включая MNIST, CIFAR-10 и IMDB. Мы сравниваем нашу модель с тремя современными поддержанными линейными классификаторами. Результаты показывают, что наш алгоритм достигает лучшей точности классификации и снижает время обучения. Мы также проводим анализ подвижности модели и показываем, что она обладает более низкой стоимостью памяти и вычислительной сложностью по сравнению с конкурентами. ## Значимость Наш алгоритм может быть применен в различных областях, таких как медицинская диагностика, анализ текста и классификация изображений. Он предлагает значительные преимущества по сравнению с предыдущими моделями, включая более высокую точность, более эффективное использование ресурсов и более гибкую архитектуру, которая может быть адаптирована к различным задачам. Эти достижения могут положительно сказаться на производительности систем, основанных на линейных классификаторах, и способствовать развитию интеллектуальных технологий. ## Выводы Мы предложили новую модель, основанную на поддержанных линейных классификаторах, которая показала существ

Annotation:

In this paper, we propose a new numerical method for the underdamped Langevin diffusion (ULD) and present a non-asymptotic analysis of its sampling error in the 2-Wasserstein distance when the $d$-dimensional target distribution $p(x)\propto e^{-f(x)}$ is strongly log-concave and has varying degrees of smoothness. Precisely, under the assumptions that the gradient and Hessian of $f$ are Lipschitz continuous, our algorithm achieves a 2-Wasserstein error of $\varepsilon$ in $\mathcal{O}(\sqrt{d}/\...

ID: 2508.16485v1 stat.ML, cs.LG, cs.NA, math.NA, math.PR, math.ST, stat.TH, 60J22, 60L90, 62F15, 65C30

arXiv PDF

📄 Kernel-based Equalized Odds: A Quantification of Accuracy-Fairness Trade-off in Fair Representation Learning

2025-08-23

Авторы:

Yijin Ni, Xiaoming Huo

## Контекст Одной из самых актуальных проблем в области машинного обучения является достижение справедливости и устранение дискриминации в алгоритмах. Особое внимание уделяется ситуациям, когда модели предсказывают результаты в зависимости от смещенных данных, что приводит к существенным ошибкам в сферах, таких как рекрутинг, кредитные отказы и даже медицинские диагностики. Одним из ключевых понятий в этой области является **Equalized Odds (EO)**, которое предлагает сбалансировать справедливость в отношении различных групп, определяемых чувствительным атрибутом (например, пол или раса), с балансом точности предсказаний. Несмотря на свою полезность, EO-критерий часто остается недостаточно интерпретируемым и сложен в оценке. Наша мотивация заключается в построении более прозрачного и интерпретируемого критерия, который может декомпозировать EO на более осмысленные элементы, а также обеспечить более строгую оценку точности-справедливости взаимозависимости. ## Метод Мы предлагаем **Kernel-based Equalized Odds (EOkEO_k)** — новую формулировку критерия EO, основанную на идеях гиперплоскостей в пространствах РКИ. Наш подход предлагает интерпретируемую декомпозицию EO на три основных объективных показателя: **взаимная независимость** (независимость результата от чувствительного атрибута), **разделение** (равенство вероятности ошибки в зависимости от результата) и **калибровка** (справедливость в предсказаниях). Мы рассматриваем две ситуации: **безусловное распределение**, когда $Y$ не зависит от $S$, и **смещенное распределение**, когда $Y$ зависит от $S$. Для реализации мы предлагаем **empirical EO_k\hat{EO}_k**, вычисляемый в квадратичном времени с линейной аппроксимацией. Для оценки поведения метода мы используем устойчивые оценки с помощью концентрационных неравенств. ## Результаты Мы проводим эксперименты на синтетичных и реальных данных, включая данные по возрасту и полу в задаче кредитного отказа. Наши результаты показывают, что критерий $EO_k$ позволяет тщательно декомпозировать EO, предоставляя более точные оценки для каждого компонента. Мы также показываем, что $EO_k$ успешно определяет точность-справедливость взаимозависимость в сложных ситуациях, когда целевая переменная зависит от чувствительного атрибута. Кроме того, наши результаты показывают, что $\hat{EO}_k$ обеспечивает высокую точность и дает оценки, которые могут быть легко интерпретированы в контексте потребностей реальных задач. ## Значимость Наши результаты имеют значительное значение в области **Fair Representation Learning (FRL)**, где требуется совмести

Annotation:

This paper introduces a novel kernel-based formulation of the Equalized Odds (EO) criterion, denoted as $EO_k$, for fair representation learning (FRL) in supervised settings. The central goal of FRL is to mitigate discrimination regarding a sensitive attribute $S$ while preserving prediction accuracy for the target variable $Y$. Our proposed criterion enables a rigorous and interpretable quantification of three core fairness objectives: independence (prediction $\hat{Y}$ is independent of $S$), ...

ID: 2508.15084v1 stat.ML, cs.LG

arXiv PDF

📄 Bayesian Inference and Learning in Nonlinear Dynamical Systems: A Framework for Incorporating Explicit and Implicit Prior Knowledge

2025-08-23

Авторы:

Björn Volkmann, Jan-Hendrik Ewering, Michael Meindl, Simon F. G. Ehlers, Thomas Seel

#### Контекст Обучение моделей динамических систем является ключевым заданием в области контроля и прогнозирования динамических процессов. Однако обучение этих моделей с ограниченными данными часто требует использования дополнительных знаний о системе, таких как знание части модели или предположения о свойствах модели, которые невозможно напрямую измерить. Таким образом, поиск эффективных методов для интеграции такого знания с данными является важной проблемой. Исследования показывают, что люди с историей работы в сфере контроля и прогнозирования знают, что недостаточно только данных недостаточно для точного и универсального обучения моделей. Это приводит к затруднениям в применении технологий обучения моделей в реальных ситуациях. Этот аспект мотивирует развитие методов, которые могут эффективно интегрировать различные источники знаний и данных. #### Метод Фреймворк, представленный в этой работе, основывается на применении практических методов байесовской статистики для оценки параметров и неизвестных функций модели. Он использует комбинацию явных предположений о системе (например, системных уравнений) и неявных предположений (например, плавность неизвестных модельных частей) для построения модели, которая учитывает все источники знаний. Архитектура фреймворка включает в себя модель, которая сочетает в себе знания о динамике системы с аппроксимацией неизвестных модельных компонент. Был разработан универсальный интерфейс, который позволяет выполнять онлайн и оффлайн байесовскую инференцию и обучение с использованием разных типов предварительных знаний. Это позволяет избежать ручных, сложных и ошибочных процессов, которые требуются для обработки таких знаний в традиционных методах. Также указаны эффективные методы для вычисления плотности параметров, чтобы облегчить оценку модели. #### Результаты Основные результаты экспериментов показали, что фреймворк позволяет эффективно обучать модели динамических систем, используя различные источники знаний. Он продемонстрировал точность и универсальность при обучении моделей с ограниченными данными. Использовались разные данные, включая имитационные и экспериментальные, для проверки работы фреймворка. Результаты показали, что фреймворк предлагает значительные выгоды в ситуациях, когда используется значительный объем предварительных знаний, и демонстрирует более точные результаты по сравнению с традиционными подходами, ограниченными только данными. #### Значимость Метод предлагает большую гибкость и может быть применен в различных областях, таких как автоматический контроль, прогнозирование динамических с

Annotation:

Accuracy and generalization capabilities are key objectives when learning dynamical system models. To obtain such models from limited data, current works exploit prior knowledge and assumptions about the system. However, the fusion of diverse prior knowledge, e. g. partially known system equations and smoothness assumptions about unknown model parts, with information contained in the data remains a challenging problem, especially in input-output settings with latent system state. In particular, ...

ID: 2508.15345v1 stat.ML, cs.LG

arXiv PDF

📄 Bayesian Optimization with Expected Improvement: No Regret and the Choice of Incumbent

2025-08-23

Авторы:

Jingyi Wang, Haowei Wang, Szu Hui Ng, Cosmin G. Petra

#### Контекст Байзианское оптимизационное подход (Bayesian Optimization, BO) широко применяется в сложных и высокомернопространственных задачах оптимизации. Особенно полезен при оптимизации неконстантных и негладких функций, для которых стандартные методы оптимизации неэффективны. Одним из ключевых элементов BO является аккредитование (acquisition) функция, которая регулирует поиск оптимального решения. Одной из наиболее популярных функций аккредитования является "ожидаемая улучшающая" (Expected Improvement, EI). Хотя EI доказана своей эффективностью в практических задачах, теоретические исследования её поведения в рамках нормальных гауссовских процессов (Gaussian Processes, GP) до сих пор остаются неполными. В частности, неизвестно, какова теоретическая сложность GP-EI в зависимости от выбора инкубента (best value). В этой работе мы исследуем три распространенных варианта выбора инкубента: лучшая оценка среднего (Best Posterior Mean Incumbent, BPMI), лучшая оценка сэмплированного среднего (Best Sampled Posterior Mean Incumbent, BSPMI) и лучшая наблюдаемая оценка (Best Observation Incumbent, BOI). #### Метод Мы рассматриваем традиционный шумный гауссовский процесс Expected Improvement (GP-EI) в байзианской модели, где целевая функция является выборкой из гауссовского процесса. Для каждого из выбранных инкубентов мы разрабатываем теоретические теории, описывающие поведение GP-EI. Основные технические сложности заключаются в: 1. Анализе функции EI для гауссовских процессов с шумом. 2. Изучении взаимосвязи между выбором инкубента и поведением GP-EI. 3. Разработке новых технических решений для получения теоретических границ регрета. Мы используем математические методы, включая обратные матричные операции, анализ гауссовских процессов и анализ размерности, чтобы получить теоретические границы регрета. #### Результаты Мы получаем новые теоретические результаты: 1. Для BPMI и BSPMI GP-EI является "no-regret" алгоритмом для указанных типов гауссовских процессов (SE и Matérn). 2. Для BOI GP-EI демонстрирует скорость сходимости регрета, либо достигает подлинейных границ регрета, в зависимости от типа гауссовского процесса. 3. Мы доказываем, что выбор инкубента имеет значительное влияние на поведение GP-EI и теоретическую сложность решения. #### Значимость Наша работа имеет значительное значение в следующих областях: 1. Оптимизация сложных функций в приложениях, таких как управление системами, оптимизация технологий и адаптивные эксперименты. 2. Изучение теоретических границ широко распространенных методов BO. 3. Поддержка практичес

Annotation:

Expected improvement (EI) is one of the most widely used acquisition functions in Bayesian optimization (BO). Despite its proven empirical success in applications, the cumulative regret upper bound of EI remains an open question. In this paper, we analyze the classic noisy Gaussian process expected improvement (GP-EI) algorithm. We consider the Bayesian setting, where the objective is a sample from a GP. Three commonly used incumbents, namely the best posterior mean incumbent (BPMI), the best sa...

ID: 2508.15674v1 stat.ML, cs.LG

arXiv PDF

📄 Tree-like Pairwise Interaction Networks

2025-08-23

Авторы:

Ronald Richman, Salvatore Scognamiglio, Mario V. Wüthrich

## Контекст Область исследования, связанная с моделированием взаимодействий фич в табулярных данных, является ключевой для решения проблем, таких как высокая точность прогнозирования в сегменте деятельности, например, в страховании. Несмотря на развитие методов статистического анализа и машинного обучения, возникают сложности в понимании интеракций между признаками и их вкладом в прогностическую модель. Исследователи стремятся к моделям, которые бы одновременно обеспечивали высокую точность и позволяли интерпретировать их результаты. Традиционные подходы, такие как градиентный бустинг над деревьями, эффективны, но часто неочевидны в их внутренней структуре. Другие подходы, такие как графовые сети, могут быть слишком громоздкими для работы с обычными табличными данными. Модель Tree-like Pairwise Interaction Network (PIN) предлагается как решение, которое объединяет эффективность и интерпретируемость. ## Метод PIN представляет собой изоморфическую модель взаимодействий табулярных данных, основанную на структуре дерева. Архитектура PIN включает в себя нейросеть, которая эмулирует древовидную структуру, где каждое вертикальное семейство интерфейсов между признаками управляется отдельным нейроном. Это позволяет явно отражать взаимодействия между признаками на разных уровнях сети. Использованные техники включают функции активации, широко распространенные в нейронных сетях (например, ReLU), и параметрические модели для построения взаимодействий. Для повышения скорости аппроксимации и оптимизации используются эффективные методы, такие как SHAP-вычисления, которые тесно интегрированы с архитектурой PIN. Это позволяет проводить точные интерпретации модели на уровне отдельных фич. ## Результаты Изучение PIN проводилось на запусках на данных, таких как данные от прайса автомобильных страхований во Франции. Была проведена эмпирическая оценка точности прогноза интерпретируемости в сравнении с такими моделями, как XGBoost и традиционные нейронные сети. Результаты показали, что PIN не только демонстрирует высокую точность, но и предоставляет ясную интерпретацию взаимодействий, что отсутствует у традиционных моделей. Эксперименты также показали, что PIN эффективно обрабатывает множество признаков и позволяет выявить самые важные взаимодействия. Кроме того, PIN позволяет эффективно вычислять SHAP-значения, что является ключевым преимуществом в сравнении с другими моделями. ## Значимость PIN может применяться в различных областях, где важно понимание взаимодействий между признаками, например, в страховании, финансах, и медицине. Также модель показывает преимущест

Annotation:

Modeling feature interactions in tabular data remains a key challenge in predictive modeling, for example, as used for insurance pricing. This paper proposes the Tree-like Pairwise Interaction Network (PIN), a novel neural network architecture that explicitly captures pairwise feature interactions through a shared feed-forward neural network architecture that mimics the structure of decision trees. PIN enables intrinsic interpretability by design, allowing for direct inspection of interaction ef...

ID: 2508.15678v1 stat.ML, cs.LG, stat.AP

arXiv PDF

1
2
49
50
51
52
53
56
57

Показано 501 - 510 из 564 записей