📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

M. Oguzhan Gultekin, Samet Demir, Zafer Dogan

## Контекст Independent Component Analysis (ICA) — это метод машинного обучения, применяемый для разделения независимых компонент в смешанных сигналах. Он находит применение в различных областях, включая сигнальный процессинг, биоинформатику и звуковые анализы. Одна из основных проблем ICA заключается в том, что ее эффективность снижается при работе с высокомерной и высоко-моментной данной, когда сигналы имеют сильно негауссовскую структуру. Это приводит к медленному обучению и снижению точности результатов. Мотивация для данного исследования лежит в том, чтобы понять, как высокомоментные свойства данных влияют на динамику обучения ICA и разработать стратегии, позволяющие улучшить его производительность в таких сложных условиях. ## Метод Для изучения влияния высокомоментных свойств данных на ICA использовалась модель, основанная на обыкновенных дифференциальных уравнениях (ODE) в высокомерном пределе. Эта модель позволяет тщательно контролировать статистические характеристики входных данных, определяя их моменты через весовые параметры. Алгоритм ICA анализировался в условиях сильной негауссовской структуры, когда входные данные состоят из смеси двух независимых величин с заданными моментами. Особое внимание уделялось влиянию моментов на скорость обучения и точность решения. ## Результаты Эксперименты показали, что при увеличении высокомоментных свойств данных, алгоритм ICA становится более склонным к медленному обучению и требует более мелких значений learning rate. Было выявлено критическое значение learning rate, при котором обучение становится невозможным. Также было продемонстрировано, что высокая негауссовская структура входных данных требует более точной инициализации параметров, чтобы обеспечить информативные решения. Эти результаты подтверждают, что ICA очень чувствителен к статистической структуре данных, а именно к их моментам. ## Значимость Полученные результаты имеют значимость в области ICA, особенно при работе с высокомерными и высокомоментными данными. Знание о влиянии моментов на динамику обучения позволяет разрабатывать более эффективные стратегии инициализации и адаптивных learning rate, чтобы улучшить точность и скорость обучения в таких условиях. Эти находки могут быть применимы в таких дисциплинах, как биоинформатика, звуковый анализ и компьютерное зрение, где ICA может использоваться для разделения сложных сигналов. ## Выводы Основной вывод исследования заключается в том, что ICA в высокомерных условиях сильно определяется статистическими моментами входных данных. Были выделены критические значения learning rate и параметров, необходимые для эффективного обучения. Будущие исследования
Annotation:
We investigate the impact of high-order moments on the learning dynamics of an online Independent Component Analysis (ICA) algorithm under a high-dimensional data model composed of a weighted sum of two non-Gaussian random variables. This model allows precise control of the input moment structure via a weighting parameter. Building on an existing ordinary differential equation (ODE)-based analysis in the high-dimensional limit, we demonstrate that as the high-order moments increase, the algorith...
ID: 2509.15127v1 stat.ML, cs.LG
Авторы:

Yigit E. Yildirim, Samet Demir, Zafer Dogan

#### Контекст Область исследования связана с проблемами улучшения устойчивости и справедливости в супервизированном обучении. Традиционное Empirical Risk Minimization (ERM) стремится минимизировать среднюю ошибку, но часто не учитывает высшую вероятность выбросов и недостаток справедливости. Это приводит к уязвимости систем к аномалиям и недостатку справедливости в решениях. Метод Tilted Empirical Risk Minimization (TERM) расширяет ERM, добавляя гиперпараметр $t$, который позволяет сбалансировать среднюю точность и устойчивость к выбросам. Однако в режимах онлайн-обучения, когда данные поступают по одному примеру за раз, классическая TERM-формула теряет свою гибкость, переходя к ERM. Это ограничение требует разработки эффективного онлайн-аналога TERM. #### Метод Мы предлагаем новую онлайн-формулу TERM, которая убирает логарифм из классической формулы, сохраняя эффект $t$. Это позволяет контролировать trade-off между ERM ($t \to 0$), увеличением справедливости ($t > 0$) и устойчивостью к выбросам ($t < 0$) без дополнительных вычислительных затрат. Метод использует быструю арифметику, сохраняя точность и гибкость TERM-метода в онлайн-режиме. #### Результаты Мы провели эксперименты на двух задачах: детекции миниорных классов в бинарной классификации и решении линейной регрессии с адверсарными выбросами. Для этих задач использовались синтетические и реальные данные. Результаты показали, что отрицательный tilt $t < 0$ эффективно подавляет влияние выбросов, а положительный tilt $t > 0$ увеличивает вероятность обнаружения миниорных классов, при этом не ухудшаясь точность. Online TERM показал схожие результаты с классическим TERM, но с меньшими затратами на вычисления при каждом новом примере. #### Значимость Метод может быть применен в задачах, где требуется справедливость и устойчивость, например, в финансовой отрасли, здравоохранении, системах мониторинга. Он позволяет гибко контролировать trade-off между точностью и уверенностью в системах, улучшая надежность и справедливость решений. Это может повлиять на развитие систем, требующих высокой точности и высокой устойчивости к аномалиям. #### Выводы Мы разработали эффективную онлайн-формулу TERM, которая сохраняет все преимущества классической TERM в режиме онлайн-обучения. Наши результаты демонстрируют эффективность метода в справедливости и устойчивости к выбросам. Мы планируем расширить применение нашего подхода к другим задачам, таким как классификация изображений и распознавание речи в режиме реального времени.
Annotation:
Empirical Risk Minimization (ERM) is a foundational framework for supervised learning but primarily optimizes average-case performance, often neglecting fairness and robustness considerations. Tilted Empirical Risk Minimization (TERM) extends ERM by introducing an exponential tilt hyperparameter $t$ to balance average-case accuracy with worst-case fairness and robustness. However, in online or streaming settings where data arrive one sample at a time, the classical TERM objective degenerates to ...
ID: 2509.15141v1 stat.ML, cs.LG
Авторы:

Jaeho Lee, Kangjin Kim, Gyeong Taek Lee

## Контекст Проблема оптимизации деревьев при построении моделей машинного обучения связана с тем, что традиционные методы ограничиваются оптимизацией только текущего узла. Это приводит к затуханию качества модели с ростом глубины дерева. Данная работа предлагает расширенный подход, оценивающий качество следующего уровня дерева вместе с текущим узлом. Целью является повышение точности модели, обеспечение более глубокого понимания зависимостей в данных и решение проблемы затухания качества в глубоких деревьях. ## Метод В центре модели Next-Depth Lookahead Tree (NDLT) лежит идея сложного оптимизационного процесса, включающего оценку качества текущего узла и предсказание качества следующего уровня. Архитектура основывается на инновационной модели дерева, позволяющей прогнозировать качество следующего уровня на основе текущего. Используются методы градиентного подъема и адаптивных ошибок, чтобы динамически корректировать оптимизационный процесс. Эти методы позволяют добиться более точных результатов и стабильности в процессе обучения. ## Результаты В ходе экспериментов NDLT был применен к различным датасетам, включая регрессионные и классификационные задачи. Обучение проводилось на больших объемах данных, использовавшихся для сравнения с традиционными деревьями. В результате, NDLT показал существенное повышение точности и сокращение ошибок в сравнении с традиционными моделями. Также были проведены тесты на реальных данных, подтвердив высокую степень обобщаемости модели. ## Значимость NDLT может быть применен в различных областях, таких как финансы, здравоохранение, прогнозирование погоды и другие, где глубокие деревья играют ключевую роль. Модель позиционируется как более точная и стабильная альтернатива традиционным деревьям. Ее преимущества заключаются в повышении качества, эффективности обучения и гибкости при применении к различным контекстам. Потенциальное влияние заключается в улучшении результатов в задачах, где требуется высокая точность и надежность. ## Выводы Результаты экспериментов подтверждают высокую эффективность NDLT в сравнении с традиционными деревьями. На основе этих результатов можно приходить к выводу, что NDLT является перспективным подходом для решения проблемы оптимизации деревьев в машинном обучении. Будущие исследования будут сконцентрированы на дополнительных тестовых случаях, оптимизации алгоритмов и исследовании возможности применения в новых областях.
Annotation:
This paper proposes the Next-Depth Lookahead Tree (NDLT), a single-tree model designed to improve performance by evaluating node splits not only at the node being optimized but also by evaluating the quality of the next depth level.
ID: 2509.15143v1 stat.ML, cs.LG
Авторы:

Samet Demir, Zafer Dogan

## Контекст Узнайте больше о возможностях асинхронного обучения с помощью трансформеров в области сложной нелинейной регрессии. Особое внимание уделено случаю, когда первая слоя случайно инициализируется и остается неизменной, а вторая слоя обучается. Более того, рассматривается асимптотический режим, в котором контекстная длина, размерность входных данных, размерность скрытого слоя, количество задач обучения и количество выборок обучения постепенно увеличиваются. В этом контексте мы рассматриваем то, как случайный трансформер с нелинейной моделью MLP может подходить к решению задач ин-контекстного обучения. Это важно для понимания, как пространство моделей и асимптотические условия влияют на качество обучения. ## Метод Мы используем асимптотический подход, в котором слои трансформера случайно инициализируются, а параметры обучения строго регулируются. Основная модель является нелинейной, используя первый слой, который неизменен, а второй слой, который обучается. Мы используем визуализацию и симуляции для проверки того, как размеры, активационные функции и регуляризационные методы влияют на поведение модели в среде асимптотического регрессионного обучения. Это позволяет понять, почему модель работает так, как работает, и как можно улучшить ее производительность в задачах регрессии. ## Результаты Мы проводим эксперименты с разными размерами контекста, размерностями скрытого слоя и регуляризационными методами. Мы наблюдаем "двойное дескентное явление" (double descent phenomenon), когда модель становится точнее при увеличении размера входных данных и скрытого слоя. Мы также показываем, как различные активационные функции и регуляризаторы влияют на ошибку ICL. Эти результаты позволяют нам лучше понять, как трансформеры вносят улучшения в качество решения в задачах регрессии в асимптотических условиях. ## Значимость Наша работа имеет значение в теоретической и практической области. Она позволяет понять, как трансформеры повышают качество обучения в задачах регрессии, а также как увеличение размерности модели и контекста влияет на производительность. Мы также открываем возможность использования этих наблюдений для будущих исследований в области машинного обучения и ин-контекстного обучения с нелинейными моделями. ## Выводы Мы показали, что случайный трансформер с нелинейной моделью MLP может быть эффективно использован для решения задач регрессии с помощью ин-контекстного обучения. Наша работа открывает путь к дальнейшим исследованиям в области масштабируемости трансформеров и их влияния на качество решения в задачах регрессии в асимптотических условиях. Будущий
Annotation:
We study the in-context learning (ICL) capabilities of pretrained Transformers in the setting of nonlinear regression. Specifically, we focus on a random Transformer with a nonlinear MLP head where the first layer is randomly initialized and fixed while the second layer is trained. Furthermore, we consider an asymptotic regime where the context length, input dimension, hidden dimension, number of training tasks, and number of training samples jointly grow. In this setting, we show that the rando...
ID: 2509.15152v1 stat.ML, cs.LG
Авторы:

Marat Khusainov, Marina Sheshukova, Alain Durmus, Sergey Samsonov

## Контекст Область исследований в данной работе относится к линейной регрессии, одной из ключевых задач машинного обучения и статистики. Одной из основных проблем в этой области является точность и скорость построения аппроксимации гауссовского распределения при онлайн-обучении. Задачу становится все более актуальной в условиях больших данных и необходимости ускорения вычислений. Существующие методы часто не могут обеспечить достаточную точность с учетом размера выборки и количества параметров. Мотивация для данного исследования заключается в развитии более эффективных методов для построения гауссовской аппроксимации в ситуациях, где объем данных и количество итераций являются ограниченными. ## Метод В статье предлагается метод онлайн-обучения с использованием линейных моделей и гауссовской аппроксимации. Основная идея заключается в использовании стохастического градиентного спуска с константным обновлением и адаптивной оценке дисперсии. Архитектура метода основана на теории градиентных методов и теории оцениваемости. Для построения аппроксимации используется теория SGD (Stochastic Gradient Descent) и подходы к оцениванию градиентов. Это позволяет поддерживать стабильность и эффективность аппроксимации даже при больших размерах выборки. ## Результаты В результате экспериментов показано, что скорость нормальной аппроксимации является около $\sqrt{\log{n}/n}$ при достаточно больших значениях $n$. Эксперименты проводились на синтетических данных с различным размером выборки и количеством параметров. Полученные данные подтверждают теоретические результаты и показывают, что метод эффективен даже при высокой размерности пространства признаков $d$. Также проводилась сравнительная оценка с другими подходами, показав выигрыш в скорости и точности. ## Значимость Результаты имеют большое значение для применения в онлайн-линейных регрессионных задачах, где требуется высокая скорость и точность аппроксимации. Метод может быть применен в ситуациях, когда необходимо решать задачи в реальном времени с большим количеством данных. Это может иметь практическое применение в сферах, таких как финансы, искусственный интеллект, биоинформатика и другие. Благодаря высокой эффективности и гибкости, данный подход может стать основой для развития новых методов в области машинного обучения. ## Выводы В данной работе были получены новые результаты по теории гауссовской аппроксимации в онлайн-линейных регрессионных задачах. Было установлено, что при достаточно больших объемах данных можно достичь скорости нормальной апп
Annotation:
In this paper, we consider the problem of Gaussian approximation for the online linear regression task. We derive the corresponding rates for the setting of a constant learning rate and study the explicit dependence of the convergence rate upon the problem dimension $d$ and quantities related to the design matrix. When the number of iterations $n$ is known in advance, our results yield the rate of normal approximation of order $\sqrt{\log{n}/n}$, provided that the sample size $n$ is large enough...
ID: 2509.14039v1 stat.ML, cs.LG, math.OC, 60F05, 62L20, 93E35
Авторы:

Jia-Qi Yang, Lei Shi

## Контекст Исследование основано на развитии статистических и математических методов для обучения нелинейных операторов между бесконечномерными пространствами. Традиционно, обучение нелинейных операторов сталкивается с проблемами, такими как высокая размерность пространств, ограниченная точность и ограниченные области применения. Необходимость развития эффективных и универсальных подходов, которые могут преодолеть эти ограничения, породила мотивацию для настоящего исследования. Текущие методы часто ограничены своим применением к линейным или диагональным операторам, не учитывая более широкие структуры моделей и их теоретические гарантии. ## Метод Предложенный фреймворк основывается на понятиях стохастической аппроксимации и обобщенных оператор-значных ядер (Mercer operator-valued kernels). Он охватывает две ключевые классы операторов: (i) компактные ядра, которые позволяют дискретной спектральной декомпозиции, и (ii) диагональные ядра, заданные как $K(x,x') = k(x,x')T$, где $k$ — это ядро отрезка, а $T$ — положительный оператор на выходном пространстве. Этот подход позволяет строить богатые векторно-значные пространства репрезентативного ядра (RKHS), которые расширяют классический подход $K = kI$. Для адресации операторов, не лежащих в RKHS, введены векторно-значные интерполяционные пространства для точного определения ошибки несоответствия. Этот фреймворк обладает гибкостью и может применяться к различным задачам обучения, включая целостные операторы, такие как Фредгольмовы операторы, и архитектуры на основе кодировщика-декодировщика. ## Результаты Проведены эксперименты на двумерных Навье-Стоксах, которые подтвердили высокую точность и стабильность метода. Использовались данные, симулирующие реальные процессы, чтобы проверить фреймворк на реальных задачах. Результаты показали, что фреймворк не только преодолевает ограничения линейных подходов, но и достигает полиномиальных полиномиальных скоростей сходимости в зависимости от размерности пространства. Это позволяет использовать метод для задач, требующих сложных нелинейных моделей, включая решение Навье-Стоксов и других типов решений, где необходимы точные и высокоточные решения. ## Значимость Предложенный фреймворк имеет широкие области применения в области обучения нелинейных операторов, включая физические задачи, медицину, экономику и другие. Он предоставляет высокую точность и гибкость, что позволяет его применять в сложных моделях, таких как динамические системы, которые необходимы в различных научных и практических областях. Основные преимущества включают в с
Annotation:
We develop a stochastic approximation framework for learning nonlinear operators between infinite-dimensional spaces utilizing general Mercer operator-valued kernels. Our framework encompasses two key classes: (i) compact kernels, which admit discrete spectral decompositions, and (ii) diagonal kernels of the form $K(x,x')=k(x,x')T$, where $k$ is a scalar-valued kernel and $T$ is a positive operator on the output space. This broad setting induces expressive vector-valued reproducing kernel Hilber...
ID: 2509.11070v2 stat.ML, cs.LG, cs.NA, math.FA, math.NA, math.ST, stat.TH
Авторы:

Charuka D. Wickramasinghe, Krishanthi C. Weerasinghe, Pradeep K. Ranaweera

## Контекст Оптимизация терапии и улучшение понимания характера воздействия лекарственных веществ на организм требуют точного моделирования взаимодействия лекарств с организмом. Расчетные модели, основанные на физических законов, играют ключевую роль в этом процессе. Одним из таких подходов является Physiologically Based Pharmacokinetic (PBPK) modeling, который базируется на детальной физиологической модели организма. Несмотря на свою мощь, PBPK-модели часто сталкиваются с проблемами, связанными с неточностью или недоступностью данных для определения параметров модели. Это открывает путь к инверсным задачам, нацеленным на определение параметров на основе наблюдаемых данных. Наиболее современными методами, применяемыми в этой области, являются методы машинного обучения. В частности, Physics-Informed Neural Networks (PINNs), которые интегрируют физические законы в обучение нейронных сетей, позволяют сочетать точность физических моделей с гибкостью машинного обучения. В данной работе предлагается PBPK-iPINN — инновационный подход, который применяет PINNs для решения инверсных задач в рамках PBPK-моделей, сфокусированных на мозговых компартментах. ## Метод PBPK-iPINN использует Physics-Informed Neural Networks для решения инверсных задач в PBPK-моделях, описывающих движение лекарственных веществ в мозговых компартментах. Эта модель включает в себя систему дифференциальных уравнений, каждое из которых представляет массообмен подсистему для каждого отдельного компартмента. Эти уравнения построены на основе физических законов, включая физиологические, биохимические и лекарственно-специфические параметры. PBPK-iPINN апплицирует PINNs для решения задачи определения параметров, которые в противном случае трудно или невозможно определить на основе имеющихся данных. Метод включает в себя несколько ключевых компонентов: (1) формулация loss-функции, включающей данные, инициальные условия и остаточные ошибки, (2) оптимизация параметров сети и конфигурации обучения, включая число слоев, нейронов, функций активации и оптимизаторов, и (3) важная настройка количества точек для колларизации, чтобы обеспечить точное решение. ## Результаты Результаты экспериментов показывают, что PBPK-iPINN позволяет точно определять параметры и профили концентраций лекарственных веществ в компартментах мозга. Эксперименты выполнены на наборе симулированных и реальных данных, сравнивая результаты с традиционными методами, такими как традиционные численные методы и статистические подходы. Это показало, что PBPK-iPINN не только достигает повышенной точности, но и обеспечивает гибкость в работе с различными условиями д
Annotation:
Physics-Informed Neural Networks (PINNs) leverage machine learning with differential equations to solve direct and inverse problems, ensuring predictions follow physical laws. Physiologically based pharmacokinetic (PBPK) modeling advances beyond classical compartmental approaches by using a mechanistic, physiology focused framework. A PBPK model is based on a system of ODEs, with each equation representing the mass balance of a drug in a compartment, such as an organ or tissue. These ODEs includ...
ID: 2509.12666v1 stat.ML, cs.LG, cs.NA, math.NA, 65L04, 65L09, 92B20
Авторы:

Zhao Feng, Bicheng Yan, Luanxiao Zhao, Xianda Shen, Renyu Zhao, Wenhao Wang, Fengshou Zhang

#### Контекст Исследования в области нефтяного и газового производства, а также систем разведки, сталкиваются со сложностями в обработке сложных нелинейных моделей, описывающих процессы внутри подземного пространства. Особенно затруднена обработка данных, относящихся к многофазному потоку, которые требуют точного учета различных физических процессов и высокого разрешения моделирования. Традиционные методы инверсии требуют последовательной адаптации для каждой новой конфигурации наблюдений, что замедляет процесс исследования и увеличивает затраты. Для решения этих проблем необходимо разработать метод, который объединит эффективность в обработке данных, точность в описании геологических полей и учет разброса полученных данных. SURGIN предлагается как решение этих задач, объединяя технологии генерирующих моделей с суррогатным моделированием. #### Метод SURGIN представляет собой новую фреймворк для инверсии данных, основанный на синергетической интеграции двух ключевых компонентов: U-Net enhanced Fourier Neural Operator (U-FNO) и score-based generative model (SGM). Сначала, SGM подготавливается в автономном режиме для захвата геологического примитива, используя самостоятельное обучение. Затем, U-FNO используется для эффективного моделирования физических процессов, интегрируясь с SGM в качестве условного генератора. Это решение рассматривается с точки зрения баYESIAN теории вероятностей, где процесс оценки параметров геологических полей формируется как смесь предварительной информации и наблюдаемых данных. Эта архитектура позволяет SURGIN выполнять реальное время моделирование без необходимости повторной обучения для каждой конкретной конфигурации наблюдений. #### Результаты Эксперименты проводились на синтетических и реальных наборах данных, включающих различные геологические поля и условия наблюдений. Результаты показали, что SURGIN способен эффективно восстанавливать геологические поля, включая сложные трёхмерные модели, и предсказывать динамику потока в пространстве и времени с высокой точностью. Более того, SURGIN доказал способность оценивать неопределённость в результатах с использованием квантованных показателей. Эти результаты подтверждают широкую применимость SURGIN для прикладных задач, включая моделирование многофазных потоков, мониторинг скважин и оценку ресурсов в подземных системах. #### Значимость SURGIN может быть применен в различных областях, включая нефтегазовое производство, экологический мониторинг и моделирование климатологических процессов. Он предлагает значительные преимущества по сравнению с традиционными методами, включая быструю реакцию
Annotation:
We present a direct inverse modeling method named SURGIN, a SURrogate-guided Generative INversion framework tailed for subsurface multiphase flow data assimilation. Unlike existing inversion methods that require adaptation for each new observational configuration, SURGIN features a zero-shot conditional generation capability, enabling real-time assimilation of unseen monitoring data without task-specific retraining. Specifically, SURGIN synergistically integrates a U-Net enhanced Fourier Neural ...
ID: 2509.13189v1 stat.ML, cs.LG, physics.flu-dyn, physics.geo-ph
Авторы:

Tien-En Chang, Argon Chen

#### Контекст Анализ зависимости и выбор переменных (Variable Selection) является ключевым элементом в статистике и машинном обучении, поскольку определяет важность предикторов и их вклад в модель. Однако существующие подходы часто игнорируют зависимости между предикторами, что приводит к неточностям в ранжировании. Другая актуальная проблема — недостаточность эффективности многих методов при работе с высокозависимыми предикторами. Известные методы, такие как lasso и relaxed lasso, хотя и эффективны, но имеют ограничения в работе с такими данными. Задача этой работы — проверить возможность использования меры relative importance (RI) для варьирования важности предикторов до создания модели. Это позволит использовать RI в качестве быстрого и точного инструмента для подбора переменных. #### Метод Для реализации RI-based variable selection использовались три меры: general dominance (GD), comprehensive relative importance (CRI) и усовершенствованная разность CRI.Z. Также включена мера marginal correlation (MC) для сравнения. Эти меры оценивают вклад каждого предиктора, как индивидуального, так и в составе комбинаций. Кроме того, для оценки эффективности проведены ряд экспериментов на синтетических и реальных данных. Модели, построенные на основе RI-ранжирования, сравнивались с классическими методами, включая lasso и relaxed lasso. #### Результаты Результаты экспериментов показали, что RI-меры превосходят marginal correlation в ранжировании предикторов, особенно при наличии слабых или подавленных предикторов. RI-меры также демонстрируют высокую точность в оценке вклада предикторов в зависимости от их комбинаций. Конкурентные тесты показали, что модели, построенные на RI-ранжировании, вы most-of-the-time выступают лучше, чем lasso и relaxed lasso, особенно в сложных случаях, когда многие методы другие никогда не работают. Например, в ситуациях с высокозависимыми предикторами, где lasso часто терпит неудачу, RI-методы показали свою эффективность. #### Значимость RI-based variable selection может использоваться во многих областях, где требуется эффективный выбор предикторов, например в биологии, финансах и других науках. Одним из основных преимуществ является высокая эффективность при работе с высокозависимыми данными, что делает его привлекательным для сложных задач. Кроме того, RI-методы экономичны в ресурсах и позволяют получить более точные результаты в ранжировании предикторов. Это создает новые возможности для расширения их применения в машинном обучении и статистике. #### Выводы Исследование показало, что RI-based variable selection является эффективным и конкурентоспособным методом для предикторского выбора, даже в самых сложных случаях. Он предлагает новый взгляд на роль RI в статистике и машинном обучении. Д
Annotation:
Although conceptually related, variable selection and relative importance (RI) analysis have been treated quite differently in the literature. While RI is typically used for post-hoc model explanation, this paper explores its potential for variable ranking and filter-based selection before model creation. Specifically, we anticipate strong performance from the RI measures because they incorporate both direct and combined effects of predictors, addressing a key limitation of marginal correlation ...
ID: 2509.10853v1 stat.ML, cs.LG
Авторы:

Jia-Qi Yang, Lei Shi

## Контекст Обучение нелинейных операторов в инфините dimensions является ключевым заданием в математических моделях, динамических системах и теории сигналов. Несмотря на развитие теоретических подходов, существуют сложности в объяснении и моделировании нелинейных связей в таких задачах. Одним из главных препятствий является "порча мер" — невозможность локализовать нелинейные структуры при большой размерности. Наши исследования фокусируются на развитии методологии, позволяющей локализовать нелинейные связи в высокомерном пространстве и улучшить точность при обучении нелинейных операторов. ## Метод Для решения этих задач мы предлагаем стохастический приближенный фреймворк на основе репродуцирующих нормальных пространств (RKHS). Методология основывается на использовании общих операторных ядер (general Mercer kernels), которые могут быть дискретными (как в случае с полиномами) или диагональными (с весами, зависящими от пространства). Мы расширяем классический класс $K = kI$, включая вектор-репродуцирующие RKHS, что позволяет увеличить модельную гибкость. Для учета ошибки мишпецификации мы используем вектор-интерполяционные пространства. Это позволяет предсказывать результаты с более высокой точностью, даже если целевые операторы лежат за пределами построенного подпространства. ## Результаты Мы провели эксперименты на двумерной задаче Navier-Stokes, которая является ключевой моделью в динамических системах. Наши модели позволяли достичь полиномиального уменьшения ошибки при обучении нелинейных операторов. Мы также проверили различные операторы, включая диагональные и генеральные операторы. Эксперименты показали, что наш фреймворк превосходит классические подходы в скорости и точности обучения в нерегулярных случаях. Эти результаты подтверждают теоретические основы фреймворка и его применимость к реальным задачам. ## Значимость Наш фреймворк может применяться в различных областях, включая теорию управления, динамические системы, математическую физику и анализ данных. Он позволяет решать задачи, в которых целевые операторы не подпадают под классические модели, такие как Fredholm и другие виды нелинейных операторов. Основное преимущество — возможность избежать "порчи мер" и достичь полиномиальной скорости сходимости с высокой точностью, даже при высокой размерности пространства. Это открывает новые возможности для моделирования и решения нерешенных вопросов в теории операторов. ## Выводы Мы разработали современный фреймворк для обучения нелинейных операторов, использующий операторные ядра. Этот подход позволяет решать широкий класс за
Annotation:
We develop a stochastic approximation framework for learning nonlinear operators between infinite-dimensional spaces utilizing general Mercer operator-valued kernels. Our framework encompasses two key classes: (i) compact kernels, which admit discrete spectral decompositions, and (ii) diagonal kernels of the form $K(x,x')=k(x,x')T$, where $k$ is a scalar-valued kernel and $T$ is a positive operator on the output space. This broad setting induces expressive vector-valued reproducing kernel Hilber...
ID: 2509.11070v1 stat.ML, cs.LG, cs.NA, math.FA, math.NA, math.ST, stat.TH
Показано 411 - 420 из 564 записей