📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Hiroshi Horii, Sothea Has

## Контекст Машинное обучение (ML) широко используется в различных областях, от обработки естественного языка до анализа изображений. Одним из ключевых аспектов ML является эффективное обучение нейронных сетей (DNNs), которое зависит от правильного выбора параметров, таких как слои, нейроны, и их инициализация. Несмотря на то, что существуют множество методов инициализации (например, He-normal и Xavier), наличие четкого математического канона для выбора их параметров не очевидно. Эта проблема особенно важна для DNNs, где неправильная инициализация может привести к плохому обучению и неоптимальным результатам. Целью данного исследования является разработка математического подхода для оптимального выбора инициализационной дисперсии в SGD-динамике DNNs. ## Метод Мы приближаем SGD к непрерывному времени с использованием Fokker-Planck-аппроксимации. Это позволяет изучить динамику инициализационного распределения через Kullback-Leibler (KL)-дивергенцию. Используя данную динамику, мы вычисляем ожидаемую функцию потерь в зависимости от инициализационного распределения. Этот подход применяется к DNNs, и мы получаем выражение для ожидаемой потери в зависимости от параметра дисперсии инициализации. Затем, минимизируя это выражение, мы получаем оптимальное значение дисперсии инициализации в классическом случае нормального распределения. Этот подход предоставляет новый способ выбора дисперсии инициализации, основанный на математических выкладках, а не на гипотезах. ## Результаты Мы проводим эксперименты с использованием SGD для обучения DNNs на двух классических датасетах: MNIST и Fashion-MNIST. Мы сравниваем результаты с классическим методом инициализации He-normal. Наши результаты показывают, что если дисперсия инициализации соответствует нашему оптимальному условию, то DNN-модели достигают ниже показателей финальной потери и выше показателей тестовой точности по сравнению с He-normal. Это подтверждает, что наш метод оптимального условия инициализации дает значительные выгоды по сравнению с существующими методами. ## Значимость Результаты этого исследования могут быть применены в различных ML-приложениях, где необходимо оптимизировать инициализацию DNNs. Этот подход обеспечивает четкий математический канон для выбора дисперсии инициализации, что повышает надежность и эффективность обучения DNNs. Кроме того, наш подход может быть расширен для других типов DNNs и оптимизационных методов, что дает потенциальный повод для будущих исследований в этой области. ## Выводы Мы разработали математическую модель для выбора оптимальной дисперсии инициализации в SGD-динамике DNNs. Наши теоретические ре
Annotation:
Stochastic gradient descent (SGD), one of the most fundamental optimization algorithms in machine learning (ML), can be recast through a continuous-time approximation as a Fokker-Planck equation for Langevin dynamics, a viewpoint that has motivated many theoretical studies. Within this framework, we study the relationship between the quasi-stationary distribution derived from this equation and the initial distribution through the Kullback-Leibler (KL) divergence. As the quasi-steady-state distri...
ID: 2508.12834v1 stat.ML, cs.LG
Авторы:

David Hirnschall, Robert Bajons

## Контекст Игровой процесс в футболе характеризуется высокой степенью динамичности и сложностью, возникающей из-за многочисленных взаимодействий между игроками и их перемещениями по полю. Одна из ключевых задач анализа футбольных игр — предсказание следующих действий игроков в процессе владения мячом (possession). Традиционные подходы к решению этой задачи часто опираются на фиксированные исторические окна, ручную инженерию признаков и предполагают неэффективное потребление ресурсов. Необходимо разработать более эффективный подход, который учитывает полную историю possession, избегая проблем, связанных с неучтенной или неуместной исторической информацией. ## Метод Предлагаемый подход основывается на применении метода путевых сигнатур (path signatures) для кодирования поведенческой структуры possession. Path signatures позволяют естественно учитывать порядок и взаимодействия событий в процессе possession, обеспечивая математически обоснованный способ описания сложных спектров данных без ручной инженерии признаков. Эта методология применяется для непрерывного временного ряда, не привязанного к фиксированному временному окну, и позволяет эффективно учитывать индивидуальные особенности каждого possession. ## Результаты Исследования проводились на основе данных из 2017/18 Premier League сезона. Наш подход показал выигрыш в производительности по сравнению с трансформер-бенчмарком на различных метриках потерь. Более того, наше решение значительно снижает количество вычислительных ресурсов, необходимых для обучения и применения модели. Мы также представили новую метрику для оценки possession на основе прогнозов типа действий и их местоположения, которая демонстрирует более высокую надежность в сравнении с имеющимися метриками. ## Значимость Предлагаемый подход может быть применен в сфере анализа футбольных матчей для оценки качества владения мячом и предсказания дальнейших действий игроков. Он предоставляет преимущества в своей гибкости, уменьшении необходимости в ручной инженерии данных и эффективности работы. Эти достижения могут вести к новым возможностям в спортивных анализах и помочь тренерам и аналитикам в понимании и улучшении игровых процессов. ## Выводы Мы представили новую модель для прогноза действий в футболе, основанную на path signatures. Наши результаты демонстрируют превосходство по сравнению с имеющимися подходами как в точности предсказаний, так и в вычислительной эффективности. Этот подход может стать ключевым инструментом для продвижения знаний в области спортивных анализов. Будущие исследования будут фокусироваться на расширении модели для других видов спорта и продвижении новых метрик для повыш
Annotation:
We present a novel framework for predicting next actions in soccer possessions by leveraging path signatures to encode their complex spatio-temporal structure. Unlike existing approaches, we do not rely on fixed historical windows and handcrafted features, but rather encode the entire recent possession, thereby avoiding the inclusion of potentially irrelevant or misleading historical information. Path signatures naturally capture the order and interaction of events, providing a mathematically gr...
ID: 2508.12930v1 stat.ML, cs.LG
Авторы:

Michael Deistler, Jan Boelts, Peter Steinbach, Guy Moss, Thomas Moreau, Manuel Gloeckler, Pedro L. C. Rodrigues, Julia Linhart, Janne K. Lappalainen, Benjamin Kurt Miller, Pedro J. Gonçalves, Jan-Matthis Lueckmann, Cornelius Schröder, Jakob H. Macke

## Контекст Область моделирования и инференции играет ключевую роль в различных научных и технических областях, где необходимо определить модельные параметры, соответствующие предварительным знаниям и эмпирическим данным. Традиционное Байесовское моделирование является эффективным подходом для этой задачи, но в случае использования сложных стохастических моделей, определенных симуляторами, получение вероятностной оценки может стать вычислительно трудоемкой задачей. Это ограничение становится более заметным при работе с большими данными и сложными моделями. Simlation-Based Inference (SBI) — это набор методов, разработанных для преодоления этих ограничений, позволивших производить научные открытия в таких областях, как частицая физика, астрофизика и нейронауки. Центральная идея SBI заключается в обучении нейронных сетей на данных, сгенерированных симулятором, без необходимости вычисления ликелиходности, что делает процесс более эффективным. ## Метод Симуляционно-Байесовская Инференция (SBI) заключается в использовании нейронных сетей для аппроксимации затруднительно вычислимой вероятностной логики. Основной методологией является процесс тренировки нейронных сетей на данных, сгенерированных симулятором, что позволяет получить аммортизированный инференционный процесс. Нейронные сети, оптимизированные для этой задачи, могут быстро оценивать параметры модели на основе новых эмпирических наблюдений. Различные подходы в рамках SBI включают в себя variational inference, rejection sampling и proxy likelihood, которые могут быть выбраны на основе конкретных задач. Архитектура SBI состоит из нескольких этапов: настройки симулятора и предварительных знаний (приоритетов), тренировки нейронных сетей, выполнения инференции и проверки результатов. ## Результаты Применение SBI в различных научных областях продемонстрировало его эффективность. Например, в частицей физике SBI использовался для определения параметров модели, связанных с экспериментами в рамках Ларсскаго акселератора. В астрофизике SBI применялся для оценки моделей, описывающих наблюдения космических тел. В нейронауке SBI использовался для идентификации моделей, описывающих поведение нейронных сетей в мозгу. Эти примеры демонстрируют мощь SBI в обеспечении быстрого и точного инференции в различных сферах. ## Значимость SBI имеет широкие применения в науке и технике, где требуется эффективное инференционное решение в условиях сложных стохастических моделей. Одним из основных преимуществ SBI является возможность аммортизированного инференции, что позволяет сокращать время вычислений. Кроме того, SBI позволяет сниз
Annotation:
A central challenge in many areas of science and engineering is to identify model parameters that are consistent with prior knowledge and empirical data. Bayesian inference offers a principled framework for this task, but can be computationally prohibitive when models are defined by stochastic simulators. Simulation-based Inference (SBI) is a suite of methods developed to overcome this limitation, which has enabled scientific discoveries in fields such as particle physics, astrophysics, and neur...
ID: 2508.12939v1 stat.ML, cs.LG
Авторы:

Habibolla Latifizadeh, Anika C. Pirkey, Alanna Gould, David J. Klinke II

## Контекст Прогресс в вычислительной мощности открыл путь для применения методов оценки взаимосвязей между переменными в различных областях науки. Особое внимание уделяется статистическим методам, позволяющим выявить причинные связи, в частности, с помощью сетей Байеса. Однако существуют проблемы, связанные с неоднородностью результатов, которые могут быть влияны не только источником данных, но и выбранным алгоритмом. Эти несоответствия могут вводить нежелательные искажения в полученные сетки причинно-следственных связей. Для решения этой проблемы предлагается использовать подход "мудрость толпы", который позволяет снизить влияние отдельных алгоритмов и повысить общую точность и надежность сетей. ## Метод Разработанный подход, реализованный в качестве фреймворка **BaMANI** (Bayesian Multi-Algorithm causal Network Inference), представляет собой энсамбл-алгоритм, который объединяет результаты нескольких алгоритмов оценки сетей причинно-следственных связей. Каждый алгоритм выступает как индивидуальный "опытный", при этом результаты собираются в единое целое, сводя смещения и неопределенности. Метод использует байесовский подход для статистической обработки, что позволяет учитывать не только вычислительные особенности каждого алгоритма, но и формальные модели причинно-следственных зависимостей. Эта архитектура обеспечивает высокую надежность и точность, когда требуется прогнозировать сети. ## Результаты Выполнены эксперименты с использованием реальных данных из области биологии, в частности, изучения человеческого типа ракового заболевания. Тестирование проводилось с различными алгоритмами, включая стандартные и современные способы оценки сетей причинно-следственных связей. Результаты показали, что применение **BaMANI** позволяет повысить точность оценки связей и уменьшить неопределенность. Эксперименты подтвердили, что подход эффективен в ситуациях, когда полученные сетки должны быть надежными и широко используемыми в научных исследованиях. ## Значимость Приложение **BaMANI** может быть применено в различных областях науки, где важно проводить статистическую оценку причинно-следственных связей. Например, в биологии, экологии, финансах и других областях, где выявление причинных связей является ключевым элементом. Этот подход не только улучшает точность, но и устраняет проблемы, связанные с несоответствием результатов, которые могут возникнуть при использовании отдельного алгоритма. Это делает **BaMANI** привлекательным для широкого круга специалистов, которые ищут надежные методы для прогнозирования причинно-следственных связей. ## Выводы Разработанный под
Annotation:
Improved computational power has enabled different disciplines to predict causal relationships among modeled variables using Bayesian network inference. While many alternative algorithms have been proposed to improve the efficiency and reliability of network prediction, the predicted causal networks reflect the generative process but also bear an opaque imprint of the specific computational algorithm used. Following a ``wisdom of the crowds" strategy, we developed an ensemble learning approach t...
ID: 2508.11741v1 stat.ML, cs.LG, q-bio.QM
Авторы:

Jenny Y. Huang, Yunyi Shen, Dennis Wei, Tamara Broderick

#### Контекст Современные бо LLM (large language models) широко используются в различных областях, включая обработку естественного языка, поддержку принятия решений и синтез текста. Одним из ключевых аспектов этих моделей является их ранжирование, которое определяет их эффективность и достоверность в задачах реального мира. Несмотря на то, что существуют многочисленные подходы к ранжированию, включая систему Брадли-Терри (Bradley-Terry ranking system), остается неясным, насколько эти ранжирования устойчивы к небольшим изменениям в данных. Эта неопределенность может привести к некорректным оценкам моделей и к неверным выводам в принципиальных задачах. #### Метод Мы предлагаем метод для оценки устойчивости ранжирования Брадли-Терри к удалению очень малого количества элементов данных. Метод основан на использовании дифференциальных вычислений для выявления наиболее влиятельных объектов данных. Он учитывает взаимосвязи между моделями и предпочтениями, позволяя идентифицировать точные элементы, которые могут исказить результаты. Этот подход эффективен, так как не требует переобучения модели и прост в интепретации. #### Результаты Мы проводили эксперименты с данными из двух популярных платформ для людских предпочтений: Chatbot Arena и MT-Bench. Наш анализ показал, что ранжирования, получаемые из Chatbot Arena, являются чрезвычайно чувствительными к малейшим изменениям в данных. Напротив, ранжирования, основанные на MT-Bench, демонстрируют значительное устойчивость. Это может быть объяснено тем, что MT-Bench использует экспертных оценщиков и тщательно сконструированные задачи. Даже при удалении менее 0.02% от общего количества предпочтений можно изменить топ-рейтинги моделей. #### Значимость Наши находки имеют значительное значение для разработчиков и оценщиков моделей. Они показывают, насколько важно учитывать устойчивость ранжирования при принятии решений о выборе моделей. Узнавая, какие конкретные предпочтения имеют наибольшую влиятельность, можно улучшить процессы оценки моделей, убедившись в их достоверности. Это также может привести к более убедительным и надежным результатам в приложениях, использующих LLM. #### Выводы Мы установили, что даже очень малые изменения в данных могут значительно повлиять на ранжирования LLM. Наши находки подчеркивают необходимость в разработке устойчивых методов оценки, чтобы избежать неверных выводов. Мы планируем расширить нашу работу, исследуя другие подходы к оценке устойчивости ранжирования и их применение в практических ситуациях. Это будет помочь создать более надежные и эффективные модели LLM.
Annotation:
We propose a method for evaluating the robustness of a widely used LLM ranking system -- the Bradley--Terry ranking system -- to dropping a worst-case very small fraction of evaluation data. Our approach is computationally fast and easy to adopt. When we apply our method to matchups from two popular human-preference platforms, Chatbot Arena and MT-Bench, we find that the Bradley--Terry rankings of top-performing models are remarkably sensitive to the removal of a small fraction of evaluations. O...
ID: 2508.11847v1 stat.ML, cs.LG
Авторы:

Jing Wang, HaiYing Wang, Kun Chen

## Контекст В последние годы наблюдается быстрое развитие области data fusion и transfer learning, которые способствуют улучшению моделей для конкретных аудиторий за счет использования данных из других связанных источников или задач. Однако в этой области существуют ряд проблем, включая различия между целевой и внешней выборками, а также технические и операционные ограничения, которые помешают простой интеграции данных. Мы рассматриваем сценарий, в котором целевая выборка ограничена размером, в то время как внешняя выборка является большой, но загрязненной выбросами. Данные загрязнения, вместе с вычислительными и операционными ограничениями, требуют оптимального выбора или субсэмплирования внешней выборки для transfer learning. На данный момент не достаточно тщательно изучены способы transfer learning и субсэмплирования в условиях загрязнения данных. Мы рассматриваем этот аспект, изучая различные методы transfer learning с выборкой внешних данных, учитывая выбросы, отклоняющиеся от главной модели в результате случайных сдвигов средних. ## Метод Мы разработали два стратегии субсэмплирования: одно для уменьшения биаса, а другое для минимизации дисперсии. Также предложены методы для комбинирования этих стратегий с целью повышения эффективности оценок. Мы предоставили неасимптотические ограничения ошибок для оценок transfer learning, в которых учитываются такие факторы, как размер выборок, сила сигнала, степень субсэмплирования, магнитуда выбросов и характеристики распределений модели. Эти подходы позволяют выявить основные факторы, влияющие на качество оценок в transfer learning. ## Результаты Мы провели обширные симуляционные эксперименты, которые подтвердили преимущество наших методов в сравнении с существующими подходами. В частности, мы продемонстрировали, что наши методы позволяют значительно улучшить точность оценок при субсэмплировании внешних данных, даже в условиях существенных загрязнений. Кроме того, мы применили наши методы для анализа риска тяжких посадок для самолета A380, используя данные с других типов самолетов. Это демонстрирует, что наш подход может повысить эффективность оценки для редких типов самолетов, используя данные от других типов. ## Значимость Наши результаты имеют значимое значение в области data fusion и transfer learning в условиях загрязнения данных. Мы показали, что наш подход может быть применен в различных областях, включая авиацию, медицину и финансы, где редкие типы событий или объектов имеют ограниченное количество данных. Наши методы обладают потенциалом для улучшения точности моделей и выявления рисков в таких областях. ## Выводы Мы раз
Annotation:
Data fusion and transfer learning are rapidly growing fields that enhance model performance for a target population by leveraging other related data sources or tasks. The challenges lie in the various potential heterogeneities between the target and external data, as well as various practical concerns that prevent a na\"ive data integration. We consider a realistic scenario where the target data is limited in size while the external data is large but contaminated with outliers; such data contami...
ID: 2508.12048v1 stat.ML, cs.LG, 62K05
Авторы:

Jeongjin Lee, Jong-Min Kim

## Контекст Одной из ключевых областей исследований в медицинских и клинических исследованиях является уточнение оптимальных динамических режимов лечения (optimal dynamic treatment regimes, ODTR) на основе данных с клиническими испытаниями. Несмотря на то, что многие методы, такие как Cox-based Q-learning, используются для оценки таких режимов, они часто сталкиваются с проблемами, такими как ограниченная способность обрабатывать сложные паттерны данных и устойчивость к биасу при неправильном моделировании. Дополнительно, в клинических испытаниях важна точность оценки результатов для уровней, таких как стадии лечения, чтобы избежать агрегирования биаса. Данная статья предлагает новую модель, BJ Boost Q learning, которая ориентирована на решение этих проблем, особенно в случае длительных клинических испытаний с правой законченностью (right censored survival data). ## Метод Метод BJ Boost Q learning основывается на интеграции Buckley James (BJ) boosting с методами Q-learning. Он использует модели accelerated failure time (AFT) для точного моделирования условной скорости выживаемости, что позволяет избегать проблем, связанных с неправильным моделированием. Метод также включает в себя iterative boosting, включая componentwise least squares и регрессионные деревья. Это позволяет производить более точную оценку Q-функций на каждой стадии лечения. Кроме того, BJ Boost Q learning не зависит от пропорциональных рисков (proportional hazards), что дает большую гибкость и устраняет биасы, которые могут возникать в классических подходах. ## Результаты Исследования показали, что BJ Boost Q learning выдает более точные результаты в задачах динамического лечения, особенно в сложных клинических ситуациях, когда данные подвержены законченности (right censoring). Для проверки работоспособности были проведены симуляционные эксперименты и анализ данных из ACTG175 HIV-триала. Эти исследования показали, что BJ Boost Q learning превышает современные методы, такие как Cox-based Q-learning, в точности оценки и быстродействии, особенно в многостадийных случаях, где существует риск агрегирования биаса. ## Значимость Благодаря своей гибкости и точности BJ Boost Q learning может быть применен в различных областях, включая клинические испытания, в которых необходимо оценивать динамические режимы лечения. Этот подход обеспечивает более точную индивидуализацию лечения и повышает достоверность результатов. Дальнейшие исследования могут сосредоточиться на расширении модели для учета новых факторов и интеграции с другими методами машинного обучения. ## Выводы BJ Boost Q learning представляет собой новую модель для оценки динамических режимов лечения, которая устраняет ограничения классических подходов. Результаты симуляций и клинического анализа демонстрируют высокую эффективность и точность этого метода,
Annotation:
We propose a Buckley James (BJ) Boost Q learning framework for estimating optimal dynamic treatment regimes under right censored survival data, tailored for longitudinal randomized clinical trial settings. The method integrates accelerated failure time models with iterative boosting techniques, including componentwise least squares and regression trees, within a counterfactual Q learning framework. By directly modeling conditional survival time, BJ Boost Q learning avoids the restrictive proport...
ID: 2508.11060v1 stat.ML, cs.LG, stat.ME
Авторы:

Paul Dommel, Rajmadan Lakshmanan

## Контекст Область исследования — необозначенная регрессия с использованием гауссовской ядерной регрессии (Gaussian Kernel Ridge Regression, KRR). Эта модель широко применяется в машинном обучении для решения задач нелинейной регрессии, особенно в случаях, когда данные имеют сложную структуру. Однако существуют теоретические проблемы, связанные с недостаточным пониманием поведения KRR в условиях использования фиксированных гиперпараметров. Эта проблема ограничивает понимание ее стабильности и эффективности. Мотивация заключается в получении математических результатов, установивших скорости сходимости KRR, чтобы уточнить ее теоретические ограничения и практическое применение. ## Метод Методология основывается на анализе гауссовской ядерной регрессии с использованием теории функций на открытых множествах, а также методов статистической линейной алгебры. Подход включает разложение в серию Маркова, статистический анализ поведения регрессора в пространстве гиперпараметров, и сравнение поведения KRR с другими моделями. Для доказательства полученных теоретических результатов использованы методы векторных матричных операторов и спектрального анализа. ## Результаты В работе доказаны математические результаты, установившие полиномиальные скорости сходимости KRR в обоих нормах — uniform и $L^{2}$. В частности, для фиксированных гиперпараметров гауссовского ядра установлена полиномиальная скорость сходимости в $L^{2}$-норме, что является новым доказательством для этого класса моделей. Для общего случая была доказана сходимость в uniform-норме, закрыв пробел в теоретическом понимании KRR с фиксированными гиперпараметрами. Эти результаты были получены с помощью спектрального анализа ядерных операторов и статистических моделей. ## Значимость Полученные результаты имеют значительное теоретическое и практическое значение. В области теории, эти доказательства устанавливают новые теоретические ограничения для моделей гауссовской ядерной регрессии, повышая понимание их работы в необозначенной регрессии. Закрытие пробела в теории позволяет усовершенствовать методы выбора гиперпараметров и повысить надежность моделей. Значимость для практики заключается в том, что полученные результаты могут быть использованы для повышения эффективности регрессионных задач, особенно в случаях, когда гиперпараметры ядра оптимально фиксированы. ## Выводы Основным достижением является установление полиномиальных скоростей сходимости гауссовской ядерной регрессии в обеих нормах (uniform и $L^{2}$). Это результат закрывает теоретический пробел и дает новый повод для исс
Annotation:
This paper establishes the first polynomial convergence rates for Gaussian kernel ridge regression (KRR) with a fixed hyperparameter in both the uniform and the $L^{2}$-norm. The uniform convergence result closes a gap in the theoretical understanding of KRR with the Gaussian kernel, where no such rates were previously known. In addition, we prove a polynomial $L^{2}$-convergence rate in the case, where the Gaussian kernel's width parameter is fixed. This also contributes to the broader understa...
ID: 2508.11274v1 stat.ML, cs.LG
Авторы:

Arnab Ganguly, Riten Mitra, Jinpu Zhou

## Контекст Задача построения моделей стохастических дифференциальных уравнений (СДУ) на основе данных является ключевым вопросом в математике, физике, биологии и других науках. Обычно, модели СДУ строятся в параметрическом виде, принимая за справедливыми значимые априорные гипотезы о динамике системы. Однако во многих ситуациях динамика системы не явно известна, или же характеристики модели трудно описать с помощью фиксированной структуры. Эти недостатки приводят к неточностям в моделировании и предсказаниях. Наша мотивация заключается в создании непараметрического подхода, который может извлечь динамику системы из данных, не прибегая к предварительным априорным предположениях. ## Метод Мы предлагаем непараметрический подход для изучения СДУ на основе минимизации функционала отрицательго логарифма правдоподобия в репродуцируемом гильбертовом пространстве (RKHS). Этот подход позволяет учитывать ситуации, когда некоторые части динамического процесса остаются необнаруженными. Решение этой задачи осуществляется с помощью статистического алгоритма Expectation-Maximization (EM). Для вычисления E-шага мы используем Sequential Monte Carlo (SMC), чтобы приблизить распределение фильтрации. М-шаг сокращается до задачи минимизации априорной функции в RKHS. Дополнительно, мы разработали модификацию алгоритма с гибридным Байесовским подходом, используя нейтральные предварительные гипотезы для регулирования модели. ## Результаты Мы проводили серию экспериментов, используя имитационные данные с различных типов СДУ, в том числе систем с высокой комплексностью и низким уровнем наблюдаемых данных. Наши результаты показали, что предложенный подход демонстрирует высокую точность в оценке динамических систем по частичной и шумной информации. Особенно хорошие результаты были получены при использовании гибридной Байесовской модификации, которая позволила снизить количество вычислительных вызовов и повысить точность оценок. ## Значимость Наш подход широко применим в таких областях, как моделирование климата, динамика биологических систем, финансовый анализ и другие науки, где необходимо единый расчет динамических процессов на основе неполных наблюдений. Также, наш метод предлагает значительные преимущества по сравнению с существующими параметрическими подходами, которые часто требуют значительных предварительных априорных усилий. ## Выводы Мы установили важные теоретические результаты в области непараметрического учета необходимой информации в ненаблюдаемых данных. Будущие исследования будут адресованы усовершенст
Annotation:
The paper proposes a systematic framework for building data-driven stochastic differential equation (SDE) models from sparse, noisy observations. Unlike traditional parametric approaches, which assume a known functional form for the drift, our goal here is to learn the entire drift function directly from data without strong structural assumptions, making it especially relevant in scientific disciplines where system dynamics are partially understood or highly complex. We cast the estimation probl...
ID: 2508.11597v1 stat.ML, cs.LG, math.PR, stat.ME, 62G05, 62M05, 60H10, 60J60, 46E22, 65C05, 65C35
Авторы:

Akshay Thakur, Sawan Kumar, Matthew Zahr, Souvik Chakraborty

## Контекст Решение частных дифференциальных уравнений (PDEs) широко используется в различных областях науки и техники, от физики и химии до инженерии и биологии. Однако, действительно точное решение этих уравнений может быть чрезвычайно сложным, особенно при работе с высокой размерностью или большим количеством данных. Одним из основных исходных мотивов для этого исследования является необходимость создания системы, которая может эффективно решать PDEs в сложных условиях с минимальными ресурсами. Более того, многие методы требуют значительного количества вычислений, что может привести к высоким затратам на вычислительные ресурсы, особенно при работе с большими данными или высокой точностью. Таким образом, целью этой работы является разработка метода, который может решать PDEs быстро и точно, при этом учитывая параметры проблемы и масштабируемость. ## Метод Предложенный метод основывается на применении проблемы в пространстве коллокации с использованием Gaussian Process Regression (GPR). Это позволяет получать решения для PDEs без необходимости использовать меш (grid-based), что уменьшает требования к памяти и увеличивает скорость вычислений. Однако, основная проблема в этой методике заключается в высокой стоимости вычислений при работе с большим количеством коллокационных точек. Для решения этой проблемы, авторы предлагают два ключевых усовершенствования. Во-первых, разработана стратегия стохастического двустороннего дезонтации (stochastic dual descent), которая уменьшает вычислительные затраты для каждой итерации, переходя от кубической к линейной стоимости в зависимости от количества точек коллокационных точек. Во-вторых, введена адаптивная стратегия кластеризации, которая позволяет выбирать только те точки коллокации, которые дадут максимальную информацию, с минимальным вычислительным вкладом. Эти инновации позволяют создать новый метод, который может эффективно решать PDEs на больших масштабах. ## Результаты Для оценки эффективности нового способа были использованы различные типы PDEs, включая одномерные и многомерные дифференциальные уравнения, а также проблемы временной зависимости (time-dependent). Эксперименты показали, что новый метод значительно эффективнее существующих методов, особенно при работе с большим количеством точек. Было показано, что эксперименты на простых 2D и 3D PDEs дали результаты, совпадающие с существующими методами, но с режекцией значительно меньших вычислительных затрат. В частности, на проблемах временной зависимости, новый метод показал существенно более высокую скорость вычислений и лучшую точность в сравнении с традиционными подходами. ## Значимост
Annotation:
Solving partial differential equations (PDEs) within the framework of probabilistic numerics offers a principled approach to quantifying epistemic uncertainty arising from discretization. By leveraging Gaussian process regression and imposing the governing PDE as a constraint at a finite set of collocation points, probabilistic numerics delivers mesh-free solutions at arbitrary locations. However, the high computational cost, which scales cubically with the number of collocation points, remains ...
ID: 2508.09623v2 stat.ML, cs.LG
Показано 521 - 530 из 564 записей