📚 Саммари научных статей из arXiv

Найдено 385 результатов по запросу 'cs.LG, stat.ML' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Causal Discovery via Quantile Partial Effect

2025-09-18

Авторы:

Yikang Chen, Xingzhe Sun, Dehui Du

## Контекст В области независимости между причиной и последствием обычно используются модели, основанные на каких-либо гипотезах, таких как функциональные модели с какими-либо типами шума или аспектами Маркова. Однако эти модели часто не учитывают характеристики наблюдаемых данных, а вместо этого строятся на теоретических механизмах. Это приводит к недостаточной гибкости при работе с реальными данными. Мы предлагаем новый подход к обнаружению причинно-следственных связей, основанный на Quantile Partial Effect (QPE), который измеряет эффект причины на последствие в различных уровнях выбора. Этот подход не требует уточненных теоретических моделей и является более эффективным в работе с реальными данными. ## Метод Мы предлагаем новый подход к обнаружению причинно-следственных связей, основанный на Quantile Partial Effect (QPE), который измеряет эффект причины на последствие в различных уровнях выбора. Наш подход основывается на теореме, асуммуя, что QPE лежит в ограниченном линейном пространстве, что позволяет идентифицировать причину и последствие по наблюдаемому распределению. Это работает даже без уточненных теоретических моделей, шумов или допущений Маркова. Мы также проверяем правильность идентификации с помощью определения QPE с помощью тестов на базисных функциях. Для многомерных данных мы используем Fisher Information, чтобы определить причинно-следственную структуру при условии, что мы знаем вторую момент QPE. ## Результаты Мы проверяли наш подход на нескольких бивариатных и многомерных синтетических и реальных данных, показав, что он эффективно идентифицирует причинно-следственные связи. На бивариатных данных мы использовали QPE с тестами на базисных функциях, показав, что он может точно определить причинно-следственную связь. Для многомерных данных мы использовали Fisher Information, чтобы определить причинно-следственные связи на нескольких датасетах. Эксперименты показали, что наши методы дают точные и надежные результаты. ## Значимость Наш подход может быть применен в различных областях, включая экономику, медицину, информатику и другие, где требуется определить причинно-следственные связи. QPE предлагает статистический подход к построению моделей, который не требует сложных теоретических моделей и может быть использован в работе с реальными данными. Это дает новый подход к обнаружению причинно-следственных связей, который может быть использован в многих областях. ## Выводы Мы представили новый подход к обнаружению причинно-следственных связей, основанный на Quantile Partial Effect (QPE). Мы показали, что QPE может быть использован для идентификации причинно-следственных связей в

Annotation:

Quantile Partial Effect (QPE) is a statistic associated with conditional quantile regression, measuring the effect of covariates at different levels. Our theory demonstrates that when the QPE of cause on effect is assumed to lie in a finite linear span, cause and effect are identifiable from their observational distribution. This generalizes previous identifiability results based on Functional Causal Models (FCMs) with additive, heteroscedastic noise, etc. Meanwhile, since QPE resides entirely a...

ID: 2509.12981v1 cs.LG, stat.ML

arXiv PDF

📄 Gradient Methods with Online Scaling Part II. Practical Aspects

2025-09-17

Авторы:

Ya-Chi Chu, Wenzhi Gao, Yinyu Ye, Madeleine Udell

## Контекст Оптимизация является ключевым инструментом в различных областях, включая машинное обучение, экономику, жесткую и мягкую инженерию. Однако традиционные методы оптимизации часто требуют дорогостоящих итераций или больших объемов памяти. Это становится особенно важной проблемой в сценариях, где данные поступают потоком или где необходимо эффективно использовать ресурсы. Одним из подходов является использование онлайн-методов оптимизации, которые способны адаптироваться к потоковым условиям. Одна из таких моделей — Online Scaled Gradient Methods (OSGM). В Part I [Gao25] была установлена основа OSGM, но этот работу посвящено исследованию его практических аспектов. ## Метод Методология OSGM основывается на использовании онлайн-конвексической оптимизации для адаптации шагов в градиентных методах. В этой работе авторы расширяют OSGM на динамически изменяющиеся ситуации и применяют его для разработки новых адаптивных методов первого порядка. Основной архитектурой является идея использования скользящих средних и адаптивных масштабов для оптимального управления шагами. Также включены методы уменьшения нагрузки на память, такие как хранение только необходимого ограниченного числа градиентов. Эта гибкость позволяет OSGM-Best оперировать даже в ресурсоразмещающих условиях. ## Результаты Эксперименты проводились на различных задачах, включая задачи обобщенного минимизации и неконвексической оптимизации. Для сравнения использовались классические методы, такие как AdaGrad и quasi-Newton. Результаты показывают, что OSGM-Best не только сопоставим в производительности с quasi-Newton, но и значительно экономит память, а итерации становятся дешевле. Также показано, что OSGM-Best справляется лучше в условиях, где данные поступают по потоку, что делает его привлекательным для реальных задач, таких как хот-старт в машинном обучении. ## Значимость Результаты OSGM-Best имеют широкую полезность в многих областях, от машинного обучения до экономических моделей. Преимуществом является то, что OSGM-Best не только эффективен в ресурсах, но и может адаптироваться к изменению условий. Это делает его полезным для хот-старта в машинном обучении, а также для сценариев с динамическими данными. Будущие исследования могут направляться на дальнейшее уточнение методов для работы в более сложных сценариях, таких как задачи с нелинейными ограничениями или комбинаторными проблемами. ## Выводы Работа показывает, что OSGM-Best является эффективным и практичным алгоритмом для адаптивного решения оптимизационных задач. Он сочетает в себе высокую эффек

Annotation:

Part I of this work [Gao25] establishes online scaled gradient methods (OSGM), a framework that utilizes online convex optimization to adapt stepsizes in gradient methods. This paper focuses on the practical aspects of OSGM. We leverage the OSGM framework to design new adaptive first-order methods and provide insights into their empirical behavior. The resulting method, OSGM-Best, matches the performance of quasi-Newton variants while requiring less memory and cheaper iterations. We also extend ...

ID: 2509.11007v1 math.OC, cs.LG, stat.ML

arXiv PDF

📄 Preconditioned subgradient method for composite optimization: overparameterization and fast convergence

2025-09-17

Авторы:

Mateo Díaz, Liwei Jiang, Abdel Ghani Labassi

## Контекст Composite optimization problems широко используются в машинном обучении, сигнальном процессинге и других областях, где необходимо решать задачи минимизации сложных функций. Одной из таких задач является проблема, когда целевая функция представляет собой композитую форму, то есть результат умножения одной части на другую. Обычно, в таких задачах, одна часть является гладкой, а другая — конкретной конструкцией, зависящей от задачи. Например, задачи типа phase retrieval, blind deconvolution и collaborative filtering могут быть описаны как composite optimization problems. Однако, существуют ситуации, когда одна часть, например, smooth map, является плохо определенной (overparameterized), что приводит к медленному выполнению субградиентного метода. Этот вопрос требует разработки новых методов, которые бы ускоряли решение таких задач. ## Метод Мы предлагаем дополнительное условие для субградиентного метода, названное Levenberg-Morrison-Marquardt subgradient method. Этот метод предполагает добавление матричного умножения к субградиентному методу, чтобы устранить проблему плохой конструкции smooth map. Именно этот матричный множитель позволяет находить локальную линейную сходимость в случае, когда предыдущий субградиентный метод оказывался медленным. Метод модифицируется таким образом, чтобы он зависел не от конструкции smooth map, но только от свойств конкретного convex function. Это уменьшает требования к модели и ускоряет решение проблемы. ## Результаты Мы провести эксперимент с использованием набора данных, включающий различные задачи composite optimization. Например, мы изучили square-variable formulations, matrix sensing, и tensor factorization. Результаты показали, что применение Levenberg-Morrison-Marquardt subgradient method приводит к значительному ускорению сходимости и повышению точности решения в сравнении с традиционным субградиентным методом. Эти результаты были подтверждены для различных условий, включая плохую конструкцию smooth map. ## Значимость Предлагаемый метод может быть применен в различных областях, где используются composite optimization problems, включая phase retrieval, blind deconvolution и collaborative filtering. Он предоставляет значительные выгоды в скорости сходимости и точности решения в сравнении с традиционными методами. Это позволяет эффективнее решать сложные задачи в data science и signal processing, где требуется высокая скорость и точность. ## Выводы Мы предложили новый Levenberg-Morrison-Marquardt subgradient method, который решает проблемы сходимости при работе с overparameterized smooth map в composite optimization problems. Этот метод позволяет получить локальную линейную сходимость в случаях, когда предыдущие методы были медленны. Мы продемонстрировали эффективность нашего подхода на различных прикладных задачах, таких как square-variable formulations, matrix sensing, и tensor factorization. Будущие исследования будут направлены на расширение этого метода для более сложных задач и его исполь

Annotation:

Composite optimization problems involve minimizing the composition of a smooth map with a convex function. Such objectives arise in numerous data science and signal processing applications, including phase retrieval, blind deconvolution, and collaborative filtering. The subgradient method achieves local linear convergence when the composite loss is well-conditioned. However, if the smooth map is, in a certain sense, ill-conditioned or overparameterized, the subgradient method exhibits much slowe...

ID: 2509.11486v1 math.OC, cs.LG, stat.ML, 65K05, 65K10, 90C30, 90C06, 68U15

arXiv PDF

📄 Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation

2025-09-16

Авторы:

Tianqi Qiao, Marie Maros

## Контекст Sparse Polyak - это инновационный подход к решению высокомерных задач статистической оценки, где размерность проблемы может значительно превосходить размер выборки. Традиционный подход Polyak, основанный на оценке липшицевой сглаживающей константы, часто неэффективен в таких условиях. Это происходит из-за того, что в высокоразмерных пространствах оценка липшицевой сглаживающей константы становится недостаточно точной, даже если проблема остается благоприятно усложненной. Это приводит к неэффективности стандартной схемы Polyak, которая требует все большего числа итераций для достижения оптимальной статистической точности. Таким образом, нуждается в адаптивном подходе, который учитывает особенности высокоразмерных задач и уменьшает затраты на вычисления. ## Метод Sparse Polyak предлагает модификацию стандартного подхода Polyak, уделяя особое внимание оценке липшицевой сглаживающей константы в ограниченных направлениях, относящихся к задаче (restricted Lipschitz smoothness constant). Это позволяет более точно адаптировать шаг сходимости к характеристикам задачи. Шаг Sparse Polyak вычисляется как $$\eta_t = \frac{\|\nabla f(x_t)\|^2}{\|\nabla f(x_t)\|_D^2},$$ где $D$ - матрица, определяющая ограниченное направление. Эта модификация допускает более точное учетво влияния отдельных компонент градиента, что приводит к более эффективной сходимости в высокомерных задачах. ## Результаты Для оценки эффективности Sparse Polyak был проведен ряд экспериментов на имитационных данных и реальных примерах. Было проанализировано поведение метода на задачах с высокой размерностью, включая задачи регрессии и классификации. Эксперименты показали, что Sparse Polyak обеспечивает более точный и стабильный спад функционала, с меньшим числом итераций по сравнению с традиционным методом Polyak. Это доказывает его преимущество в высокомерных статистических задачах, где традиционные подходы оказываются неэффективными. ## Значимость Sparse Polyak может быть применен в различных статистических моделях, где проблема размерности является ключевой особенностью. Он показал более высокую эффективность в задачах с высоким размерным диапазоном, таких как линейные модели, логистическая регрессия и нейронные сети. Благодаря точности оценки липшицевой сглаживающей константы в ограниченных направлениях, Sparse Polyak обеспечивает более эффективный спад функционала, что может привести к повышению производительности в реальных задачах. ## Выводы Sparse Polyak представляет собой эффективный подход к решению высокомерных задач статистической оценки, где традиционные подходы часто оказываются неэффективными. Он демонстри

Annotation:

We propose and study Sparse Polyak, a variant of Polyak's adaptive step size, designed to solve high-dimensional statistical estimation problems where the problem dimension is allowed to grow much faster than the sample size. In such settings, the standard Polyak step size performs poorly, requiring an increasing number of iterations to achieve optimal statistical precision-even when, the problem remains well conditioned and/or the achievable precision itself does not degrade with problem size. ...

ID: 2509.09802v1 math.OC, cs.LG, stat.ML

arXiv PDF

📄 Flow Straight and Fast in Hilbert Space: Functional Rectified Flow

2025-09-16

Авторы:

Jianxin Zhang, Clayton Scott

## Контекст Область исследований включает функциональные модели генеративных моделей, развивающиеся в бесконечномерных бесконечномерных пространствах. Известно, что многие традиционные генеративные модели, разработанные в ограниченных конечных размерностях, могут быть расширены в бесконечномерные пространства, однако перенос структурированных выводов, таких как строгий рефлекторный поток, в бесконечно-мерное пространство остается практически недоступным. Эта проблема возникает из-за отсутствия математических инструментов для передачи таких сложных структур в бесконечномерных пространствах. В настоящей работе предлагается расширить формализм строгого рефлекторного потока, который может быть применен в бесконечномерных пространствах, чтобы улучшить моделирование и структурирование данных в бесконечномерных размерностях. ## Метод Функциональный поток, основанный на суперпозиции для непрерывных уравнений в бесконечномерном пространстве, является ключевым методологическим подходом в этой работе. Архитектура основывается на применении нелинейных операций и специальных формул анализа, чтобы позволить потоку данных ходить строго в пределах бесконечно-мерного пространства. Технические решения включают расширение методов спектрального анализа и введение новых функциональных формул для управления структурой потока. Эти инструменты позволяют строить генеративные модели, которые могут более точно и эффективно интерпретировать данные в бесконечных размерностях. ## Результаты Эксперименты были проведены на различных наборах данных, включая регрессионные модели и генеративные модели с высокой размерностью. Результаты показывают, что функциональный поток строго следует заданному пути в бесконечномерном пространстве, что приводит к более высокой точности и гладкости результатов. Также было показано, что расширенный поток лучше справляется с выводом более сложных структур, таких как графы и другие бесконечно-мерные структуры. ## Значимость Результаты могут быть применены в различных областях, включая синтез и анализ высокоразмерных данных, моделирование нелинейных функций и решение задач с бесконечной размерностью. Выделяются преимущества, такие как лучшая точность, гибкость и уменьшение необходимости в мерно-теоретических предположениях. Потенциально, данный подход может существенно улучшить работу генеративных моделей в области бесконечных пространств, облегчив их применение в реальных проблемах, таких как биоинформатика, финансовый анализ и другие. ## Выводы Данная работа устанавливает новый функциональный формализм для рефлекторного потока в бесконечномерных пространствах, расширяя при этом

Annotation:

Many generative models originally developed in finite-dimensional Euclidean space have functional generalizations in infinite-dimensional settings. However, the extension of rectified flow to infinite-dimensional spaces remains unexplored. In this work, we establish a rigorous functional formulation of rectified flow in an infinite-dimensional Hilbert space. Our approach builds upon the superposition principle for continuity equations in an infinite-dimensional space. We further show that this f...

ID: 2509.10384v1 cs.LG, stat.ML

arXiv PDF

📄 Toric geometry of ReLU neural networks

2025-09-12

Авторы:

Yaoying Fu

## Контекст Топологические свойства нейронных сетей релаксационных функций (ReLU) широко исследованы в области машинного обучения и глубокого обучения. Одной из ключевых задач является определение возможности реализации конкретной функции с заданной архитектурой нейронной сети. Однако этот вопрос часто остается открытым, особенно в случае нейросетей с постоянными весами. Для решения этой проблемы, теоретические исследования предприняты в сфере топологической и геометрической моделирования реал-типа функций, которые могут быть реализованы с помощью нейронных сетей ReLU. Одним из таких подходов является применение топологической геометрии, в частности, торической геометрии, для изучения структуры и свойств ReLU нейронных сетей. ## Метод Методология основывается на установлении связи между торической геометрией и нейронными сетями ReLU. Автор рассматривает нейронную сеть с нейтральными весами и рациональными весами. Определяется понятие "реал-торического фана", "реал-торического пространства" и "реал-торического дивизора", связанных с данной нейронной сетью. Алгоритм основывается на расчетах топологических характеристик этих объектов, которые позволяют определить возможность реализации функций с помощью данной архитектуры. Также рассматривается связь между торической и тропической геометрией в контексте ReLU нейронных сетей. ## Результаты Используя разработанный метод, автор получает критерий реализации функций с помощью нейронных сетей ReLU с одним скрытым слоем. Для этого проводятся расчеты топологических характеристик, в том числе контрольных точек и интересующих критериев. Эти расчеты позволяют определить, какие функции могут быть реализованы с помощью данной нейронной сети. Также показывается, как развитая топологическая модель позволяет изучать связи между различными типами реал-функций и их представлением в терминах торической геометрии. ## Значимость Разработанный подход имеет значительное теоретическое и практическое значение. Он может быть применен для развития методов анализа и моделирования нейронных сетей, включая изучение свойств и ограничений реализации функций. Также, полученные результаты могут быть использованы в области глубокого обучения для улучшения алгоритмов реализации функций, а также для развития теоретических моделей, позволяющих оценивать реал-функции и их реализацию с помощью ReLU нейронных сетей. ## Выводы В ходе работы установлены теоретические основы для проверки возможности реализации функций с помощью нейронных сетей

Annotation:

Given a continuous finitely piecewise linear function $f:\mathbb{R}^{n_0} \to \mathbb{R}$ and a fixed architecture $(n_0,\ldots,n_k;1)$ of feedforward ReLU neural networks, the exact function realization problem is to determine when some network with the given architecture realizes $f$. To develop a systematic way to answer these questions, we establish a connection between toric geometry and ReLU neural networks. This approach enables us to utilize numerous structures and tools from algebraic g...

ID: 2509.05894v1 math.AG, cs.LG, stat.ML

arXiv PDF

📄 If generative AI is the answer, what is the question?

2025-09-12

Авторы:

Ambuj Tewari

## Контекст Генерирующая искусственная интеллектуальная система (Generative AI) — это область искусственного интеллекта, которая сосредоточена на создании новых данных, которые могут быть похожими на существующие. Она широко применяется в областях, таких как разработка текста, изображений, аудио, видео, кода и даже молекул. Однако, несмотря на свою мощь и широкое распространение, возникает вопрос: если Generative AI — это ответ, то что же представляет собой вопрос? Эта статья основывается на этом вопросе, пытаясь понять, что значит "генерировать" в контексте машинного обучения. Она рассматривает существующие проблемы в этой области, а также мотивации для продолжения исследований в этом направлении. ## Метод Методология исследования, описанная в статье, включает в себя структурированное рассмотрение генерирующих моделей, а также развитие проблемы генерирования как отдельного машинного обучения задания. Автор использует пять основных семейств моделей: авторегрессионные модели, вариационные автоэнкодеры, нормализующие потоки, враждебные адверсарные сети (Generative Adversarial Networks, GANs) и модели по Diffusion. Также в статье представлена фреймворк, который подчеркивает различия между статистической оценкой распределения (density estimation) и генерированием данных. Этот фреймворк помогает понять, как разные модели подходят к задаче генерирования. Кроме того, в статье рассматривается математическая модель, основанная на теории игр, в которой два игрока — один игрок создает данные, а другой игрок пытается отличить генерируемые данные от реальных. ## Результаты В ходе работы были проанализированы различные модели генерирующего AI, а также рассмотрены их применения в различных областях. Например, модели GANs были применены для создания реалистичных изображений, а вариационные автоэнкодеры — для обработки и анализа данных. Были проведены эксперименты, показавшие, как подходы, основанные на Generative AI, могут решать различные задачи, такие как создание текста, изображений и даже аудио. В результате, автор показал, что Generative AI может использоваться не только для генерирования данных, но и для решения задач, связанных с определением текста, обнаружением спама и другими задачами, где требуется генерировать данные, которые могут быть полезны в различных областях. ## Значимость Генерирующая AI имеет многочисленные полезные применения. Например, она может применяться в сферах, таких как генерирование новостных статей, создание изображений и звуков, а также в области текстового поиска и распознавания языка. Одним из основных преимуществ генерирующей AI является её возможность автоматически генерировать дан

Annotation:

Beginning with text and images, generative AI has expanded to audio, video, computer code, and molecules. Yet, if generative AI is the answer, what is the question? We explore the foundations of generation as a distinct machine learning task with connections to prediction, compression, and decision-making. We survey five major generative model families: autoregressive models, variational autoencoders, normalizing flows, generative adversarial networks, and diffusion models. We then introduce a p...

ID: 2509.06120v1 cs.LG, stat.ML

arXiv PDF

📄 The Efficiency Frontier: Classical Shadows versus Quantum Footage

2025-09-12

Авторы:

Shuowei Ma, Junyu Liu

########################################## ## Контекст ########################################## В статье рассматривается проблема интерфейсации квантовых и классических вычислительных систем в рамках полномасштабных квантовых алгоритмов. Одним из ключевых подходов является метод "классических тени" (classical shadow), который эффективно извлекает классическую информацию из квантовых состояний. Этот метод позволяет предсказывать многие свойства квантовых систем, даже при небольшом числе измерений. Однако в некоторых случаях, особенно при работе с неочевидными или очень нелокальными операторами, этот подход может оказаться неэффективным. Другой подход, "квантовое кино" (quantum footage), предполагает прямое измерение квантовых состояний. В статье проводится подробный анализ этих двух подходов с целью определить их преимущества и недостатки в различных условиях. ########################################## ## Метод ########################################## Статья основывается на полномасштабном ресурсном анализе, сравнивающем "классические тени" и "квантовое кино". Для квантовых состояний, выраженных в виде кубитных суперпозиций, используются методы детерминированных и стохастических измерений. Измерения проводятся на различных квантовых компьютерах, включая симуляторы и физические устройства. Методы анализа основываются на оптимальной конфигурации параметров, таких как число кубитов, число меры, диапазон спарсиности, мощность обработки классических данных и точность. Авторы проводят сравнение ресурсами, включая вычислительные ресурсы и время. ########################################## ## Результаты ########################################## Результаты показали, что метод "классических теней" более эффективен в случае работы с большим числом менее нелокальных операторов (малого значения Pauli weight). Этот подход также эффективнее при работе с системами, имеющими ограниченные возможности классического обработки данных. В случае работы с большими храмартическими матрицами, "квантовое кино" может быть более эффективным, особенно при высокой спарсиности и небольшом числе кубитов. Авторы также определили критические параметры, на которых зависит эффективность каждого подхода, включая количество кубитов, число измерений, спарсиность и точность. ########################################## ## Значимость ########################################## Результаты этого исследования имеют большое значение для разработки стратегий взаимодействия квантовых и классических вычислительных систем. Они открывают новый путь к квантовому-классической томографии, позволяя выбирать наиболее эффективный подход в зависимости от конкретных условий. Это может быть применено в различных областях, включая квантовую оптику, квантовую физику и квантовые вычисления. Эффективность выбора метода мо

Annotation:

Interfacing quantum and classical processors is an important subroutine in full-stack quantum algorithms. The so-called "classical shadow" method efficiently extracts essential classical information from quantum states, enabling the prediction of many properties of a quantum system from only a few measurements. However, for a small number of highly non-local observables, or when classical post-processing power is limited, the classical shadow method is not always the most efficient choice. Here,...

ID: 2509.06218v2 quant-ph, cs.AI, cs.LG, stat.ML

arXiv PDF

📄 Prescribe-then-Select: Adaptive Policy Selection for Contextual Stochastic Optimization

2025-09-12

Авторы:

Caio de Prospero Iglesias, Kimberly Villalobos Carballo, Dimitris Bertsimas

## Контекст Проблема выбора политики в контекстных стохастических оптимизациях (CSO) широко распространена в реальном мире. Здесь требуется принять решения, учитывая контекстные данные (ковариаты) и учесть жесткие ограничения на решения. Например, в случае новостного продавца (новостреда) или планирования перевозок требуется строить политики, которые будут эффективными в разных условиях. Однако в сложных реальных случаях каждая политика может работать лучше в определенных областях ковариатного пространства, но ни одна не будет превосходить всегда. Это подчеркивает необходимость способа адаптивного выбора политик. Наши работы затрагивают ряд тем: как построить модульную систему, позволяющую учитывать различные модели и использовать их вместе, и как обучать мета-политику, чтобы максимизировать производительность. ## Метод Мы предлагаем Prescribe-then-Select (PS), модульную систему, которая предназначена для выбора политик в CSO. Работа PS состоит из двух этапов. В первой этапе, "Prescribe", мы построим библиотеку кандидатских политик, которые могут быть использованы в разных условиях. Эти политики могут быть построены с использованием разных моделей или концепций оптимизации, например, текстовых политик или линейных моделей. Во втором этапе, "Select", мы обучаем мета-политику, используя методы кросс-валидации и ансамбли Optimal Policy Trees. Эта мета-политика выбирает лучшую политику для конкретного контекста. Мы реализуем нашу систему на двух типичных задачах CSO: новостреде и планировании перевозок. ## Результаты Мы проводили эксперименты на двух стандартных задачах CSO: single-stage newsvendor и two-stage shipment planning. Результаты показали, что PS **постоянно превосходит** сингулярные политики в регионах, где ковариатное пространство разнородно. Также, PS **сходится к превосходящей политике** в регионах, где существует единственная лучшая политика. Мы сравнили PS с другими методами, такими как линейные модели и широко известные политики, и показали, что наш подход дает значительные выигрыши в производительности. На основе этих результатов мы доказали, что наша система может эффективно адаптироваться к разным условиям и не только. ## Значимость Предлагаемый подход может быть применен в различных сферах, где требуется адаптивное принятие решений, например в логистике, финансах, здравоохранении и машинном обучении. PS избавляет от необходимости предварительного выбора одной "лучшей" политики, позволяя вместо этого строить модели, которые могут адаптироваться к разным условиям. Это приводит к **более высокой эффективности** и **гибкости** в принятии решений. Мы также обнаружили, что PS может применяться в слож

Annotation:

We address the problem of policy selection in contextual stochastic optimization (CSO), where covariates are available as contextual information and decisions must satisfy hard feasibility constraints. In many CSO settings, multiple candidate policies--arising from different modeling paradigms--exhibit heterogeneous performance across the covariate space, with no single policy uniformly dominating. We propose Prescribe-then-Select (PS), a modular framework that first constructs a library of feas...

ID: 2509.08194v1 cs.LG, stat.ML

arXiv PDF

📄 Data-driven generative simulation of SDEs using diffusion models

2025-09-12

Авторы:

Xuefeng Gao, Jiale Zha, Xun Yu Zhou

## Контекст Симуляция стохастических дифференциальных уравнений (SDEs) широко используется в финансовом моделировании, физике, биологии и других областях. Традиционные методы, такие как монте-карловы симуляции, требуют точных экспериментальных данных и предварительного определения коэффициентов диффузии и дрифта. Однако в реальных задачах данные часто ограничены или недоступны, что приводит к неточностям в симуляциях. Это ограничение мотивирует развитие более гибких и модельно-независимых подходов. Диффузионные модели, на основе генеритивной AI, показали свою эффективность в обработке образов и видео. Однако их применение к SDEs остается редким, что делает данное исследование актуальным. ## Метод Метод предлагает использовать класс генеритивных моделей "diffusion models" для симуляции SDEs в условиях недостатка экспериментальных данных. Данные реальные процессы SDEs описываются с помощью достаточно большого числа сэмплов. Затем, эти данные используются для обучения модели, которая способна генерировать новые, синтетические процессы, аналогичные исходным. Особенностью этого подхода является его модельно-независимость и то, что он не требует точных коэффициентов диффузии и дрифта. Эта модель построена как альтернатива методам типа монте-карло, которые требуют больших вычислительных ресурсов и точных закономерностей. ## Результаты Для оценки эффективности предложенного подхода проведено сравнение с традиционными методами, такими как монте-карло и нейронные SDEs. В экспериментах были сгенерированы виртуальные процессы SDEs, которые показали более высокую точность и отличительные черты по сравнению с другими методами. Также, в эмпирическом исследовании использовались синтетические процессы для улучшения алгоритмов управления портфелем в финансовой оптимизации. Это демонстрирует удивительный потенциал данного подхода в финансовом анализе и автоматизированном принятии решений. ## Значимость Предложенный подход открывает новые горизонты в моделировании SDEs, облегчая их применение в окружениях с ограниченными данными. Он может быть применим в финансовых моделях, технологиях управления рисками и динамических процессах в защите. Диффузионные модели предлагают более эффективный и точный подход к симуляции, позволяя уменьшить время и ресурсы, потраченные на моделирование. Этот подход может повлиять на развитие AI в области моделирования сложных систем в реальном времени. ## Выводы Результаты этого исследования показали, что диффузионные модели могут значительно улучшить точность и эффективность симуляции SDEs в усло

Annotation:

This paper introduces a new approach to generating sample paths of unknown stochastic differential equations (SDEs) using diffusion models, a class of generative AI models commonly employed in image and video applications. Unlike the traditional Monte Carlo methods for simulating SDEs, which require explicit specifications of the drift and diffusion coefficients, our method takes a model-free, data-driven approach. Given a finite set of sample paths from an SDE, we utilize conditional diffusion ...

ID: 2509.08731v1 cs.LG, stat.ML

arXiv PDF

1
2
29
30
31
32
33
38
39

Показано 301 - 310 из 385 записей