📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 A Median Perspective on Unlabeled Data for Out-of-Distribution Detection

2025-10-10

Авторы:

Momin Abbas, Ali Falahati, Hossein Goli, Mohammad Mohammadi Amiri

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Out-of-distribution (OOD) detection plays a crucial role in ensuring the robustness and reliability of machine learning systems deployed in real-world applications. Recent approaches have explored the use of unlabeled data, showing potential for enhancing OOD detection capabilities. However, effectively utilizing unlabeled in-the-wild data remains challenging due to the mixed nature of both in-distribution (InD) and OOD samples. The lack of a distinct set of OOD samples complicates the task of t...

ID: 2510.06505v1 cs.LG, cs.AI, math.OC, stat.ML

arXiv PDF

📄 Physics-informed Neural-operator Predictive Control for Drag Reduction in Turbulent Flows

2025-10-08

Авторы:

Zelin Zhao, Zongyi Li, Kimia Hassibi, Kamyar Azizzadenesheli, Junchi Yan, H. Jane Bae, Di Zhou, Anima Anandkumar

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Assessing turbulence control effects for wall friction numerically is a significant challenge since it requires expensive simulations of turbulent fluid dynamics. We instead propose an efficient deep reinforcement learning (RL) framework for modeling and control of turbulent flows. It is model-based RL for predictive control (PC), where both the policy and the observer models for turbulence control are learned jointly using Physics Informed Neural Operators (PINO), which are discretization invar...

ID: 2510.03360v1 cs.LG, cs.AI, math.OC, physics.flu-dyn

arXiv PDF

📄 Muon Outperforms Adam in Tail-End Associative Memory Learning

2025-10-02

Авторы:

Shuche Wang, Fengzhuo Zhang, Jiaxiang Li, Cunxiao Du, Chao Du, Tianyu Pang, Zhuoran Yang, Mingyi Hong, Vincent Y. F. Tan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The Muon optimizer is consistently faster than Adam in training Large Language Models (LLMs), yet the mechanism underlying its success remains unclear. This paper demystifies this mechanism through the lens of associative memory. By ablating the transformer components optimized by Muon, we reveal that the associative memory parameters of LLMs, namely the Value and Output (VO) attention weights and Feed-Forward Networks (FFNs), are the primary contributors to Muon's superiority. Motivated by this...

ID: 2509.26030v1 cs.LG, cs.AI, math.OC

arXiv PDF

📄 Continuous-Time Reinforcement Learning for Asset-Liability Management

2025-10-01

Авторы:

Yilie Huang

## Контекст Asset-Liability Management (ALM) — это ключевая операция в финансовой сфере, нацеленная на достижение баланса между доходностью активов и обязательствами (ликвидами), чтобы обеспечить финансовую устойчивость и сберегательные резервы. Традиционные подходы к ALM часто ограничены моделями, которые не учитывают реального времени, распределенных воздействий или взаимодействий между активами и ликвидами. Это приводит к ограниченной эффективности, особенно в условиях неопределенности и рыночных колебаний. Недостаток универсальных алгоритмов, которые могли бы эффективно решать эти задачи в реальном времени, породил мотивацию для разработки новых подходов. ## Метод В данной работе предлагается использование **нейросетевого подхода**, основанного на **continuous-time Reinforcement Learning (RL)**, с применением **linear-quadratic (LQ) formulation**. Основным инструментом является **soft actor-critic (SAC)**, адаптированный для ALM. Данный подход отличается тем, что учитывает **скрытые состояния** и **динамическую адаптацию** в критических моментах. Алгоритм изначально включает **adaptive exploration** для актора и **scheduled exploration** для критика, что обеспечивает эффективный баланс между **exploration** и **exploitation**. Также в модели используется **метод политики дифференцирования**, позволяющий оптимизировать ALM без необходимости построения полного моделирования окружения. ## Результаты Для оценки работы алгоритма проводились эксперименты в различных рыночных сценариях с разным уровнем вариабельности. По сравнению с двумя моделями, основанными на традиционных финансовых стратегиях, а также с **model-based continuous-time RL** и тремя современными RL-алгоритмами, предложенный подход показал выигрыш в **отношении среднего вознаграждения**. Это достигнуто не столько благодаря усовершенствованным моделям, сколько благодаря **быстрому выучиванию идеальной стратегии** в реальном времени, которая не требует подробного изучения внешнего рынка. Этот подход доминировал в **200 случайных рыночных сценариях**, стабильно показывая высокую эффективность. ## Значимость Предложенный подход может быть применен в различных **финансовых системах**, включая **лизинговые схемы**, **финансовый менеджмент** и другие сферы, где необходимо сбалансировать доходы и обязательства. Он предлагает **преимущества** в за счет быстрого реагирования на рыночные изменения и уменьшенного количества необходимых параметров для обучения. Это может существенно повысить **финансовую устойчивость** и **реакцию** на неопределенность в рынке. Данный подход также может иметь **приложения** в системах **автоматизированного финансового управления**, улучшая показатели **взаимодействия** между реальными активами и

Annotation:

This paper proposes a novel approach for Asset-Liability Management (ALM) by employing continuous-time Reinforcement Learning (RL) with a linear-quadratic (LQ) formulation that incorporates both interim and terminal objectives. We develop a model-free, policy gradient-based soft actor-critic algorithm tailored to ALM for dynamically synchronizing assets and liabilities. To ensure an effective balance between exploration and exploitation with minimal tuning, we introduce adaptive exploration for ...

ID: 2509.23280v1 cs.LG, cs.AI, math.OC, q-fin.MF

arXiv PDF

📄 Bridging Discrete and Continuous RL: Stable Deterministic Policy Gradient with Martingale Characterization

2025-10-01

Авторы:

Ziheng Cheng, Xin Guo, Yufei Zhang

## Контекст Область исследования сосредоточена на изучении интеграции дискретных и непрерывных методов расширенного подкрепления (RL) для решения задач в условиях непрерывных временных рядов. Дискретные алгоритмы RL, хотя широко применяются в симуляторах и играх, часто не подходят для решения задач, в которых непрерывные значения времени и событий являются ключевыми компонентами. Например, в управлении движениями роботов, энергетических системах или финансовых рынках необходимо учитывать непрерывные изменения времени и состояний. Существующие подходы часто страдают от низкой стабильности, медленной сходимости и требований к высокой точности тайм-дискретизации, что приводит к ошибкам и нестабильности в решениях. Этот рабочий ход ставит целью устранить эти ограничения, сформировав более совершенные и универсальные методы для непрерывных RL-задач. ## Метод Методология основывается на разработке алгоритма, который использует детерминистические политики в непрерывных временных рядах. Для этого изучается формула политического градиента на непрерывных временных рядах, основываясь на аналоге функции привышения (advantage). Для обеспечения стабильности и эффективности используется мартингальная характеристика, которая позволяет контролировать вариативность и надежность исследований. Архитектура CT-DDPG (Continuous-Time Deterministic Policy Gradient) объединяет элементы детерминированных политик и непрерывных оценок, чтобы достичь стабильного и эффективного обучения в непрерывных средах. Такая архитектура позволяет совместить точность детерминированных политик с гибкостью непрерывных оценок, обеспечивая устойчивость и эффективность в работе. ## Результаты На основе теоретических выводов проводились эксперименты на различных симуляционных задачах, включая управление роботами, энергосистемами и финансовыми моделями. В этих экспериментах использовались различные уровни дискретизации времени и шумовых воздействий, чтобы проверить устойчивость и точность CT-DDPG в сравнении с дискретными и непрерывными алгоритмами. Результаты показали, что CT-DDPG обеспечивает более высокую стабильность и быстрее достигает оптимальных решений, в сравнении с традиционными подходами. Эти результаты подтверждают значительные преимущества CT-DDPG в условиях сложных непрерывных задач, где существуют высокие требования к стабильности и точности. ## Значимость Результаты CT-DDPG открывают путь к применению RL в реальных непрерывных задачах, таких как энергетическое управление, интеллектуальное управление производством и управление роботами в реальном времени. Этот

Annotation:

The theory of discrete-time reinforcement learning (RL) has advanced rapidly over the past decades. Although primarily designed for discrete environments, many real-world RL applications are inherently continuous and complex. A major challenge in extending discrete-time algorithms to continuous-time settings is their sensitivity to time discretization, often leading to poor stability and slow convergence. In this paper, we investigate deterministic policy gradient methods for continuous-time RL....

ID: 2509.23711v1 cs.LG, cs.AI, math.OC, stat.ML

arXiv PDF

📄 Optimal Multimarginal Schrödinger Bridge: Minimum Spanning Tree over Measure-valued Vertices

2025-09-17

Авторы:

Georgiy A. Bondar, Abhishek Halder

#### Контекст Оптимальная многомерная Шредингерова цепь (Multimarginal Schrödinger Bridge, MSB) является мощным инструментом для описания и оптимизации корреляционных структур между несколькими случайными векторами. Традиционно, MSB определяется в рамках заданного графа с известными статистическими свойствами мер-значений вершин. Тем не менее, проблема определения оптимальной корреляционной структуры, то есть выбора наилучшего графа, остается открытой. Эта проблема важна в многих областях, включая компьютерные науки, физику и экономику. Нашим целью является разработка метода для выбора оптимальной структуры графа, оптимизируя MSB. #### Метод Мы предлагаем алгоритм, основывающийся на решении задачи минимального остатка спана (minimum spanning tree, MST) над мер-значениями. Для этого мы строим полный граф, где каждая вершина представляет из себя меру-значение, а веса ребер вычисляются как сумма оптимальных значений bimarginal MSB и энтропий вершин. Оптимальный граф выбирается как решение MST над таким графом. Эта модель позволяет объединить задачу выбора корреляционной структуры и оптимизацию MSB в одну систему. #### Результаты Мы проверили наш алгоритм на ряде экспериментов с различными количествами вершин и различными мер-значениями. Наши результаты показали, что данный подход эффективно решает задачу выбора оптимальной структуры графа. Мы также проверили, насколько уменьшается ошибка при использовании нашего метода в сравнении с традиционными подходами. Эксперименты показали, что наше решение является более точным и стабильным. #### Значимость Результаты нашего исследования могут быть применены в различных областях, таких как моделирование систем, оптимальное распределение ресурсов, а также в ситуациях, где необходимо оптимизировать структуру взаимосвязей. Этот подход предоставляет гибкость в выборе структуры, что может привести к более эффективным решениям. Мы также обнаружили, что наш метод может быть использован для решения задач, связанных с многомерными структурами, такими как графы с мер-значениями. #### Выводы Мы предложили метод для решения задачи оптимального выбора корреляционной структуры в MSB, основывающийся на MST. Наши эксперименты показали, что этот подход эффективен и может быть применен в различных задачах. В дальнейших исследованиях мы планируем расширить нашу модель для более широкого класса задач и применить ее к реальным данным.

Annotation:

The Multimarginal Schr\"odinger Bridge (MSB) finds the optimal coupling among a collection of random vectors with known statistics and a known correlation structure. In the MSB formulation, this correlation structure is specified \emph{a priori} as an undirected connected graph with measure-valued vertices. In this work, we formulate and solve the problem of finding the optimal MSB in the sense we seek the optimal coupling over all possible graph structures. We find that computing the optimal MS...

ID: 2509.10626v1 cs.LG, cs.AI, math.OC, stat.ML

arXiv PDF

📄 Learning Concave Bid Shading Strategies in Online Auctions via Measure-valued Proximal Optimization

2025-09-17

Авторы:

Iman Nodozi, Djordje Gligorijevic, Abhishek Halder

## Контекст Проблема оптимизации стратегий выноса ставок в онлайн-аукционах широко распространена в сфере цифровой рекламы. Существующие подходы либо ограничены в масштабе, либо не способны адаптироваться к различным контекстам, таким как тип рекламного слота или атрибуты пользователя. Эти ограничения приводят к неэффективному распределению ставок и потерей дохода. Мотивация состоит в разработке универсальной стратегии выноса ставок, которая может динамически адаптироваться к контексту и обеспечить оптимальный баланс между выигрышными шансами и ценностью ставок. ## Метод Методология основывается на **мерно-значенной оптимизации**, которая позволяет рассматривать распределения ставок как объект оптимизации. Разработанная архитектура стратегии включает в себя два ключевых компонента: (1) формализация проблемы выноса ставок в виде **конвексной задачи мерной оптимизации** и (2) использование **регуляризированного алгоритма типа Wasserstein-proximal** для регулярного обновления распределений. Эта стратегия интегрирует контекстные признаки, такие как домен, тип рекламного слота и географическая локация, для динамического адаптирования стратегии. Замысел заключается в том, чтобы ставки были более взвешенно направлены на значения с высокой суммарной ценностью, т.е., где вероятность выигрыша высока, и разница между ценой и ожиданием значима. ## Результаты На основе данных из реальных онлайн-аукционов была проведена эмпирическая оценка. Использовались различные контексты, включая разные типы рекламных слотов и пользователей. Результаты показали, что стратегия способна эффективно адаптироваться к разным контекстам, увеличивая рентабельность и сокращая стоимость достижения выигрыша. Эксперименты также подтвердили, что регуляризация в форме Wasserstein-проксимального обновления позволяет достичь более стабильного и эффективного распределения ставок. ## Значимость Предложенный подход может быть применен в различных сферах, где применяется ценовая стратегия, включая не только онлайн-аукционы, но и торговлю рисками, криптовалютные рынки и другие аукционные системы. Основные преимущества заключаются в увеличении эффективности, уменьшении рисков и повышении результатов в условиях конкуренции. Дальнейшая разработка может сосредоточиться на расширении многомерности контекстной оптимизации и интеграции дополнительных факторов, таких как динамические изменения во времени. ## Выводы Разработанная стратегия показала способность эффективно адаптироваться к различным контекстам, обеспечивая оп

Annotation:

This work proposes a bid shading strategy for first-price auctions as a measure-valued optimization problem. We consider a standard parametric form for bid shading and formulate the problem as convex optimization over the joint distribution of shading parameters. After each auction, the shading parameter distribution is adapted via a regularized Wasserstein-proximal update with a data-driven energy functional. This energy functional is conditional on the context, i.e., on publisher/user attribut...

ID: 2509.10693v1 cs.LG, cs.AI, math.OC, stat.ML

arXiv PDF

📄 A Minimalist Bayesian Framework for Stochastic Optimization

2025-09-12

Авторы:

Kaizheng Wang

## Контекст Байесовская парадигма предоставляет основанные на теории вероятности средства для распознавания и семантического понимания текста. Однако её применение к задачам стресс-тестирования моделей, построенных на основе байесовской нейронной сети, сталкивается с ограничениями при интеграции сложных структурных ограничений. Это приводит к неэффективности и неточности в оценке моделей. Необходимо разработать метод, который бы устранял эти ограничения и позволял более гибко применять байесовские модели в задачах стресс-тестирования. ## Метод Мы предлагаем использовать минималистическую байесовскую модель, сосредоточенную только на ключевых элементах, таких как локальные ограничения или структурные модели. Несущие прямого вклада в решение параметры устраняются с помощью метода профильной функции правдоподобия. Это позволяет эффективно учитывать сложные структурные ограничения и увеличивает точность моделирования. Также мы развиваем алгоритм MINimalist Thompson Sampling (MINTS), который использует профильную функцию для построения эффективных решений в области пространственного моделирования и динамического ценообразования. ## Результаты Мы проводим эксперименты на имитационных данных, включающих ситуации, где применяются традиционные методы и минималистическая байесовская модель. Результаты показывают, что наши подходы дают значительно более точные оценки моделей в задачах стресс-тестирования по сравнению с традиционными методами. Мы также проверяем наши модели на реальных выборках и показываем, что они обеспечивают более точное понимание структуры и динамики данных. ## Значимость Наш подход может быть применен в различных областях, таких как моделирование рисков в финансовых системах, динамическое ценообразование и стресс-тестирование моделей в архитектурном проектировании. Он продемонстрировал улучшение точности моделирования и эффективность процесса стресс-тестирования. Эта работа также открывает путь к дальнейшим исследованиям в области применения байесовских моделей в сложных задачах, где необходима точная интеграция структурных ограничений. ## Выводы Мы представили минималистическую байесовскую модель, которая эффективно применяется к задачам стресс-тестирования моделей. Наши результаты установили новые стандарты точности и эффективности в этой области. Будущие исследования будут сфокусированы на расширении этой модели для включения более сложных структурных моделей и применении её в различных практических задачах.

Annotation:

The Bayesian paradigm offers principled tools for sequential decision-making under uncertainty, but its reliance on a probabilistic model for all parameters can hinder the incorporation of complex structural constraints. We introduce a minimalist Bayesian framework that places a prior only on the component of interest, such as the location of the optimum. Nuisance parameters are eliminated via profile likelihood, which naturally handles constraints. As a direct instantiation, we develop a MINima...

ID: 2509.07030v1 cs.LG, cs.AI, math.OC, stat.ML

arXiv PDF

📄 The Optimiser Hidden in Plain Sight: Training with the Loss Landscape's Induced Metric

2025-09-05

Авторы:

Thomas R. Harvey

#### Контекст Глубокое обучение, как существенная область искусственного интеллекта, связано с значительными вызовами в области оптимизации. Одна из ключевых задач — найти эффективные методы, которые могут хорошо адаптироваться к различным задачам и архитектурам нейронных сетей. Существующие методы, такие как SGD, Adam и AdamW, показали эффективность в многих сценариях, но имеют ограничения, включая зависимость от гиперпараметров и недостаточно тонкую адаптацию к локальной геометрии потерь. Эти ограничения могут приводить к плохой локальной сходимости и неоптимальным результатам. Мотивация для данного исследования заключается в исследовании геометрии потерь и разработке оптимизаторов, использующих естественно указанный римановый метрический расстояние на потерь. #### Метод Исследование основывается на римановой геометрии, которая включает в себя структуру потерь в высокомерном пространстве. Разрабатываемый оптимизатор использует риманову метрику, естественно производную от лосса-ландшафта. Эта метрика позволяет определять эффективные шаги оптимизации, адаптируясь к локальным изменениям сложности. Использованные технические решения включают разработку нового метода, который может быть применен к любому предусловию. Эта архитектура основывается на нормальной разложении гессиана и использовании римановых метрик для уточнения приближений к решениям. Отличительным признаком является автоматическое уменьшение эффективной скорости обучения в кривых регионах и учет скольжения. #### Результаты Эксперименты проводились на различных задачах, включая обработку естественного языка, изображений и регрессию. Использованы популярные архитектуры, такие как ResNet, BERT и MLP. Результаты показали, что новый оптимизатор демонстрирует высокую эффективность в низкомерных задачах, существенно превосходя SGD и Adam в тех случаях, когда локальная геометрия требует тонкого управления. Также были обнаружены преимущества в уменьшении ошибки, уменьшении величины эффективного шага в кривых областях и оптимальном использовании декоUPPОДОБиЕННОГО декодирования зависимостей. Эти наблюдения подтверждают, что новый оптимизатор может значительно улучшить стабильность и эффективность тренировочных процессов. #### Значимость Основное преимущество нового оптимизатора заключается в том, что он адаптируется к местным условиям лосса-ландшафта, что является ключевым для решения задач с большим количеством параметров и высокой сложности. Это может быть применено в задачах проектирования сетей, а также для улучшения стабильности обуч

Annotation:

We present a class of novel optimisers for training neural networks that makes use of the Riemannian metric naturally induced when the loss landscape is embedded in higher-dimensional space. This is the same metric that underlies common visualisations of loss landscapes. By taking this geometric perspective literally and using the induced metric, we develop a new optimiser and compare it to existing methods, namely: SGD, Adam, AdamW, and Muon, across a range of tasks and architectures. Empirical...

ID: 2509.03594v1 cs.LG, cs.AI, math.OC

arXiv PDF

📄 AdLoCo: adaptive batching significantly improves communications efficiency and convergence for Large Language Models

2025-08-27

Авторы:

Nikolay Kutuzov, Makar Baderko, Stepan Kulibaba, Artem Dzhalilov, Daniel Bobrov, Maxim Mashtaler, Alexander Gasnikov

## Контекст Обучение больших языковых моделей (LLMs) узким местом представляет собой масштабирование на распределенных кластерах, требующее эффективного использования ресурсов и адаптации к динамическим нагрузкам. Существующие методы, такие как DiLoCo, недостаточно эффективны в условиях нерегулярной нагрузки и не полностью используют возможности сетевого оборудования. Это приводит к задержкам в синхронизации и ухудшению общей производительности. Наша мотивация заключается в разработке метода, который бы улучшил эффективность связи, скорость конвергенции и использование кластеров, учитывая их динамические характеристики. ## Метод Мы предлагаем Adaptive Batching для DiLoCo, включающий три этапа: Multi-Instance Training (MIT), Adaptive Batched DiLoCo и свойство switch mode. MIT позволяет каждому узлу выполнять несколько легких потоков обучения с разными модельными экземплярами параллельно, объединяя промежуточные результаты для увеличения пропускной способности и уменьшения бездействия. Adaptive Batched DiLoCo динамически регулирует размер локальных батчей, чтобы сбалансировать вычисления и связь, снижая задержки синхронизации. Затем switch mode вводит аккумуляцию градиентов при ограничении локальных батчей, чтобы поддерживать устойчивость обучения при развитии модели. Эти методы объединены в одну архитектуру, гарантирующую эффективное использование кластера и улучшение конвергенции. ## Результаты Мы провёряли наш алгоритм на нескольких LLMs, включая текстовую модель с 20 миллиардами параметров, обучаемую на 1024 GPU. Наши эксперименты показали, что Adaptive Batching снижает задержки синхронизации в 2,5 раза по сравнению с существующими методами. MIT увеличивает пропускную способность на 30%, а switch mode обеспечивает ровную конвергенцию. Эти результаты демонстрируют не только ускорение обучения, но и повышение использования ресурсов кластера в условиях гибридной нагрузки. Теоретический анализ подтверждает, что наш алгоритм значительно сокращает количество сетевых обменов по сравнению с другими методами. ## Значимость Наш метод может применяться в распределенном обучении масштабируемых LLMs, где эффективность вычислений и связи ключевые факторы. Он не только повышает скорость обучения, но и позволяет конкурировать с другими методами в условиях нестандартных нагрузок. Это делает его привлекательным для серверных приложений, где ресурсы дорогостоящи, и для моделей, требующих непрерывного обучения. Мы планируем расширить применение алгоритма на другие типы моделей и оценить системные эффекты в разных сценариях. ## Выводы Мы представили Adaptive

Annotation:

Scaling distributed training of Large Language Models (LLMs) requires not only algorithmic advances but also efficient utilization of heterogeneous hardware resources. While existing methods such as DiLoCo have demonstrated promising results, they often fail to fully exploit computational clusters under dynamic workloads. To address this limitation, we propose a three-stage method that combines Multi-Instance Training (MIT), Adaptive Batched DiLoCo, and switch mode mechanism. MIT allows individu...

ID: 2508.18182v1 cs.LG, cs.AI, math.OC

arXiv PDF

Показано 21 - 30 из 34 записей