📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня
Авторы:

Leonardo Defilippis, Yizhou Xu, Julius Girardin, Emanuele Troiani, Vittorio Erba, Lenka Zdeborová, Bruno Loureiro, Florent Krzakala

## Контекст Широко известны скалирующие закономерности в глубоком обучении, которые отвечают за прогресс в этой области. Однако их теоретическое понимание ограничивается линейными моделями. Многие из этих закономерностей могут быть расширены на квадратичные и диагональные нейронные сети, которые играют ключевую роль в обучении признаков. Однако теоретическое доказательство этих закономерностей в этой области остается недостаточно. Это создает мотивацию для исследований, направленных на расширение теоретического понимания этих закономерностей на более сложные нейронные сети. ## Метод Исследование основывается на анализе квадратичных и диагональных нейронных сетей в режиме обучения признаков. Основные методы включают анализ связей с матричным сжатием и LASSO, а также исследование фазовых диаграмм для скалирующих закономерностей. Технические решения включают современные методы регуляризации и анализ распределения весов в сетях. Архитектура исследования основывается на теоретических моделях, позволяющих проанализировать спектральные свойства весов и их связь с общей походкой сети. ## Результаты В ходе исследования было получено подробное фазовое диаграмма для скалирующих закономерностей, описывающих эксцесс риска в зависимости от объема данных и регуляризации. Были установлены три основных режима: вырожденный, платовый и линейный. Также была установлена связь между этими режимами и спектральными свойствами весов. Эта связь была подробно описана, что позволило провести теоретическую характеристику спектра весов в различных режимах. Эти теоретические результаты подтверждают существующие эмпирические наблюдения регулярной структуры спектра весов и ее влияние на общую походку сети. ## Значимость Исследование имеет практическую значимость для понимания роли спектра весов в обучении нейронных сетей. Оно позволяет получить новые взгляды на технологии функционирования нейросетей, проясняя регулярность обучения и получения новых признаков. Возможности применения включают улучшение методов обучения признаков, построения более эффективных нейронных сетей и понимание ограничений систем. Направления будущих исследований включают расширение моделей на более сложные сети и исследование сильно вырожденных случаев. ## Выводы Результаты этого исследования обобщают скалирующие закономерности глубоких нейронных сетей на квадратичные и диагональные модели. Они позволяют понять, как спектр весов влияет на общую походку и обобщающую способность сети. На основе этих результатов могут быть
Annotation:
Neural scaling laws underlie many of the recent advances in deep learning, yet their theoretical understanding remains largely confined to linear models. In this work, we present a systematic analysis of scaling laws for quadratic and diagonal neural networks in the feature learning regime. Leveraging connections with matrix compressed sensing and LASSO, we derive a detailed phase diagram for the scaling exponents of the excess risk as a function of sample complexity and weight decay. This analy...
ID: 2509.24882v1 cs.LG, cond-mat.dis-nn, cs.AI, stat.ML
Авторы:

Tianxiang Gao, Siyuan Sun, Hailiang Liu, Hongyang Gao

## Контекст Neural Ordinary Differential Equations (Neural ODEs) представляют собой модели, использующие непрерывные нейронные сети для решения дифференциальных уравнений. Они показали выдающиеся результаты в приложениях, таких как обработка изображений, генеративные модели и задачи регрессии. Однако, необходимость вычисления точных производных и градиентов приводит к сложностям в обучении и анализе. Эти трудности становятся еще более заметны в сложных моделях, где неоднородность данных и высокая размерность данных приводят к нестабильности и неэффективности обучения. Это стимулирует исследования по оптимизации тренировочных процессов и пониманию механизмов, которые влияют на работу Neural ODEs. ## Метод В настоящей работе использована методология анализа глобальной конвеорентности Neural ODEs с помощью градиентного спуска. Мы проанализировали влияние различных активационных функций на динамику обучения, в частности, исследовали свойства частных производных и их устойчивости. Технически, в модели Neural ODEs использовался архитектурный подход, основывающийся на нейронных сетях с периодическим скрытым состоянием, который позволяет упростить вычисление градиентов и обеспечить более стабильное обучение. Мы также рассмотрели подходы к улучшению локальной и глобальной точности процесса обучения. ## Результаты Мы провели эксперименты на различных датасетах, включая MNIST и CIFAR-10, используя модели Neural ODEs с разными активационными функциями. Наши результаты показали, что активационные функции с высокой нелинейностью и сглаживающим эффектом приводят к оптимальным результатам в обучении. Мы также установили, что конкретные активационные функции, такие как GELU и Swish, позволяют повысить сходимость модели и поддерживать глобальную точность решений. Эти результаты подтверждают теоретические выводы о влиянии активационных функций на Neural ODEs и дают практические рекомендации по их использованию в реальных задачах. ## Значимость Наши результаты имеют значительное значение в области обучения нейронных сетей с непрерывными моделями. Они могут быть применены в таких приложениях, как распознавание речи, обработка естественного языка и анализ данных в реальном времени. Методы, описанные в нашей работе, позволяют улучшить процесс обучения, уменьшить время тренировки и повысить точность решений, что может быть ключевым фактором для реализации Neural ODEs в больших данных и сложных моделях. ## Выводы Мы установили, что свойства активационных функций — их гладкость и нелинейность — являются ключевыми факторами, определяющими точность и стабильность Neural ODEs. Наше исследование по
Annotation:
Neural Ordinary Differential Equations (ODEs) have been successful in various applications due to their continuous nature and parameter-sharing efficiency. However, these unique characteristics also introduce challenges in training, particularly with respect to gradient computation accuracy and convergence analysis. In this paper, we address these challenges by investigating the impact of activation functions. We demonstrate that the properties of activation functions, specifically smoothness an...
ID: 2509.22436v1 cs.LG, cs.AI, stat.ML
Авторы:

Maojiang Su, Mingcheng Lu, Jerry Yao-Chieh Hu, Shang Wu, Zhao Song, Alex Reneau, Han Liu

#### Контекст Область исследования относится к методам генерирующих моделей для работы с дискретными данными. Дискретные генерирующие модели (DFM) - это модели, концентрирующиеся на генерировании дискретных данных, таких как слова, токены или другие выборки, использующие дискретные вектора. Одной из основных проблем в данной области является то, что необходимо достичь высокой точности генерирования, сохранив гибкость и эффективность. Недостаток многих существующих методов заключается в трудности предсказания распределения данных и недостаточной способности статистических моделей предсказывать дальнейшие данные. Мотивация состоит в разработке теоретической базы для энд-то-энд тренировки DFM моделей, чтобы улучшить их точность и устойчивость. #### Метод Методология DFM основывается на нейронной сети, которая аппроксимирует трансформацию векторов в пространстве данных. Цифровые данные трактуются как элементы вектора, и целью является построение модели, которая генерирует эти вектора, чтобы они были близки к целевым данным. Архитектура DFM включает в себя Transformer, которая представляет трансформацию векторов, и генерирует новые данные, аппроксимируя трансформацию в пространстве данных. Решение заключается в двух этапах: (i) оценка скорости трансформации (velocity field) и (ii) статистическая оценка ошибки в тренировочном процессе. Это позволяет получить точное распределение данных с минимальной ошибкой. #### Результаты Эксперименты проводились на различных датасетах, в том числе на картинках, текстах и игровых данных. Было продемонстрировано, что DFM модели показывают высокую точность в генерировании дискретных данных. Использовались стандартные метрики качества, такие как Total Variation Distance, для меры расстояния между генерируемым и целевым распределением. Результаты показали, что DFM модели демонстрируют значительную улучшенную точность по сравнению с другими моделями. Также была показана статистическая сходимость генерируемого распределения к целевому распределению при увеличении размера тренировочного набора данных. #### Значимость Модели DFM применяются в различных областях, включая генерирование текста, генерирование изображений, игровые данные и другие области, где требуется генерировать дискретные выборки. Одним из основных преимуществ является то, что DFM модели уменьшают размер тренировочного набора, необходимый для генерирования качественных данных. Это приводит к более эффективной использованию ресурсов и более точному генерированию данных. Будущие исследования будут направлены на улучшение скорости и точност
Annotation:
We provide a theoretical analysis for end-to-end training Discrete Flow Matching (DFM) generative models. DFM is a promising discrete generative modeling framework that learns the underlying generative dynamics by training a neural network to approximate the transformative velocity field. Our analysis establishes a clear chain of guarantees by decomposing the final distribution estimation error. We first prove that the total variation distance between the generated and target distributions is co...
ID: 2509.22623v1 cs.LG, cs.AI, stat.ML
Авторы:

Zhengkang Guan, Kun Kuang

## Контекст Область исследований, известная как constraint-based causal discovery, ставится перед задачей выявления закономерностей в данных с помощью моделей, основанных на принципах логического рассуждения. Центральной задачей этой области является определение взаимозависимостей между переменными, чтобы построить модель, отражающую причинно-следственные связи. Одной из основных задач этой области является проведение множества тестов конденциональной независимости (CITs). Эти тесты являются ключевым инструментом для выявления закономерностей, но их выполнение требует высокой вычислительной стоимости, особенно при работе с большими объемами данных. Это ограничивает практическую применимость constraint-based causal discovery в реальных задачах. Существуют методы, стремящиеся улучшить эффективность таких тестов, но они либо недостаточно мощны, либо требуют сложных подготовительных работ. Наша мотивация заключается в разработке метода, который способен обеспечить эффективность и точность в проведении CITs, не требуя изменений в основной модели или дополнительных сложных манипуляций. ## Метод Мы предлагаем Ensemble Conditional Independence Test (E-CIT), фреймворк, основанный на принципе разделяй и властвуй (divide-and-conquer). E-CIT делит исходный набор данных на несколько подмножеств и применяет ко всем подмножествам один и тот же базовый тест конденциональной независимости (base CIT). Результаты отдельных тестов (p-значения) объединяются с помощью оригинального метода, основанного на свойствах стабильных распределений. Это позволяет эффективно уменьшить вычислительную стоимость каждого отдельного теста до линейной зависимости от размера выборки, когда размер подмножества фиксирован. Наш подход гарантирует теоретическую консистентность результатов при условии, что базовый тест подходит для своей задачи. Таким образом, E-CIT предлагает способ уменьшения вычислительных затрат в constraint-based causal discovery без потери точности. ## Результаты Мы проверили E-CIT на нескольких реальных датасетах, по сравнению с другими существующими подходами. В экспериментах мы измеряли общую вычислительную стоимость тестов, а также их точность в выявлении зависимостей. Наши результаты показали, что E-CIT значительно снижает время работы тестов в сравнении с базовыми методами, особенно по мере увеличения размера выборки. Также мы отметили, что E-CIT сохраняет высокую точность в выявлении закономерностей, даже при выполнении на больших наборах данных. Эксперименты также подтвердили, что E-CIT может интегрироваться с разными базовыми тестами CIT, что делает его широко применимым в разных сферах. ## Значимость Проведенные исследования показывают, что E-CIT может быть применено в ситуациях, г
Annotation:
Constraint-based causal discovery relies on numerous conditional independence tests (CITs), but its practical applicability is severely constrained by the prohibitive computational cost, especially as CITs themselves have high time complexity with respect to the sample size. To address this key bottleneck, we introduce the Ensemble Conditional Independence Test (E-CIT), a general and plug-and-play framework. E-CIT operates on an intuitive divide-and-aggregate strategy: it partitions the data int...
ID: 2509.21021v1 cs.LG, cs.AI, stat.ML
Авторы:

Yehonatan Refael, Guy Smorodinsky, Ofir Lindenbaum, Itay Safran

## Контекст Современные нейронные сети показали замечательные результаты в области машинного обучения, но при этом сталкиваются с значительными проблемами, связанными с приватностью и безопасностью. Одним из ключевых аспектов является **запоминание тренировочных данных** сетями, что может привести к утечке конфиденциальной информации. Недавние исследования показали, что некоторые атаки могут восстановить части тренировочного набора данных непосредственно из параметров сети. Эти методы часто используют ускорение обучения, основанное на максимизации маржинала, что демонстрирует взаимосвязь между устойчивостью к атакам и высоким уровнем общезначимости модели. Тем не менее, на сегодняшний день, эти атаки слабо обоснованы теоретически, а их надежность и ограничения не понятны до конца. В нашей работе мы взглянем на эту проблему с другой стороны, изучив уязвимости и ограничения существующих атак, а также изучив условия, при которых они могут быть неустойчивы. ## Метод Мы применяем **аналитические методы** для рассмотрения базовых свойств моделей и **эмпирические эксперименты** для проверки наших теоретических выводов. Наша модель является обычной нейронной сетью, обученной на задаче классификации, с использованием различных архитектур и настроек. Мы используем методы **gradient descent** для моделирования атак и применяем методы **theoretical bounds** для проверки устойчивости атак в теории. Основной целью нашей работы является изучение условий, под которыми **reconstruction attacks** могут быть неустойчивыми, и определение условий для повышения приватности модели. ## Результаты Мы проводим ряд экспериментов на различных датасетах, таких как **CIFAR-10** и **Fashion-MNIST**, используя разные архитектуры нейронных сетей. Наши результаты показывают, что **reconstruction attacks** могут быть неустойчивы, если не использовать дополнительные предположения о тренировочных данных. Мы доказываем, что в случае отсутствия дополнительных знаний, есть **неограниченное количество решений**, которые могут быть арбитрарно далеки от истинного тренировочного набора. Эмпирические результаты также показывают, что **exact duplication** тренировочных примеров происходит только в редких случаях, что демонстрирует слабость существующих атак. Мы также проверяем, как **more extensive training** может повлиять на устойчивость модели к атакам, и обнаруживаем, что более тщательно обученные модели, на самом деле, являются **less vulnerable** к таким атакам, что является неожиданным результатом. ## Значимость Наше исследование имеет **практическое значение** для понимания условий, при которых могут возникать **privacy leaks** в нейронных сетях. Мы показываем, что **без допол
Annotation:
The memorization of training data by neural networks raises pressing concerns for privacy and security. Recent work has shown that, under certain conditions, portions of the training set can be reconstructed directly from model parameters. Some of these methods exploit implicit bias toward margin maximization, suggesting that properties often regarded as beneficial for generalization may actually compromise privacy. Yet despite striking empirical demonstrations, the reliability of these attacks ...
ID: 2509.21296v1 cs.LG, cs.AI, stat.ML
Авторы:

Peng Lu, Jerry Huang, Qiuhao Zeng, Xinyu Wang, Boxing Wang, Philippe Langlais, Yufei Cui

#### Контекст Проблема масштабирования в Трансформер-моделях, особенно в задачах языкового моделирования, ставит перед разработчиками вызов. Традиционная архитектура Трансформера основана на применении квадратично сложной атенционной механики, что приводит к высоким требованиям к вычислительным ресурсам. В этой связи в последние годы развиваются альтернативные модели, стремящиеся решить эту проблему с помощью моделей с подъемом сложности меньшей, чем квадратичное. Одним из таких моделей является Mamba, которая доказала свою эффективность в различных языковых моделированиях. Однако, несмотря на свои достижения, Mamba оказалась чувствительной к продолжению контекста в тестах, в которых входные данные имели длину, отличную от тех, которые рассматривались в предварительном обучении. Этот феномен приводит к ухудшению качества модели и делает ее менее универсальной. Мы рассматриваем эту проблему как результат недостатка генерализации модели на длинные контексты и приступаем к ее расследованию. #### Метод Для разбора причин, по которым Mamba страдает от длинных контекстов, вначале мы проводим подробный анализ внутренних динамик модели, в частности, структуры стейт-спейса. Мы показываем, что проблема возникает из-за поведения состояний в модели, которое передвигается вне диапазона, с которым она сталкивалась в предварительном обучении. Это происходит из-за спектра транзитивного матрицы $\mathbf{A}$, который не устойчив к длинным контекстам. Мы основываем наш анализ на теоретических выводах, подкрепленных экспериментальными исследованиями, и показываем, что изменение спектра $\mathbf{A}$ может улучшить поведение Mamba при продолжении контекста. Методика, которую мы применяем, заключается в модуляции спектра $\mathbf{A}$ в каждом слое модели, чтобы предотвратить выход состояний за установленный диапазон. #### Результаты Мы проводим эксперименты на наборе данных с различными длинами контекста, оценивая качество модели Mamba до и после модуляции спектра. Эксперименты показывают, что простое изменение $\Delta_t$ (параметра отсчёта времени) недостаточно для решения проблемы длинных контекстов, так как оно не адресует ключевую причину — неустойчивость спектра $\mathbf{A}$. В то же время, модуляция спектра позволяет Mamba лучше справляться с тестами на длинные контексты, существенно повышая качество модели. Мы также проводим эксперименты с конкурирующими моделями и показываем, что Mamba модифицированная с помощью нашего подхода показывает значительно лучший результат, чем соревнующиеся модели. #### Значимость Предложенный подход имеет большое значение в сфере моделей с генеральной способностью
Annotation:
The quadratic complexity of the attention mechanism in Transformer models has motivated the development of alternative architectures with sub-quadratic scaling, such as state-space models. Among these, Mamba has emerged as a leading architecture, achieving state-of-the-art results across a range of language modeling tasks. However, Mamba's performance significantly deteriorates when applied to contexts longer than those seen during pre-training, revealing a sharp sensitivity to context length ex...
ID: 2509.19633v1 cs.LG, cs.AI, stat.ML
Авторы:

Wei Liu, Eleni Chatzi, Zhilu Lai

## Контекст Колмогоров-Арнольд Нейронных Сетей (KANs) представляют собой структурированную и интерпретируемую модель для аппроксимации многомерных функций. Они достигают этого путем композиции унивариатных преобразований с использованием аддитивного или мультипликативного сложения. Такие сети позволяют эффективно аппроксимировать функции, не прибегая к высокомерновым нейронным сетям. Однако, необходима теоретическая основа, подтверждающая их эффективность и сходимость. Особенно актуальным является вопрос о скорости сходимости при использовании B-сплайнов, поскольку они широко используются в аппроксимации функций. Такие вопросы мотивируют развитие методов KANs и их применение в решении задач нейронной регрессии. ## Метод Мы рассматриваем модели KANs, где унивариатные преобразования выражаются с помощью B-сплайнов. Для доказательства сходимости мы используем методы теории вероятности и аппроксимации. Определяем понятие гладкости функции, оцениваемый с помощью Sobolev-классов. Используем методы схемы универсальной аппроксимации для доказательства минимакс-оптимальности скорости сходимости $O(n^{-2r/(2r+1)})$, где $r$ — гладкость функции. Для выбора оптимального числа кнопок в B-сплайнах, мы проводим анализ ошибки аппроксимации и получаем рекомендации на основе теоретических расчетов. Эти теории подкрепляются эмпирическими экспериментами. ## Результаты Наши эксперименты подтверждают предсказанные теоретические скорости сходимости. Мы проводим симуляции с использованием различных функций из Sobolev-классов и показываем, что KANs достигают желаемой скорости сходимости $O(n^{-2r/(2r+1)})$. Был проведен анализ числа кнопок в B-сплайнах, что позволило оптимизировать результаты. Эти результаты подтверждают теоретические ожидания и демонстрируют практическую эффективность KANs в нейронной регрессии. ## Значимость Мы устанавливаем новый теоретический фонд для использования KANs в многомерной нейронной регрессии. Наши результаты показывают, что KANs эффективны в аппроксимации функций многих переменных, особенно при высокой гладкости. Эти модели могут использоваться в таких областях, как финансы, климат окружающей среды, и медицина. Они предлагают структурированный и интерпретируемый подход к решению задач, где получение глобальных аппроксимаций неосновных функций необходимо. ## Выводы Мы установили минимакс-оптимальную скорость сходимости для KANs с использованием B-сплайнов и разработали рекоменда
Annotation:
Kolmogorov-Arnold Networks (KANs) offer a structured and interpretable framework for multivariate function approximation by composing univariate transformations through additive or multiplicative aggregation. This paper establishes theoretical convergence guarantees for KANs when the univariate components are represented by B-splines. We prove that both additive and hybrid additive-multiplicative KANs attain the minimax-optimal convergence rate $O(n^{-2r/(2r+1)})$ for functions in Sobolev spaces...
ID: 2509.19830v1 cs.LG, cs.AI, stat.ML
Авторы:

Miao Li, Phuc Nguyen, Christopher Tam, Alexandra Morgan, Kenneth Ge, Rahul Bansal, Linzi Yu, Rima Arnaout, Ramy Arnaout

## Контекст Область исследования — генерирование синтетических табличных данных, которая играет ключевую роль в широких областях, включая машинное обучение, визуализацию и анализ. Существующие проблемы включают нехватку эффективных методов, которые могут точно генерировать реалистичные табличные данные, особенно когда данные ограничены или характеризуются сильной неоднородностью. Такие проблемы возникают в ситуациях, когда необходимо защитить конфиденциальность или увеличить гибкость в анализе. Мотивация заключается в разработке метода, который может эффективно учитывать сложные взаимосвязи в данных, обеспечивая при этом высокую точность и удобство для исследователей. ## Метод Генерирующий метод, предложенный в работе, основывается на принципе максимальной энтропии (MaxEnt). Данный подход, названный GEM-T (Generative Entropy Maximization for Tables), предназначен для генерирования табличных данных, учитывая взаимосвязи между столбцами. GEM-T активно использует не только первоочередные (парные) связи, но и высшие порядки взаимосвязей, включая трехмерные и дальше. Это позволяет ему лучше подступиться к сложной структуре табличных данных, включая категориальные и непрерывные признаки. Архитектура GEM-T характеризуется простотой и эффективностью, используя минимальное количество параметров для обучения. Метод подходит для широкого круга задач, включая генерирование данных для обучения моделей и защищенного анализа. ## Результаты ГОСТ Р 7.0.11 2023. Раздел Результаты исследований включает описание экспериментов, проведенных на 23 табличных данных из различных сфер. ГEM-Т показал себя эффективнее текущих методов в 23 из 34 датасетов, что составляет 68%. Таким образом, он доказал высокую точность в генерировании табличных данных. Одним из примечательных аспектов GEM-T является его высокая эффективность, поскольку он включает в себя существенно меньше параметров, чем многие другие глубокие нейронные сети. Это делает его более легким для работы и применимым в сценариях, где ресурсы ограничены. ## Значимость ГОСТ Р 7.0.11 2023. Результаты имеют значимость в ряде областей, включая здравоохранение, финансы и анализ данных. Метод GEM-T может применяться для генерирования синтетических данных для обучения, тестирования и защиты конфиденциальности. Основное преимущество — его легковесная архитектура, которая позволяет работать с большими табличными данными без значительных накладных расходов на ресурсы. Будущие разработки могут улучшить
Annotation:
Tabular data dominates data science but poses challenges for generative models, especially when the data is limited or sensitive. We present a novel approach to generating synthetic tabular data based on the principle of maximum entropy -- MaxEnt -- called GEM-T, for ``generative entropy maximization for tables.'' GEM-T directly captures nth-order interactions -- pairwise, third-order, etc. -- among columns of training data. In extensive testing, GEM-T matches or exceeds deep neural network appr...
ID: 2509.17752v1 cs.LG, cs.AI, stat.ML
Авторы:

Mohammad Emtiyaz Khan

## Контекст Информационная геометрия (IG) — это раздел математики, который изучает геометрические свойства многомерных пространств, которые могут быть представлены с помощью распределений вероятностей. Она широко применяется в машинном обучении, статистике и теории информации. Одним из приложений IG является вариационная байесовская оптимизация (Variational Bayes, VB), метод решения задач статистического вывода в ненастоящем времени. Традиционно VB и IG рассматривались как отдельные области, но недавние исследования показали, что существует глубокая связь между ними. Ключевая цель данного исследования — изучить эту связь и оценить ее потенциал для улучшения методов обучения машин. ## Метод В ходе работы использовался метод естественного градиентного спуска, в частности, алгоритм Bayesian Learning Rule (BLR). Были изучены и сравнины свойства VB и IG в рамках этого метода. Особое внимание было уделено структуре градиентов, которая формируется при применении BLR. Также были рассмотрены критерии, под которыми VB-решения зависят от условий естественных градиентов. Этот подход разрешил изучить многие характеристики VB и показать, как IG может улучшить ее стабильность и эффективность. ## Результаты Изучение связи VB и IG привело к нескольким ключевым результатам. В частности, подтверждено, что VB-решения всегда зависят от естественных градиентов. Это позволило продемонстрировать, что естественный градиентный спуск может использоваться для упрощения Bayes-правила. Были также получены результаты о том, что применение BLR позволяет значительно увеличить масштаб базовых VB-процедур, что может быть ключевым для применения VB в больших моделях языковых моделей. Результаты показали, что этот подход может улучшить точность и скорость обучения. ## Значимость Полученные результаты имеют значительное значение для машинного обучения и статистики. В частности, они улучшают теоретическую основу VB, позволяя лучше понять свойства и ограничения этого метода. Более того, новый подход может быть применен в практических задачах, включая обучение больших языковых моделей, где требуется высокая эффективность и стабильность. Этот инновационный подход также может открыть новые возможности для дальнейшего исследования взаимодействия между IG и VB. ## Выводы Эта работа показывает, что естественные градиенты являются ключевым инструментом для улучшения VB. Она также подтверждает глубокую связь между IG и VB, которая может быть использована для развития новых методов обучения машин. В будущем планируется расширить исследования, чтобы применить этот подход к другим моделям и задачам в машинном обу
Annotation:
We highlight a fundamental connection between information geometry and variational Bayes (VB) and discuss its consequences for machine learning. Under certain conditions, a VB solution always requires estimation or computation of natural gradients. We show several consequences of this fact by using the natural-gradient descent algorithm of Khan and Rue (2023) called the Bayesian Learning Rule (BLR). These include (i) a simplification of Bayes' rule as addition of natural gradients, (ii) a genera...
ID: 2509.15641v1 cs.LG, cs.AI, stat.ML
Авторы:

Florian Wiesner, Matthias Wessling, Stephen Baek

## Контекст Область исследования, связанная с физикой и машинным обучением, становится все более важной в научном и технологическом мире. На сегодняшний день, существующие физико-ориентированные методы машинного обучения ограничены одним частным видом физических систем и требуют постоянного переобучения для применения в других ситуациях. Это значительно ограничивает их широту применения и эффективность. Многие аспекты физических процессов, такие как теплообмен, движение жидкости, динамика звука и другие, требуют сложных и ресурсоемких моделей для точного прогнозирования. Эта сложность означает, что значительное время и средства требуются для разработки специализированных решений. Однако с появлением фундаментальных моделей (Foundation Models) в области естественного языка, появилась возможность перенести этот подход на область физики. Такая модель способна "научиться разбираться" в разных физических процессах без необходимости переобучения, что может упростить доступ к высококачественным моделям и ускорить исследования. ## Метод Мы предлагаем General Physics Transformer (GPhyT), основанный на трансформерной архитектуре, для создания универсальной физической модели. Эта модель обучается на необработанных данных симуляций, которые включают различные физические системы, такие как течение жидкости, шокирующие волны, термическая конвекция и другие. Основное предположение заключается в том, что трансформеры могут научиться интерпретировать и предсказывать динамику физических систем на основе контекста, не требуя предварительного определения уравнений. В нашей работе достигнут три ключевых результата: (1) Гиперпараметры GPhyT позволяют ему решать задачи в разных физических областях, демонстрируя превосходство над специализированными архитектурами до 29 раз. (2) GPhyT легко может работать с новыми системами, которые не были видны во время обучения, благодаря возможности in-context learning. (3) Модель обеспечивает стабильные прогнозы на длительные сроки, которые могут достигать до 50 шагов вперед в процессе временного роллаута. Этот подход предлагает новый способ построения универсальной модели, которая может быть применена в разных физических ситуациях. ## Результаты Мы проводили эксперименты, используя 1.8 TB данных, включающих различные физические системы. Наши результаты показали, что GPhyT не только превосходит существующие модели в нескольких физических областях, но и может предсказывать динамику в новых ситуациях без дополнительного обучения. Например, модель смогла точно прогнозировать
Annotation:
Foundation models have revolutionized natural language processing through a ``train once, deploy anywhere'' paradigm, where a single pre-trained model adapts to countless downstream tasks without retraining. Access to a Physics Foundation Model (PFM) would be transformative -- democratizing access to high-fidelity simulations, accelerating scientific discovery, and eliminating the need for specialized solver development. Yet current physics-aware machine learning approaches remain fundamentally ...
ID: 2509.13805v1 cs.LG, cs.AI, stat.ML
Показано 81 - 90 из 124 записей