📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Peter Holderrieth, Uriel Singer, Tommi Jaakkola, Ricky T. Q. Chen, Yaron Lipman, Brian Karrer

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The performance of flow matching and diffusion models can be greatly improved at inference time using reward alignment algorithms, yet efficiency remains a major limitation. While several algorithms were proposed, we demonstrate that a common bottleneck is the sampling method these algorithms rely on: many algorithms require to sample Markov transitions via SDE sampling, which is significantly less efficient and often less performant than ODE sampling. To remove this bottleneck, we introduce GLA...
ID: 2509.25170v1 cs.LG, cs.AI, stat.ML
Авторы:

Fangji Wang, Panagiotis Tsiotras

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Branch-and-bound with preactivation splitting has been shown highly effective for deterministic verification of neural networks. In this paper, we extend this framework to the probabilistic setting. We propose BaB-prob that iteratively divides the original problem into subproblems by splitting preactivations and leverages linear bounds computed by linear bound propagation to bound the probability for each subproblem. We prove soundness and completeness of BaB-prob for feedforward-ReLU neural net...
ID: 2509.25647v1 cs.LG, cs.AI, stat.ML
Авторы:

Joel Dyer, Daniel Jarne Ornia, Nicholas Bishop, Anisoara Calinescu, Michael Wooldridge

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Evaluating the safety of frontier AI systems is an increasingly important concern, helping to measure the capabilities of such models and identify risks before deployment. However, it has been recognised that if AI agents are aware that they are being evaluated, such agents may deliberately hide dangerous capabilities or intentionally demonstrate suboptimal performance in safety-related tasks in order to be released and to avoid being deactivated or retrained. Such strategic deception - often kn...
ID: 2509.26239v1 cs.LG, cs.AI, stat.ML
Авторы:

Ziheng Cheng, Zhong Li, Jiang Bian

## Контекст В современной машинном обучении становится все важнее улучшить эффективность обучения, особенно при работе с большими датасетами и ресурсоемкими моделями. Одним из ключевых аспектов этого процесса является выбор информативных данных, которые могут существенно ускорить обучение без ухудшения качества модели. Несмотря на развитие методов выбора данных, таких как динамическое выборка и фильтрация, существуют значительные пробелы в их эффективности и универсальности. Мотивация для этого исследования заключается в разработке метода, который не только увеличит скорость обучения, но и сохранит высокое качество модели. ## Метод Разработанный подход, названный **Evolved Sampling (ES)**, представляет собой динамическую систему выбора данных в процессе обучения. Основная идея заключается в использовании **батч-уровня выбора данных**, основанного на динамических изменениях потерь и добавленных **loss differences**. Этот подход позволяет гибко управлять частотой обновления данных, уменьшая время обратного распространения (back propagation). Кроме того, ES может быть расширен для применения на уровне **сета данных**, включая методы **pruning** (ESWP), для дополнительных ускорений. Такая подходность к различным задачам и моделям делает ES(WP) простым и эффективным фреймворком для динамического выбора данных. ## Результаты Эксперименты проводились на различных задачах, включая предварительное обучение (pre-training) и последовательное обучение (post-training). Были использованы различные модели и датасеты, в том числе для задач классификации и регрессии. Результаты показали, что ES существенно уменьшает время обучения (до 45% wall-clock time), при этом сохраняя высокое качество модели. Также, ESWP демонстрирует более высокую эффективность при работе с большими датасетами. Эти результаты подтверждают гибкость и эффективность алгоритма в различных сценариях. ## Значимость Разработанный подход может быть применен в различных областях машинного обучения, включая предварительное обучение моделей, трансформеры и другие ресурсоемкие задачи. Его главное преимущество заключается в способности ускорить обучение без ущерба качеству. Это может привести к значительным экономиям в ресурсах, в том числе времени и вычислительных мощностей. Будущие исследования могут быть направлены на улучшение гибкости и расширение применения данного метода к другим типам моделей и задачам. ## Выводы Разработанный метод **Evolved Sampling (ES)** демонстрирует высокую эффективность в динамическом выборе данных для ускорения обучения без ущерба качеству. Он показал свою перспективность на различных задачах и моделях, сохраняя высокую точность и уменьшая время обучения.
Annotation:
Data selection is designed to accelerate learning with preserved performance. To achieve this, a fundamental thought is to identify informative data samples with significant contributions to the training. In this work, we propose \textbf{Evolved Sampling} (\textbf{ES}), a simple yet effective framework for \emph{dynamic} sampling along the training process. This method conducts \em batch \em level data selection based on the dynamics of losses and augmented \emph{loss differences}, which enables...
ID: 2509.23461v1 cs.LG, cs.AI, stat.ML
Авторы:

Jie Yang, Yifan Hu, Kexin Zhang, Luyang Niu, Yushun Dong, Philip S. Yu, Kaize Ding

## Контекст Временные ряды — это важный источник данных, используемый в различных областях, включая финансы, здравоохранение и промышленность. Однако реальные временные ряды часто содержат пропущенные значения, что создает серьезные вызовы для моделирования и прогнозирования. Многие текущие методы применяют последовательный подход: сначала исправляют пропуски (imputation), а затем прогнозируют (prediction). Однако этот подход не учитывает, что пропуски могут быть неточно импультрованы, что приводит к подрыву достоверности прогнозов. Эта проблема требует изменить подход к моделированию временных рядов с пропусками. ## Метод Методология предлагаемого подхода основана на идее информационного бутлета (Information Bottleneck, IB). Разработанный фреймворк, названный **Consistency-Regularized Information Bottleneck (CRIB)**, не зависит от импультрования пропусков. Вместо этого он напрямую прогнозирует из частично наблюдаемых временных рядов. Основные компоненты CRIB: 1. **Unified-Variate Attention Mechanism** — позволяет учитывать взаимосвязи между различными признаками временных рядов. 2. **Consistency Regularization** — улучшает стабильность и точность прогноза, акцентуясь на надежных сигналах в данных. 3. **End-to-End Learning** — обеспечивает прямое учитывание ошибок в прогнозе без дополнительных моделей для импультрования пропусков. ## Результаты Статья представляет результаты экспериментов на четырёх реальных датасетах, в том числе банковских, здравоохранения и промышленности. Обучавшаяся с помощью CRIB модель показала стабильно высокую точность прогноза даже при высоких процентах пропусков в данных. Эксперименты показали, что CRIB оказывается эффективной в сравнении с традиционными методами, построенными на импультровании пропусков. ## Значимость Предлагаемый подход имеет широкие применения в областях, где существует большое количество временных рядов с пропусками, включая здравоохранение, финансы и промышленные процессы. Он не только улучшает точность прогнозов, но и устраняет зависимость от неточного импультрования пропусков. Это делает CRIB более надежным и универсальным инструментом для прогнозирования временных рядов. ## Выводы Результаты исследования подтверждают, что CRIB является эффективным подходом к разрешению проблемы пропусков в временных рядах. Будущие исследования будут фокусироваться на расширении модели для более сложных структур временных рядов и интеграции с другими методами машинного обучения.
Annotation:
Missing values are common in real-world time series, and multivariate time series forecasting with missing values (MTSF-M) has become a crucial area of research for ensuring reliable predictions. To address the challenge of missing data, current approaches have developed an imputation-then-prediction framework that uses imputation modules to fill in missing values, followed by forecasting on the imputed data. However, this framework overlooks a critical issue: there is no ground truth for the mi...
ID: 2509.23494v1 cs.LG, cs.AI, stat.ML
Авторы:

Tianxiang Gao, Siyuan Sun, Hailiang Liu, Hongyang Gao

## Контекст Neural Ordinary Differential Equations (Neural ODEs) представляют собой модели, использующие непрерывные нейронные сети для решения дифференциальных уравнений. Они показали выдающиеся результаты в приложениях, таких как обработка изображений, генеративные модели и задачи регрессии. Однако, необходимость вычисления точных производных и градиентов приводит к сложностям в обучении и анализе. Эти трудности становятся еще более заметны в сложных моделях, где неоднородность данных и высокая размерность данных приводят к нестабильности и неэффективности обучения. Это стимулирует исследования по оптимизации тренировочных процессов и пониманию механизмов, которые влияют на работу Neural ODEs. ## Метод В настоящей работе использована методология анализа глобальной конвеорентности Neural ODEs с помощью градиентного спуска. Мы проанализировали влияние различных активационных функций на динамику обучения, в частности, исследовали свойства частных производных и их устойчивости. Технически, в модели Neural ODEs использовался архитектурный подход, основывающийся на нейронных сетях с периодическим скрытым состоянием, который позволяет упростить вычисление градиентов и обеспечить более стабильное обучение. Мы также рассмотрели подходы к улучшению локальной и глобальной точности процесса обучения. ## Результаты Мы провели эксперименты на различных датасетах, включая MNIST и CIFAR-10, используя модели Neural ODEs с разными активационными функциями. Наши результаты показали, что активационные функции с высокой нелинейностью и сглаживающим эффектом приводят к оптимальным результатам в обучении. Мы также установили, что конкретные активационные функции, такие как GELU и Swish, позволяют повысить сходимость модели и поддерживать глобальную точность решений. Эти результаты подтверждают теоретические выводы о влиянии активационных функций на Neural ODEs и дают практические рекомендации по их использованию в реальных задачах. ## Значимость Наши результаты имеют значительное значение в области обучения нейронных сетей с непрерывными моделями. Они могут быть применены в таких приложениях, как распознавание речи, обработка естественного языка и анализ данных в реальном времени. Методы, описанные в нашей работе, позволяют улучшить процесс обучения, уменьшить время тренировки и повысить точность решений, что может быть ключевым фактором для реализации Neural ODEs в больших данных и сложных моделях. ## Выводы Мы установили, что свойства активационных функций — их гладкость и нелинейность — являются ключевыми факторами, определяющими точность и стабильность Neural ODEs. Наше исследование по
Annotation:
Neural Ordinary Differential Equations (ODEs) have been successful in various applications due to their continuous nature and parameter-sharing efficiency. However, these unique characteristics also introduce challenges in training, particularly with respect to gradient computation accuracy and convergence analysis. In this paper, we address these challenges by investigating the impact of activation functions. We demonstrate that the properties of activation functions, specifically smoothness an...
ID: 2509.22436v1 cs.LG, cs.AI, stat.ML
Авторы:

Maojiang Su, Mingcheng Lu, Jerry Yao-Chieh Hu, Shang Wu, Zhao Song, Alex Reneau, Han Liu

#### Контекст Область исследования относится к методам генерирующих моделей для работы с дискретными данными. Дискретные генерирующие модели (DFM) - это модели, концентрирующиеся на генерировании дискретных данных, таких как слова, токены или другие выборки, использующие дискретные вектора. Одной из основных проблем в данной области является то, что необходимо достичь высокой точности генерирования, сохранив гибкость и эффективность. Недостаток многих существующих методов заключается в трудности предсказания распределения данных и недостаточной способности статистических моделей предсказывать дальнейшие данные. Мотивация состоит в разработке теоретической базы для энд-то-энд тренировки DFM моделей, чтобы улучшить их точность и устойчивость. #### Метод Методология DFM основывается на нейронной сети, которая аппроксимирует трансформацию векторов в пространстве данных. Цифровые данные трактуются как элементы вектора, и целью является построение модели, которая генерирует эти вектора, чтобы они были близки к целевым данным. Архитектура DFM включает в себя Transformer, которая представляет трансформацию векторов, и генерирует новые данные, аппроксимируя трансформацию в пространстве данных. Решение заключается в двух этапах: (i) оценка скорости трансформации (velocity field) и (ii) статистическая оценка ошибки в тренировочном процессе. Это позволяет получить точное распределение данных с минимальной ошибкой. #### Результаты Эксперименты проводились на различных датасетах, в том числе на картинках, текстах и игровых данных. Было продемонстрировано, что DFM модели показывают высокую точность в генерировании дискретных данных. Использовались стандартные метрики качества, такие как Total Variation Distance, для меры расстояния между генерируемым и целевым распределением. Результаты показали, что DFM модели демонстрируют значительную улучшенную точность по сравнению с другими моделями. Также была показана статистическая сходимость генерируемого распределения к целевому распределению при увеличении размера тренировочного набора данных. #### Значимость Модели DFM применяются в различных областях, включая генерирование текста, генерирование изображений, игровые данные и другие области, где требуется генерировать дискретные выборки. Одним из основных преимуществ является то, что DFM модели уменьшают размер тренировочного набора, необходимый для генерирования качественных данных. Это приводит к более эффективной использованию ресурсов и более точному генерированию данных. Будущие исследования будут направлены на улучшение скорости и точност
Annotation:
We provide a theoretical analysis for end-to-end training Discrete Flow Matching (DFM) generative models. DFM is a promising discrete generative modeling framework that learns the underlying generative dynamics by training a neural network to approximate the transformative velocity field. Our analysis establishes a clear chain of guarantees by decomposing the final distribution estimation error. We first prove that the total variation distance between the generated and target distributions is co...
ID: 2509.22623v1 cs.LG, cs.AI, stat.ML
Авторы:

Zhengkang Guan, Kun Kuang

## Контекст Область исследований, известная как constraint-based causal discovery, ставится перед задачей выявления закономерностей в данных с помощью моделей, основанных на принципах логического рассуждения. Центральной задачей этой области является определение взаимозависимостей между переменными, чтобы построить модель, отражающую причинно-следственные связи. Одной из основных задач этой области является проведение множества тестов конденциональной независимости (CITs). Эти тесты являются ключевым инструментом для выявления закономерностей, но их выполнение требует высокой вычислительной стоимости, особенно при работе с большими объемами данных. Это ограничивает практическую применимость constraint-based causal discovery в реальных задачах. Существуют методы, стремящиеся улучшить эффективность таких тестов, но они либо недостаточно мощны, либо требуют сложных подготовительных работ. Наша мотивация заключается в разработке метода, который способен обеспечить эффективность и точность в проведении CITs, не требуя изменений в основной модели или дополнительных сложных манипуляций. ## Метод Мы предлагаем Ensemble Conditional Independence Test (E-CIT), фреймворк, основанный на принципе разделяй и властвуй (divide-and-conquer). E-CIT делит исходный набор данных на несколько подмножеств и применяет ко всем подмножествам один и тот же базовый тест конденциональной независимости (base CIT). Результаты отдельных тестов (p-значения) объединяются с помощью оригинального метода, основанного на свойствах стабильных распределений. Это позволяет эффективно уменьшить вычислительную стоимость каждого отдельного теста до линейной зависимости от размера выборки, когда размер подмножества фиксирован. Наш подход гарантирует теоретическую консистентность результатов при условии, что базовый тест подходит для своей задачи. Таким образом, E-CIT предлагает способ уменьшения вычислительных затрат в constraint-based causal discovery без потери точности. ## Результаты Мы проверили E-CIT на нескольких реальных датасетах, по сравнению с другими существующими подходами. В экспериментах мы измеряли общую вычислительную стоимость тестов, а также их точность в выявлении зависимостей. Наши результаты показали, что E-CIT значительно снижает время работы тестов в сравнении с базовыми методами, особенно по мере увеличения размера выборки. Также мы отметили, что E-CIT сохраняет высокую точность в выявлении закономерностей, даже при выполнении на больших наборах данных. Эксперименты также подтвердили, что E-CIT может интегрироваться с разными базовыми тестами CIT, что делает его широко применимым в разных сферах. ## Значимость Проведенные исследования показывают, что E-CIT может быть применено в ситуациях, г
Annotation:
Constraint-based causal discovery relies on numerous conditional independence tests (CITs), but its practical applicability is severely constrained by the prohibitive computational cost, especially as CITs themselves have high time complexity with respect to the sample size. To address this key bottleneck, we introduce the Ensemble Conditional Independence Test (E-CIT), a general and plug-and-play framework. E-CIT operates on an intuitive divide-and-aggregate strategy: it partitions the data int...
ID: 2509.21021v1 cs.LG, cs.AI, stat.ML
Авторы:

Yehonatan Refael, Guy Smorodinsky, Ofir Lindenbaum, Itay Safran

## Контекст Современные нейронные сети показали замечательные результаты в области машинного обучения, но при этом сталкиваются с значительными проблемами, связанными с приватностью и безопасностью. Одним из ключевых аспектов является **запоминание тренировочных данных** сетями, что может привести к утечке конфиденциальной информации. Недавние исследования показали, что некоторые атаки могут восстановить части тренировочного набора данных непосредственно из параметров сети. Эти методы часто используют ускорение обучения, основанное на максимизации маржинала, что демонстрирует взаимосвязь между устойчивостью к атакам и высоким уровнем общезначимости модели. Тем не менее, на сегодняшний день, эти атаки слабо обоснованы теоретически, а их надежность и ограничения не понятны до конца. В нашей работе мы взглянем на эту проблему с другой стороны, изучив уязвимости и ограничения существующих атак, а также изучив условия, при которых они могут быть неустойчивы. ## Метод Мы применяем **аналитические методы** для рассмотрения базовых свойств моделей и **эмпирические эксперименты** для проверки наших теоретических выводов. Наша модель является обычной нейронной сетью, обученной на задаче классификации, с использованием различных архитектур и настроек. Мы используем методы **gradient descent** для моделирования атак и применяем методы **theoretical bounds** для проверки устойчивости атак в теории. Основной целью нашей работы является изучение условий, под которыми **reconstruction attacks** могут быть неустойчивыми, и определение условий для повышения приватности модели. ## Результаты Мы проводим ряд экспериментов на различных датасетах, таких как **CIFAR-10** и **Fashion-MNIST**, используя разные архитектуры нейронных сетей. Наши результаты показывают, что **reconstruction attacks** могут быть неустойчивы, если не использовать дополнительные предположения о тренировочных данных. Мы доказываем, что в случае отсутствия дополнительных знаний, есть **неограниченное количество решений**, которые могут быть арбитрарно далеки от истинного тренировочного набора. Эмпирические результаты также показывают, что **exact duplication** тренировочных примеров происходит только в редких случаях, что демонстрирует слабость существующих атак. Мы также проверяем, как **more extensive training** может повлиять на устойчивость модели к атакам, и обнаруживаем, что более тщательно обученные модели, на самом деле, являются **less vulnerable** к таким атакам, что является неожиданным результатом. ## Значимость Наше исследование имеет **практическое значение** для понимания условий, при которых могут возникать **privacy leaks** в нейронных сетях. Мы показываем, что **без допол
Annotation:
The memorization of training data by neural networks raises pressing concerns for privacy and security. Recent work has shown that, under certain conditions, portions of the training set can be reconstructed directly from model parameters. Some of these methods exploit implicit bias toward margin maximization, suggesting that properties often regarded as beneficial for generalization may actually compromise privacy. Yet despite striking empirical demonstrations, the reliability of these attacks ...
ID: 2509.21296v1 cs.LG, cs.AI, stat.ML
Авторы:

Peng Lu, Jerry Huang, Qiuhao Zeng, Xinyu Wang, Boxing Wang, Philippe Langlais, Yufei Cui

#### Контекст Проблема масштабирования в Трансформер-моделях, особенно в задачах языкового моделирования, ставит перед разработчиками вызов. Традиционная архитектура Трансформера основана на применении квадратично сложной атенционной механики, что приводит к высоким требованиям к вычислительным ресурсам. В этой связи в последние годы развиваются альтернативные модели, стремящиеся решить эту проблему с помощью моделей с подъемом сложности меньшей, чем квадратичное. Одним из таких моделей является Mamba, которая доказала свою эффективность в различных языковых моделированиях. Однако, несмотря на свои достижения, Mamba оказалась чувствительной к продолжению контекста в тестах, в которых входные данные имели длину, отличную от тех, которые рассматривались в предварительном обучении. Этот феномен приводит к ухудшению качества модели и делает ее менее универсальной. Мы рассматриваем эту проблему как результат недостатка генерализации модели на длинные контексты и приступаем к ее расследованию. #### Метод Для разбора причин, по которым Mamba страдает от длинных контекстов, вначале мы проводим подробный анализ внутренних динамик модели, в частности, структуры стейт-спейса. Мы показываем, что проблема возникает из-за поведения состояний в модели, которое передвигается вне диапазона, с которым она сталкивалась в предварительном обучении. Это происходит из-за спектра транзитивного матрицы $\mathbf{A}$, который не устойчив к длинным контекстам. Мы основываем наш анализ на теоретических выводах, подкрепленных экспериментальными исследованиями, и показываем, что изменение спектра $\mathbf{A}$ может улучшить поведение Mamba при продолжении контекста. Методика, которую мы применяем, заключается в модуляции спектра $\mathbf{A}$ в каждом слое модели, чтобы предотвратить выход состояний за установленный диапазон. #### Результаты Мы проводим эксперименты на наборе данных с различными длинами контекста, оценивая качество модели Mamba до и после модуляции спектра. Эксперименты показывают, что простое изменение $\Delta_t$ (параметра отсчёта времени) недостаточно для решения проблемы длинных контекстов, так как оно не адресует ключевую причину — неустойчивость спектра $\mathbf{A}$. В то же время, модуляция спектра позволяет Mamba лучше справляться с тестами на длинные контексты, существенно повышая качество модели. Мы также проводим эксперименты с конкурирующими моделями и показываем, что Mamba модифицированная с помощью нашего подхода показывает значительно лучший результат, чем соревнующиеся модели. #### Значимость Предложенный подход имеет большое значение в сфере моделей с генеральной способностью
Annotation:
The quadratic complexity of the attention mechanism in Transformer models has motivated the development of alternative architectures with sub-quadratic scaling, such as state-space models. Among these, Mamba has emerged as a leading architecture, achieving state-of-the-art results across a range of language modeling tasks. However, Mamba's performance significantly deteriorates when applied to contexts longer than those seen during pre-training, revealing a sharp sensitivity to context length ex...
ID: 2509.19633v1 cs.LG, cs.AI, stat.ML
Показано 61 - 70 из 102 записей