📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 Offline Reinforcement Learning in Large State Spaces: Algorithms and Guarantees

2025-10-08

Авторы:

Nan Jiang, Tengyang Xie

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This article introduces the theory of offline reinforcement learning in large state spaces, where good policies are learned from historical data without online interactions with the environment. Key concepts introduced include expressivity assumptions on function approximation (e.g., Bellman completeness vs. realizability) and data coverage (e.g., all-policy vs. single-policy coverage). A rich landscape of algorithms and results is described, depending on the assumptions one is willing to make a...

ID: 2510.04088v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Rethinking Langevin Thompson Sampling from A Stochastic Approximation Perspective

2025-10-08

Авторы:

Weixin Wang, Haoyang Zheng, Guang Lin, Wei Deng, Pan Xu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Most existing approximate Thompson Sampling (TS) algorithms for multi-armed bandits use Stochastic Gradient Langevin Dynamics (SGLD) or its variants in each round to sample from the posterior, relaxing the need for conjugacy assumptions between priors and reward distributions in vanilla TS. However, they often require approximating a different posterior distribution in different round of the bandit problem. This requires tricky, round-specific tuning of hyperparameters such as dynamic learning r...

ID: 2510.05023v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Distilled Protein Backbone Generation

2025-10-07

Авторы:

Liyang Xie, Haoran Zhang, Zhendong Wang, Wesley Tansey, Mingyuan Zhou

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Diffusion- and flow-based generative models have recently demonstrated strong performance in protein backbone generation tasks, offering unprecedented capabilities for de novo protein design. However, while achieving notable performance in generation quality, these models are limited by their generating speed, often requiring hundreds of iterative steps in the reverse-diffusion process. This computational bottleneck limits their practical utility in large-scale protein discovery, where thousands...

ID: 2510.03095v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Train on Validation (ToV): Fast data selection with applications to fine-tuning

2025-10-04

Авторы:

Ayush Jain, Andrea Montanari, Eren Sasoglu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

State-of-the-art machine learning often follows a two-stage process: $(i)$~pre-training on large, general-purpose datasets; $(ii)$~fine-tuning on task-specific data. In fine-tuning, selecting training examples that closely reflect the target distribution is crucial. However, it is often the case that only a few samples are available from the target distribution. Existing data selection methods treat these target samples as a validation set and estimate the effect of adding or removing a single s...

ID: 2510.00386v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Low Rank Gradients and Where to Find Them

2025-10-04

Авторы:

Rishi Sonthalia, Michael Murray, Guido Montúfar

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This paper investigates low-rank structure in the gradients of the training loss for two-layer neural networks while relaxing the usual isotropy assumptions on the training data and parameters. We consider a spiked data model in which the bulk can be anisotropic and ill-conditioned, we do not require independent data and weight matrices and we also analyze both the mean-field and neural-tangent-kernel scalings. We show that the gradient with respect to the input weights is approximately low rank...

ID: 2510.01303v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 GLASS Flows: Transition Sampling for Alignment of Flow and Diffusion Models

2025-10-02

Авторы:

Peter Holderrieth, Uriel Singer, Tommi Jaakkola, Ricky T. Q. Chen, Yaron Lipman, Brian Karrer

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The performance of flow matching and diffusion models can be greatly improved at inference time using reward alignment algorithms, yet efficiency remains a major limitation. While several algorithms were proposed, we demonstrate that a common bottleneck is the sampling method these algorithms rely on: many algorithms require to sample Markov transitions via SDE sampling, which is significantly less efficient and often less performant than ODE sampling. To remove this bottleneck, we introduce GLA...

ID: 2509.25170v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 BaB-prob: Branch and Bound with Preactivation Splitting for Probabilistic Verification of Neural Networks

2025-10-02

Авторы:

Fangji Wang, Panagiotis Tsiotras

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Branch-and-bound with preactivation splitting has been shown highly effective for deterministic verification of neural networks. In this paper, we extend this framework to the probabilistic setting. We propose BaB-prob that iteratively divides the original problem into subproblems by splitting preactivations and leverages linear bounds computed by linear bound propagation to bound the probability for each subproblem. We prove soundness and completeness of BaB-prob for feedforward-ReLU neural net...

ID: 2509.25647v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Sandbagging in a Simple Survival Bandit Problem

2025-10-02

Авторы:

Joel Dyer, Daniel Jarne Ornia, Nicholas Bishop, Anisoara Calinescu, Michael Wooldridge

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Evaluating the safety of frontier AI systems is an increasingly important concern, helping to measure the capabilities of such models and identify risks before deployment. However, it has been recognised that if AI agents are aware that they are being evaluated, such agents may deliberately hide dangerous capabilities or intentionally demonstrate suboptimal performance in safety-related tasks in order to be released and to avoid being deactivated or retrained. Such strategic deception - often kn...

ID: 2509.26239v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Data-Efficient Training by Evolved Sampling

2025-10-01

Авторы:

Ziheng Cheng, Zhong Li, Jiang Bian

## Контекст В современной машинном обучении становится все важнее улучшить эффективность обучения, особенно при работе с большими датасетами и ресурсоемкими моделями. Одним из ключевых аспектов этого процесса является выбор информативных данных, которые могут существенно ускорить обучение без ухудшения качества модели. Несмотря на развитие методов выбора данных, таких как динамическое выборка и фильтрация, существуют значительные пробелы в их эффективности и универсальности. Мотивация для этого исследования заключается в разработке метода, который не только увеличит скорость обучения, но и сохранит высокое качество модели. ## Метод Разработанный подход, названный **Evolved Sampling (ES)**, представляет собой динамическую систему выбора данных в процессе обучения. Основная идея заключается в использовании **батч-уровня выбора данных**, основанного на динамических изменениях потерь и добавленных **loss differences**. Этот подход позволяет гибко управлять частотой обновления данных, уменьшая время обратного распространения (back propagation). Кроме того, ES может быть расширен для применения на уровне **сета данных**, включая методы **pruning** (ESWP), для дополнительных ускорений. Такая подходность к различным задачам и моделям делает ES(WP) простым и эффективным фреймворком для динамического выбора данных. ## Результаты Эксперименты проводились на различных задачах, включая предварительное обучение (pre-training) и последовательное обучение (post-training). Были использованы различные модели и датасеты, в том числе для задач классификации и регрессии. Результаты показали, что ES существенно уменьшает время обучения (до 45% wall-clock time), при этом сохраняя высокое качество модели. Также, ESWP демонстрирует более высокую эффективность при работе с большими датасетами. Эти результаты подтверждают гибкость и эффективность алгоритма в различных сценариях. ## Значимость Разработанный подход может быть применен в различных областях машинного обучения, включая предварительное обучение моделей, трансформеры и другие ресурсоемкие задачи. Его главное преимущество заключается в способности ускорить обучение без ущерба качеству. Это может привести к значительным экономиям в ресурсах, в том числе времени и вычислительных мощностей. Будущие исследования могут быть направлены на улучшение гибкости и расширение применения данного метода к другим типам моделей и задачам. ## Выводы Разработанный метод **Evolved Sampling (ES)** демонстрирует высокую эффективность в динамическом выборе данных для ускорения обучения без ущерба качеству. Он показал свою перспективность на различных задачах и моделях, сохраняя высокую точность и уменьшая время обучения.

Annotation:

Data selection is designed to accelerate learning with preserved performance. To achieve this, a fundamental thought is to identify informative data samples with significant contributions to the training. In this work, we propose \textbf{Evolved Sampling} (\textbf{ES}), a simple yet effective framework for \emph{dynamic} sampling along the training process. This method conducts \em batch \em level data selection based on the dynamics of losses and augmented \emph{loss differences}, which enables...

ID: 2509.23461v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Revisiting Multivariate Time Series Forecasting with Missing Values

2025-10-01

Авторы:

Jie Yang, Yifan Hu, Kexin Zhang, Luyang Niu, Yushun Dong, Philip S. Yu, Kaize Ding

## Контекст Временные ряды — это важный источник данных, используемый в различных областях, включая финансы, здравоохранение и промышленность. Однако реальные временные ряды часто содержат пропущенные значения, что создает серьезные вызовы для моделирования и прогнозирования. Многие текущие методы применяют последовательный подход: сначала исправляют пропуски (imputation), а затем прогнозируют (prediction). Однако этот подход не учитывает, что пропуски могут быть неточно импультрованы, что приводит к подрыву достоверности прогнозов. Эта проблема требует изменить подход к моделированию временных рядов с пропусками. ## Метод Методология предлагаемого подхода основана на идее информационного бутлета (Information Bottleneck, IB). Разработанный фреймворк, названный **Consistency-Regularized Information Bottleneck (CRIB)**, не зависит от импультрования пропусков. Вместо этого он напрямую прогнозирует из частично наблюдаемых временных рядов. Основные компоненты CRIB: 1. **Unified-Variate Attention Mechanism** — позволяет учитывать взаимосвязи между различными признаками временных рядов. 2. **Consistency Regularization** — улучшает стабильность и точность прогноза, акцентуясь на надежных сигналах в данных. 3. **End-to-End Learning** — обеспечивает прямое учитывание ошибок в прогнозе без дополнительных моделей для импультрования пропусков. ## Результаты Статья представляет результаты экспериментов на четырёх реальных датасетах, в том числе банковских, здравоохранения и промышленности. Обучавшаяся с помощью CRIB модель показала стабильно высокую точность прогноза даже при высоких процентах пропусков в данных. Эксперименты показали, что CRIB оказывается эффективной в сравнении с традиционными методами, построенными на импультровании пропусков. ## Значимость Предлагаемый подход имеет широкие применения в областях, где существует большое количество временных рядов с пропусками, включая здравоохранение, финансы и промышленные процессы. Он не только улучшает точность прогнозов, но и устраняет зависимость от неточного импультрования пропусков. Это делает CRIB более надежным и универсальным инструментом для прогнозирования временных рядов. ## Выводы Результаты исследования подтверждают, что CRIB является эффективным подходом к разрешению проблемы пропусков в временных рядах. Будущие исследования будут фокусироваться на расширении модели для более сложных структур временных рядов и интеграции с другими методами машинного обучения.

Annotation:

Missing values are common in real-world time series, and multivariate time series forecasting with missing values (MTSF-M) has become a crucial area of research for ensuring reliable predictions. To address the challenge of missing data, current approaches have developed an imputation-then-prediction framework that uses imputation modules to fill in missing values, followed by forecasting on the imputed data. However, this framework overlooks a critical issue: there is no ground truth for the mi...

ID: 2509.23494v1 cs.LG, cs.AI, stat.ML

arXiv PDF

Показано 71 - 80 из 124 записей