Data-Efficient Training by Evolved Sampling

2509.23461v1 cs.LG, cs.AI, stat.ML 2025-10-01

Авторы:

Ziheng Cheng, Zhong Li, Jiang Bian

Резюме на русском

## Контекст В современной машинном обучении становится все важнее улучшить эффективность обучения, особенно при работе с большими датасетами и ресурсоемкими моделями. Одним из ключевых аспектов этого процесса является выбор информативных данных, которые могут существенно ускорить обучение без ухудшения качества модели. Несмотря на развитие методов выбора данных, таких как динамическое выборка и фильтрация, существуют значительные пробелы в их эффективности и универсальности. Мотивация для этого исследования заключается в разработке метода, который не только увеличит скорость обучения, но и сохранит высокое качество модели. ## Метод Разработанный подход, названный **Evolved Sampling (ES)**, представляет собой динамическую систему выбора данных в процессе обучения. Основная идея заключается в использовании **батч-уровня выбора данных**, основанного на динамических изменениях потерь и добавленных **loss differences**. Этот подход позволяет гибко управлять частотой обновления данных, уменьшая время обратного распространения (back propagation). Кроме того, ES может быть расширен для применения на уровне **сета данных**, включая методы **pruning** (ESWP), для дополнительных ускорений. Такая подходность к различным задачам и моделям делает ES(WP) простым и эффективным фреймворком для динамического выбора данных. ## Результаты Эксперименты проводились на различных задачах, включая предварительное обучение (pre-training) и последовательное обучение (post-training). Были использованы различные модели и датасеты, в том числе для задач классификации и регрессии. Результаты показали, что ES существенно уменьшает время обучения (до 45% wall-clock time), при этом сохраняя высокое качество модели. Также, ESWP демонстрирует более высокую эффективность при работе с большими датасетами. Эти результаты подтверждают гибкость и эффективность алгоритма в различных сценариях. ## Значимость Разработанный подход может быть применен в различных областях машинного обучения, включая предварительное обучение моделей, трансформеры и другие ресурсоемкие задачи. Его главное преимущество заключается в способности ускорить обучение без ущерба качеству. Это может привести к значительным экономиям в ресурсах, в том числе времени и вычислительных мощностей. Будущие исследования могут быть направлены на улучшение гибкости и расширение применения данного метода к другим типам моделей и задачам. ## Выводы Разработанный метод **Evolved Sampling (ES)** демонстрирует высокую эффективность в динамическом выборе данных для ускорения обучения без ущерба качеству. Он показал свою перспективность на различных задачах и моделях, сохраняя высокую точность и уменьшая время обучения.

Abstract

Data selection is designed to accelerate learning with preserved performance. To achieve this, a fundamental thought is to identify informative data samples with significant contributions to the training. In this work, we propose \textbf{Evolved Sampling} (\textbf{ES}), a simple yet effective framework for \emph{dynamic} sampling along the training process. This method conducts \em batch \em level data selection based on the dynamics of losses and augmented \emph{loss differences}, which enables flexible \emph{frequency tuning}, and hence significantly reduces the back propagation time with maintained model performance. Due to its conciseness, ES is also readily extensible to incorporate \em set \em level data selection (to form ES with pruning, \textbf{ESWP}) for further accelerations. As a plug-and-play framework, ES(WP) consistently achieves lossless training accelerations across various pre-training and post-training tasks, saving up to nearly 45\% wall-clock time. Our results motivate further investigations on the data efficiency aspect of modern large-scale machine learning.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Data-Efficient Training by Evolved Sampling

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Single-Round Scalable Analytic Federated Learning

Does Flatness imply Generalization for Logistic Loss in Univariate Two-Layer ReL...

Multi-view diffusion geometry using intertwined diffusion trajectories

A Diffusion Model Framework for Maximum Entropy Reinforcement Learning

Beyond Additivity: Sparse Isotonic Shapley Regression toward Nonlinear Explainab...

Навигация