Data-Efficient Training by Evolved Sampling
2509.23461v1
cs.LG, cs.AI, stat.ML
2025-10-01
Авторы:
Ziheng Cheng, Zhong Li, Jiang Bian
Резюме на русском
## Контекст
В современной машинном обучении становится все важнее улучшить эффективность обучения, особенно при работе с большими датасетами и ресурсоемкими моделями. Одним из ключевых аспектов этого процесса является выбор информативных данных, которые могут существенно ускорить обучение без ухудшения качества модели. Несмотря на развитие методов выбора данных, таких как динамическое выборка и фильтрация, существуют значительные пробелы в их эффективности и универсальности. Мотивация для этого исследования заключается в разработке метода, который не только увеличит скорость обучения, но и сохранит высокое качество модели.
## Метод
Разработанный подход, названный **Evolved Sampling (ES)**, представляет собой динамическую систему выбора данных в процессе обучения. Основная идея заключается в использовании **батч-уровня выбора данных**, основанного на динамических изменениях потерь и добавленных **loss differences**. Этот подход позволяет гибко управлять частотой обновления данных, уменьшая время обратного распространения (back propagation). Кроме того, ES может быть расширен для применения на уровне **сета данных**, включая методы **pruning** (ESWP), для дополнительных ускорений. Такая подходность к различным задачам и моделям делает ES(WP) простым и эффективным фреймворком для динамического выбора данных.
## Результаты
Эксперименты проводились на различных задачах, включая предварительное обучение (pre-training) и последовательное обучение (post-training). Были использованы различные модели и датасеты, в том числе для задач классификации и регрессии. Результаты показали, что ES существенно уменьшает время обучения (до 45% wall-clock time), при этом сохраняя высокое качество модели. Также, ESWP демонстрирует более высокую эффективность при работе с большими датасетами. Эти результаты подтверждают гибкость и эффективность алгоритма в различных сценариях.
## Значимость
Разработанный подход может быть применен в различных областях машинного обучения, включая предварительное обучение моделей, трансформеры и другие ресурсоемкие задачи. Его главное преимущество заключается в способности ускорить обучение без ущерба качеству. Это может привести к значительным экономиям в ресурсах, в том числе времени и вычислительных мощностей. Будущие исследования могут быть направлены на улучшение гибкости и расширение применения данного метода к другим типам моделей и задачам.
## Выводы
Разработанный метод **Evolved Sampling (ES)** демонстрирует высокую эффективность в динамическом выборе данных для ускорения обучения без ущерба качеству. Он показал свою перспективность на различных задачах и моделях, сохраняя высокую точность и уменьшая время обучения.
Abstract
Data selection is designed to accelerate learning with preserved performance.
To achieve this, a fundamental thought is to identify informative data samples
with significant contributions to the training. In this work, we propose
\textbf{Evolved Sampling} (\textbf{ES}), a simple yet effective framework for
\emph{dynamic} sampling along the training process. This method conducts \em
batch \em level data selection based on the dynamics of losses and augmented
\emph{loss differences}, which enables flexible \emph{frequency tuning}, and
hence significantly reduces the back propagation time with maintained model
performance. Due to its conciseness, ES is also readily extensible to
incorporate \em set \em level data selection (to form ES with pruning,
\textbf{ESWP}) for further accelerations. As a plug-and-play framework, ES(WP)
consistently achieves lossless training accelerations across various
pre-training and post-training tasks, saving up to nearly 45\% wall-clock time.
Our results motivate further investigations on the data efficiency aspect of
modern large-scale machine learning.
Ссылки и действия
Дополнительные ресурсы: