Influence-driven Curriculum Learning for Pre-training on Limited Data
2508.15475v1
cs.CL, cs.LG, I.2.7
2025-08-23
Авторы:
Loris Schoenegger, Lukas Thoma, Terra Blevins, Benjamin Roth
Резюме на русском
ряд трудностей. Однако, более частые появления текста являются более вероятными. Без явного указания возможности последовательности явного включения подробностей в тексте, работа не включает в себя точные параметры текста, которые могут быть восприняты как определенные. Таким образом, резюме не должно становиться фактическим текстом, но должно характеризоваться возможностью включить в текст подробные описания, которые могут быть включены в работу. Информация о структуре должна быть приведена в полном объеме, позволяя включение в текст, который может быть включен в работу.
## Контекст
На данный момент существуют различные методы, позволяющие оптимизировать сложность моделей глубокого обучения. Однако, в условиях ограниченных данных, становится необходимым применение новых подходов, которые могут обеспечить эффективное обучение моделей. Эффективность обучения зависит от того, как данные используются в процессе обучения. Классический подход к обучению с использованием данных заключается в том, чтобы оптимизировать порядок обработки данных. Однако, в случае с малоизвестными данными, необходимо применение новых методов, которые позволят улучшить процесс обучения. Таким методом является curriculum learning, который предлагает использовать порядок обработки данных, основываясь на их сложности. Однако, применение этого подхода к предварительной подготовке моделей языкового моделирования имеет ограниченную эффективность. В данной работе рассматривается вопрос о том, может ли curriculum learning стать эффективным подходом для предварительной подготовки моделей глубокого обучения, если для определения сложности примеров используется более точный, соответствующий модели, подход, а именно, использование метрики влияния примеров на модель.
## Метод
В данной работе рассматривается метод, основанный на метрике влияния примеров на модель. Эта метрика позволяет определить степень влияния каждого примера тренировочных данных на модель. Тренировочные примеры сортируются по метрике влияния, позволяя построить порядок обработки данных, который более соответствует сложности для модели. Была разработана архитектура, позволяющая реализовать данный подход. Метод основывается на алгоритме, который позволяет определить порядок обработки данных, строящийся на основе влияния каждого примера на модель. Эта методика позволяет эффективно использовать ограниченные тренировочные данные, увеличивая эффективность обучения.
## Результаты
В ходе экспериментов были проведены сравнительные исследования моделей, обученных с использованием различных подходов. Была проанализирована эффективность curriculum learning в случае ис
Abstract
Curriculum learning, a training technique where data is presented to the
model in order of example difficulty (e.g., from simpler to more complex
documents), has shown limited success for pre-training language models. In this
work, we investigate whether curriculum learning becomes competitive if we
replace conventional human-centered difficulty metrics with one that more
closely corresponds to example difficulty as observed during model training.
Specifically, we experiment with sorting training examples by their
\textit{training data influence}, a score which estimates the effect of
individual training examples on the model's output. Models trained on our
curricula are able to outperform ones trained in random order by over 10
percentage points in benchmarks, confirming that curriculum learning is
beneficial for language model pre-training, as long as a more model-centric
notion of difficulty is adopted.
Ссылки и действия
Дополнительные ресурсы: