Influence-driven Curriculum Learning for Pre-training on Limited Data

2508.15475v1 cs.CL, cs.LG, I.2.7 2025-08-23

Авторы:

Loris Schoenegger, Lukas Thoma, Terra Blevins, Benjamin Roth

Резюме на русском

ряд трудностей. Однако, более частые появления текста являются более вероятными. Без явного указания возможности последовательности явного включения подробностей в тексте, работа не включает в себя точные параметры текста, которые могут быть восприняты как определенные. Таким образом, резюме не должно становиться фактическим текстом, но должно характеризоваться возможностью включить в текст подробные описания, которые могут быть включены в работу. Информация о структуре должна быть приведена в полном объеме, позволяя включение в текст, который может быть включен в работу. ## Контекст На данный момент существуют различные методы, позволяющие оптимизировать сложность моделей глубокого обучения. Однако, в условиях ограниченных данных, становится необходимым применение новых подходов, которые могут обеспечить эффективное обучение моделей. Эффективность обучения зависит от того, как данные используются в процессе обучения. Классический подход к обучению с использованием данных заключается в том, чтобы оптимизировать порядок обработки данных. Однако, в случае с малоизвестными данными, необходимо применение новых методов, которые позволят улучшить процесс обучения. Таким методом является curriculum learning, который предлагает использовать порядок обработки данных, основываясь на их сложности. Однако, применение этого подхода к предварительной подготовке моделей языкового моделирования имеет ограниченную эффективность. В данной работе рассматривается вопрос о том, может ли curriculum learning стать эффективным подходом для предварительной подготовки моделей глубокого обучения, если для определения сложности примеров используется более точный, соответствующий модели, подход, а именно, использование метрики влияния примеров на модель. ## Метод В данной работе рассматривается метод, основанный на метрике влияния примеров на модель. Эта метрика позволяет определить степень влияния каждого примера тренировочных данных на модель. Тренировочные примеры сортируются по метрике влияния, позволяя построить порядок обработки данных, который более соответствует сложности для модели. Была разработана архитектура, позволяющая реализовать данный подход. Метод основывается на алгоритме, который позволяет определить порядок обработки данных, строящийся на основе влияния каждого примера на модель. Эта методика позволяет эффективно использовать ограниченные тренировочные данные, увеличивая эффективность обучения. ## Результаты В ходе экспериментов были проведены сравнительные исследования моделей, обученных с использованием различных подходов. Была проанализирована эффективность curriculum learning в случае ис

Abstract

Curriculum learning, a training technique where data is presented to the model in order of example difficulty (e.g., from simpler to more complex documents), has shown limited success for pre-training language models. In this work, we investigate whether curriculum learning becomes competitive if we replace conventional human-centered difficulty metrics with one that more closely corresponds to example difficulty as observed during model training. Specifically, we experiment with sorting training examples by their \textit{training data influence}, a score which estimates the effect of individual training examples on the model's output. Models trained on our curricula are able to outperform ones trained in random order by over 10 percentage points in benchmarks, confirming that curriculum learning is beneficial for language model pre-training, as long as a more model-centric notion of difficulty is adopted.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Influence-driven Curriculum Learning for Pre-training on Limited Data

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

From Facts to Folklore: Evaluating Large Language Models on Bengali Cultural Kno...

Constraint-Driven Small Language Models Based on Agent and OpenAlex Knowledge Gr...

Навигация