Self-Supervised Pre-Training with Equilibrium Constraints

2508.19990v1 cs.LG, cs.CL 2025-08-29
Авторы:

Xiaodong Cui, A F M Saif, Brian Kingsbury, Tianyi Chen

Резюме на русском

## Контекст Самостоятельное самостоятельное предварительное обучение (self-supervised pre-training) широко используется в машинном обучении для извлечения представлений из необъединенных данных. Однако существующие подходы, основывающиеся на объединении всех данных и минимизации общей потери, часто неэффективны, когда данные являются гетерогенными или имеют разные характеристики. В этом контексте возникает необходимость разработки более точных и эффективных методов, которые могут адаптироваться к разным типам данных и повысить качество представлений для последующего супервизованного обучения. ## Метод Мы предлагаем новую модель self-supervised pre-training, основанную на объединении биливел-оптимизации и локальных оптимумов для каждого источника данных. В этом подходе, вместо минимизации общей потери, мы используем дополнительные ограничения равновесия, чтобы убедиться, что модель достигает локальных оптимумов для каждого источника данных после $K$-шагового градиентного спуска. Это модель формулируется как биливел-оптимизация, и мы используем метод первого приближения для его решения. Наш подход имеет сильные связи с моделью-агностическим мета-обучением (MAML), но имеет уникальные особенности, присущие самостоятельному предварительному обучению. ## Результаты Мы провели эксперименты с помощью многодоменных и многоязыковых данных, чтобы оценить эффективность нового подхода. Результаты показали, что наш метод значительно повышает адаптивность предварительно обученной модели к задачам супервизованного оптимизации. Такие высокие результаты достигаются благодаря более точному учету локальных особенностей каждого источника данных, что позволяет повысить качество представлений и улучшить результаты на задачах последующего супервизованного обучения. ## Значимость Наш подход может быть применен в различных областях машинного обучения, включая трансформативные исследования в области многоязыковой моделирования, мультидоменного обучения и других. Он демонстрирует высокую эффективность при работе с гетерогенными данными, что может существенно улучшить результаты в супервизованных задачах. Это делает наш подход ключевым инструментом для развития самостоятельного предварительного обучения и его применения в реальных ситуациях. ## Выводы Мы предложили новый подход к self-supervised pre-training, который использует ограничения равновесия для достижения локальных оптимумов для каждого источника данных. Эксперименты показали высокую эффективность этого подхода в улучшении адаптивности моделей к задачам супервизованного обучения. Будущие исследования будут нацелены на расширение этого подхода для работы с другими типами данных

Abstract

Self-supervised pre-training using unlabeled data is widely used in machine learning. In this paper, we propose a new self-supervised pre-training approach to dealing with heterogeneous data. Instead of mixing all the data and minimizing the averaged global loss in the conventional way, we impose additional equilibrium constraints to ensure that the models optimizes each source of heterogeneous data to its local optima after $K$-step gradient descent initialized from the model. We formulate this as a bilevel optimization problem, and use the first-order approximation method to solve the problem. We discuss its connection to model-agnostic meta learning (MAML). Experiments are carried out on self-supervised pre-training using multi-domain and multilingual datasets, demonstrating that the proposed approach can significantly improve the adaptivity of the self-supervised pre-trained model for the downstream supervised fine-tuning tasks.

Ссылки и действия