Efficient Long-Tail Learning in Latent Space by sampling Synthetic Data

2509.15859v1 cs.LG, cs.CV 2025-09-23
Авторы:

Nakul Sharma

Резюме на русском

#### Контекст Имбалансированные наборы данных представляют основные вызовы в области машинного обучения, так как модели, обученные на таких данных, часто оказываются безравничными в отношении классов, которые менее представлены в выборке. Такая ситуация может привести к предсказаниям с большим показателем ошибок для незначительных классов. Несмотря на то, что базовые модели, такие как Vision Foundation Models (VFM), показывают впечатляющие результаты в области классификации, они не всегда эффективны при работе с имбалансированными данными. Для преодоления этих проблем появились подходы, такие как полное, частичное и параметрное эффективное адаптирование моделей. Однако эти подходы требуют значительных вычислительных ресурсов и часто не достигают уровня производительности, достигаемого моделями, обученными на балансированных наборах данных. Этот факт подтверждает необходимость разработки более простых и эффективных подходов к обучению с частыми классами. #### Метод Мы предлагаем новый подход к обучению с использованием моделей Vision Foundation Models, который основывается на генерации синтетических данных из богатого семантического пространства. Метод заключается в том, чтобы использовать вспомогательный классификатор на основе линейной модели, обученный на смеси реальных и синтетических данных. Эта модель позволяет работать с минимальным числом параметров, что обеспечивает высокую эффективность обучения и моделирования. Мы используем VFM для вывода синтетических данных, что позволяет увеличить разнообразие данных и уменьшить эффект имбаланса. Эта методология разработана с учетом требований простоты, эффективности и эффективности ресурсов. #### Результаты Мы провели эксперименты на двух основных бенчмарках для частых классов: CIFAR-100-LT и Places-LT. Модель, разработанная в рамках настоящей работы, показала впечатляющие результаты, превосходя существующие подходы в сравнении с основными метриками. Мы проанализировали качество классификации на подмножествах классов, и оказалось, что наш подход не только повышает производительность, но и поддерживает высокую скорость обучения. Благодаря низкому числу параметров и простой архитектуре, наш метод эффективно работает в режиме реального времени и предлагает новый состояние технологического прогресса в области обучения с имбалансами. #### Значимость Метод, предложенный в этой работе, имеет многочисленные приложения в области машинного обучения, особенно при работе с большими наборами данных, где классы имеют высокую имбалансированность. Он может применяться в сферах, таких как робототехника, здравоохранение, т

Abstract

Imbalanced classification datasets pose significant challenges in machine learning, often leading to biased models that perform poorly on underrepresented classes. With the rise of foundation models, recent research has focused on the full, partial, and parameter-efficient fine-tuning of these models to deal with long-tail classification. Despite the impressive performance of these works on the benchmark datasets, they still fail to close the gap with the networks trained using the balanced datasets and still require substantial computational resources, even for relatively smaller datasets. Underscoring the importance of computational efficiency and simplicity, in this work we propose a novel framework that leverages the rich semantic latent space of Vision Foundation Models to generate synthetic data and train a simple linear classifier using a mixture of real and synthetic data for long-tail classification. The computational efficiency gain arises from the number of trainable parameters that are reduced to just the number of parameters in the linear model. Our method sets a new state-of-the-art for the CIFAR-100-LT benchmark and demonstrates strong performance on the Places-LT benchmark, highlighting the effectiveness and adaptability of our simple and effective approach.

Ссылки и действия