Efficient Long-Tail Learning in Latent Space by sampling Synthetic Data
2509.15859v1
cs.LG, cs.CV
2025-09-23
Авторы:
Nakul Sharma
Резюме на русском
#### Контекст
Имбалансированные наборы данных представляют основные вызовы в области машинного обучения, так как модели, обученные на таких данных, часто оказываются безравничными в отношении классов, которые менее представлены в выборке. Такая ситуация может привести к предсказаниям с большим показателем ошибок для незначительных классов. Несмотря на то, что базовые модели, такие как Vision Foundation Models (VFM), показывают впечатляющие результаты в области классификации, они не всегда эффективны при работе с имбалансированными данными. Для преодоления этих проблем появились подходы, такие как полное, частичное и параметрное эффективное адаптирование моделей. Однако эти подходы требуют значительных вычислительных ресурсов и часто не достигают уровня производительности, достигаемого моделями, обученными на балансированных наборах данных. Этот факт подтверждает необходимость разработки более простых и эффективных подходов к обучению с частыми классами.
#### Метод
Мы предлагаем новый подход к обучению с использованием моделей Vision Foundation Models, который основывается на генерации синтетических данных из богатого семантического пространства. Метод заключается в том, чтобы использовать вспомогательный классификатор на основе линейной модели, обученный на смеси реальных и синтетических данных. Эта модель позволяет работать с минимальным числом параметров, что обеспечивает высокую эффективность обучения и моделирования. Мы используем VFM для вывода синтетических данных, что позволяет увеличить разнообразие данных и уменьшить эффект имбаланса. Эта методология разработана с учетом требований простоты, эффективности и эффективности ресурсов.
#### Результаты
Мы провели эксперименты на двух основных бенчмарках для частых классов: CIFAR-100-LT и Places-LT. Модель, разработанная в рамках настоящей работы, показала впечатляющие результаты, превосходя существующие подходы в сравнении с основными метриками. Мы проанализировали качество классификации на подмножествах классов, и оказалось, что наш подход не только повышает производительность, но и поддерживает высокую скорость обучения. Благодаря низкому числу параметров и простой архитектуре, наш метод эффективно работает в режиме реального времени и предлагает новый состояние технологического прогресса в области обучения с имбалансами.
#### Значимость
Метод, предложенный в этой работе, имеет многочисленные приложения в области машинного обучения, особенно при работе с большими наборами данных, где классы имеют высокую имбалансированность. Он может применяться в сферах, таких как робототехника, здравоохранение, т
Abstract
Imbalanced classification datasets pose significant challenges in machine
learning, often leading to biased models that perform poorly on
underrepresented classes. With the rise of foundation models, recent research
has focused on the full, partial, and parameter-efficient fine-tuning of these
models to deal with long-tail classification. Despite the impressive
performance of these works on the benchmark datasets, they still fail to close
the gap with the networks trained using the balanced datasets and still require
substantial computational resources, even for relatively smaller datasets.
Underscoring the importance of computational efficiency and simplicity, in this
work we propose a novel framework that leverages the rich semantic latent space
of Vision Foundation Models to generate synthetic data and train a simple
linear classifier using a mixture of real and synthetic data for long-tail
classification. The computational efficiency gain arises from the number of
trainable parameters that are reduced to just the number of parameters in the
linear model. Our method sets a new state-of-the-art for the CIFAR-100-LT
benchmark and demonstrates strong performance on the Places-LT benchmark,
highlighting the effectiveness and adaptability of our simple and effective
approach.
Ссылки и действия
Дополнительные ресурсы: