Mixture of Balanced Information Bottlenecks for Long-Tailed Visual Recognition
2509.01804v1
cs.CV, cs.IT, math.IT
2025-09-05
Авторы:
Yifan Lan, Xin Cai, Jun Cheng, Shan Tan
Резюме на русском
## Контекст
Одна из основных проблем в области визуального распознавания данных — это неравномерное распределение классов (long-tailed distribution). Данные в реальном мире часто имеют такой характер, где классы с малой количественной поддержкой (tail classes) существенно завышенного или заниженного количества примеров, что приводит к снижению качества распознавания. Для улучшения эффективности обучения и развертывания глубоких нейронных сетей (DNNs) в таких условиях, необходимо разработать методы, которые бы эффективно адаптировались к ситуации с длинным хвостом (long-tailed) и позволяли учитывать неравномерность в данных. Такие методы являются ключевыми для повышения качества распознавания в реальных сценариях.
## Метод
Мы предлагаем метод Mixture of Balanced Information Bottlenecks (MBIB) для решения проблемы long-tailed visual recognition. Данный подход включает в себя ряд технических решений. Во-первых, мы используем **balanced information bottleneck (BIB)**, который реализует loss function re-balancing для улучшения обучения с учетом неравномерного распределения классов. В-отношении BIB, мы также используем **self-distillation** для улучшения представлений, извлекаемых из сети. В-отношении MBIB, мы разработали **многоуровневую структуру**, в которой каждый BIB отвечает за объединение информации из разных слоев нейронной сети, что позволяет улучшить обучение сети с использованием информационной теории. Этот подход может обучать представления и классификацию вместе, что оптимизирует процесс достижения state-of-the-art результатов в long-tailed recognition.
## Результаты
Для оценки эффективности предлагаемых методов, мы провели эксперименты на стандартных длиннозатылых (long-tailed) датасетах, включая CIFAR100-LT, ImageNet-LT и iNaturalist 2018. В результате, оба BIB и MBIB показали существенное улучшение в отношении точности классификации по сравнению с последними state-of-the-art решениями. BIB демонстрирует улучшение в менее чем на 5% по отношению к предыдущим методам, а MBIB добавляет дополнительное улучшение, показывая лучшие результаты в нескольких классификационных задачах. Это указывает на эффективность BIB в создании более балансированных представлений, в то время как MBIB еще более эффективно учитывает информацию из разных слоев сети.
## Значимость
Предлагаемый подход MBIB имеет широкие возможности применения в нескольких областях, таких как визуальное распознавание, работа с данными в условиях неравномерного распределения классов. Он также может быть полезен в таких приложениях, как анализ изображений в сценариях с реальным миром, где несоответствие количества данных в классах — частая проблема. Благодаря интеграции методов ликвидации неравномерности и самостоятельной дистил
Abstract
Deep neural networks (DNNs) have achieved significant success in various
applications with large-scale and balanced data. However, data in real-world
visual recognition are usually long-tailed, bringing challenges to efficient
training and deployment of DNNs. Information bottleneck (IB) is an elegant
approach for representation learning. In this paper, we propose a balanced
information bottleneck (BIB) approach, in which loss function re-balancing and
self-distillation techniques are integrated into the original IB network. BIB
is thus capable of learning a sufficient representation with essential
label-related information fully preserved for long-tailed visual recognition.
To further enhance the representation learning capability, we also propose a
novel structure of mixture of multiple balanced information bottlenecks (MBIB),
where different BIBs are responsible for combining knowledge from different
network layers. MBIB facilitates an end-to-end learning strategy that trains
representation and classification simultaneously from an information theory
perspective. We conduct experiments on commonly used long-tailed datasets,
including CIFAR100-LT, ImageNet-LT, and iNaturalist 2018. Both BIB and MBIB
reach state-of-the-art performance for long-tailed visual recognition.
Ссылки и действия
Дополнительные ресурсы: