Mixture of Balanced Information Bottlenecks for Long-Tailed Visual Recognition

2509.01804v1 cs.CV, cs.IT, math.IT 2025-09-05
Авторы:

Yifan Lan, Xin Cai, Jun Cheng, Shan Tan

Резюме на русском

## Контекст Одна из основных проблем в области визуального распознавания данных — это неравномерное распределение классов (long-tailed distribution). Данные в реальном мире часто имеют такой характер, где классы с малой количественной поддержкой (tail classes) существенно завышенного или заниженного количества примеров, что приводит к снижению качества распознавания. Для улучшения эффективности обучения и развертывания глубоких нейронных сетей (DNNs) в таких условиях, необходимо разработать методы, которые бы эффективно адаптировались к ситуации с длинным хвостом (long-tailed) и позволяли учитывать неравномерность в данных. Такие методы являются ключевыми для повышения качества распознавания в реальных сценариях. ## Метод Мы предлагаем метод Mixture of Balanced Information Bottlenecks (MBIB) для решения проблемы long-tailed visual recognition. Данный подход включает в себя ряд технических решений. Во-первых, мы используем **balanced information bottleneck (BIB)**, который реализует loss function re-balancing для улучшения обучения с учетом неравномерного распределения классов. В-отношении BIB, мы также используем **self-distillation** для улучшения представлений, извлекаемых из сети. В-отношении MBIB, мы разработали **многоуровневую структуру**, в которой каждый BIB отвечает за объединение информации из разных слоев нейронной сети, что позволяет улучшить обучение сети с использованием информационной теории. Этот подход может обучать представления и классификацию вместе, что оптимизирует процесс достижения state-of-the-art результатов в long-tailed recognition. ## Результаты Для оценки эффективности предлагаемых методов, мы провели эксперименты на стандартных длиннозатылых (long-tailed) датасетах, включая CIFAR100-LT, ImageNet-LT и iNaturalist 2018. В результате, оба BIB и MBIB показали существенное улучшение в отношении точности классификации по сравнению с последними state-of-the-art решениями. BIB демонстрирует улучшение в менее чем на 5% по отношению к предыдущим методам, а MBIB добавляет дополнительное улучшение, показывая лучшие результаты в нескольких классификационных задачах. Это указывает на эффективность BIB в создании более балансированных представлений, в то время как MBIB еще более эффективно учитывает информацию из разных слоев сети. ## Значимость Предлагаемый подход MBIB имеет широкие возможности применения в нескольких областях, таких как визуальное распознавание, работа с данными в условиях неравномерного распределения классов. Он также может быть полезен в таких приложениях, как анализ изображений в сценариях с реальным миром, где несоответствие количества данных в классах — частая проблема. Благодаря интеграции методов ликвидации неравномерности и самостоятельной дистил

Abstract

Deep neural networks (DNNs) have achieved significant success in various applications with large-scale and balanced data. However, data in real-world visual recognition are usually long-tailed, bringing challenges to efficient training and deployment of DNNs. Information bottleneck (IB) is an elegant approach for representation learning. In this paper, we propose a balanced information bottleneck (BIB) approach, in which loss function re-balancing and self-distillation techniques are integrated into the original IB network. BIB is thus capable of learning a sufficient representation with essential label-related information fully preserved for long-tailed visual recognition. To further enhance the representation learning capability, we also propose a novel structure of mixture of multiple balanced information bottlenecks (MBIB), where different BIBs are responsible for combining knowledge from different network layers. MBIB facilitates an end-to-end learning strategy that trains representation and classification simultaneously from an information theory perspective. We conduct experiments on commonly used long-tailed datasets, including CIFAR100-LT, ImageNet-LT, and iNaturalist 2018. Both BIB and MBIB reach state-of-the-art performance for long-tailed visual recognition.

Ссылки и действия

Связанные статьи

Compression Beyond Pixels: Semantic Compression with Multimodal Foundation Model...

## Контекст В modern deep learning-based image compression methods achieve сompetitive rate-distortion performance thro...

2025-09-10

A Novel Image Similarity Metric for Scene Composition Structure

**Резюме** В последнее время развитие генерирующих моделей искусственного интеллекта (GenAI) стало важным вызывать новы...

2025-08-09