BATR-FST: Bi-Level Adaptive Token Refinement for Few-Shot Transformers
2509.12768v1
cs.CV, cs.LG
2025-09-18
Авторы:
Mohammed Al-Habib, Zuping Zhang, Abdulrahman Noman
Резюме на русском
## Контекст
Виджет Трансформеры (ViTs) стали одним из ключевых инструментов в области компьютерного зрения, предлагая высокую точность и гибкость в различных задачах. Однако, применение ViTs в сценариях небольшого обучения (few-shot learning) сталкивается с несколькими проблемами. В первую очередь, недостаток данных в учебных выборках ограничивает эффективность обучения моделей. Во вторую, преобразование токенов в ViTs часто ограничивается простыми мердами сходства или неэффективными методами учета глобального контекста. Несомненно, что эти проблемы требуют новых подходов для повышения эффективности ViTs в небольших обучающих выборках.
## Метод
BATR-FST (Bi-Level Adaptive Token Refinement for Few-Shot Transformers) предлагает двухэтапный подход для улучшения токенов в ViTs. Основной модуль, используемый во второй стадии, включает токенное кластеризации для локализованного взаимодействия, уточнение весов токенов с учетом неопределенности, и би-уровневую аттенцию для балансировки взаимодействия между кластерами. Для обеспечения семантической согласованности в BATR-FST также используется графовое распространение токенов, позволяющее лучше сохранять контекст между поддержками и запросами. Модель также включает классовую разделяющую настройку, повышающую дискриминацию между классами.
## Результаты
BATR-FST проверено на трёх наборах данных для небольших обучающих выборок (few-shot datasets): miniImageNet, CIFAR-FS и FC100. Обучение проводилось в сценариях 1-shot и 5-shot, то есть с одним и пятью обучающими примерами на класс. Результаты показали, что BATR-FST превосходит существующие методы в обеих ситуациях. Это достигается благодаря продвинутой рефинированию токенов и эффективному учету контекста. Благодаря использованию Graph Token Propagation и Class Separation Penalty, BATR-FST также показал сильную устойчивость к overfitting и высокую точность в распознавании классов.
## Значимость
BATR-FST может применяться в широком спектре задач компьютерного зрения, включая классификацию изображений, обнаружение объектов и другие задачи, где данные недостаточно, и требуется эффективное использование ресурсов. Метод предлагает существенные преимущества по сравнению с другими подходами, включая усовершенствованную точность и устойчивость к недостатку данных. В будущем, BATR-FST может быть расширен для работы с более сложными сценариями, такими как динамические выборки классов или многозадачное обучение.
## Выводы
BATR-FST достигает выдающихся результатов в области небольших обучающих выборок, становясь новым стандартом для ViTs в few-shot learning. Будущие исследования будут направлены на расши
Abstract
Vision Transformers (ViTs) have shown significant promise in computer vision
applications. However, their performance in few-shot learning is limited by
challenges in refining token-level interactions, struggling with limited
training data, and developing a strong inductive bias. Existing methods often
depend on inflexible token matching or basic similarity measures, which limit
the effective incorporation of global context and localized feature refinement.
To address these challenges, we propose Bi-Level Adaptive Token Refinement for
Few-Shot Transformers (BATR-FST), a two-stage approach that progressively
improves token representations and maintains a robust inductive bias for
few-shot classification. During the pre-training phase, Masked Image Modeling
(MIM) provides Vision Transformers (ViTs) with transferable patch-level
representations by recreating masked image regions, providing a robust basis
for subsequent adaptation. In the meta-fine-tuning phase, BATR-FST incorporates
a Bi-Level Adaptive Token Refinement module that utilizes Token Clustering to
capture localized interactions, Uncertainty-Aware Token Weighting to prioritize
dependable features, and a Bi-Level Attention mechanism to balance
intra-cluster and inter-cluster relationships, thereby facilitating thorough
token refinement. Furthermore, Graph Token Propagation ensures semantic
consistency between support and query instances, while a Class Separation
Penalty preserves different class borders, enhancing discriminative capability.
Extensive experiments on three benchmark few-shot datasets demonstrate that
BATR-FST achieves superior results in both 1-shot and 5-shot scenarios and
improves the few-shot classification via transformers.
Ссылки и действия
Дополнительные ресурсы: