BATR-FST: Bi-Level Adaptive Token Refinement for Few-Shot Transformers

2509.12768v1 cs.CV, cs.LG 2025-09-18

Авторы:

Mohammed Al-Habib, Zuping Zhang, Abdulrahman Noman

Резюме на русском

## Контекст Виджет Трансформеры (ViTs) стали одним из ключевых инструментов в области компьютерного зрения, предлагая высокую точность и гибкость в различных задачах. Однако, применение ViTs в сценариях небольшого обучения (few-shot learning) сталкивается с несколькими проблемами. В первую очередь, недостаток данных в учебных выборках ограничивает эффективность обучения моделей. Во вторую, преобразование токенов в ViTs часто ограничивается простыми мердами сходства или неэффективными методами учета глобального контекста. Несомненно, что эти проблемы требуют новых подходов для повышения эффективности ViTs в небольших обучающих выборках. ## Метод BATR-FST (Bi-Level Adaptive Token Refinement for Few-Shot Transformers) предлагает двухэтапный подход для улучшения токенов в ViTs. Основной модуль, используемый во второй стадии, включает токенное кластеризации для локализованного взаимодействия, уточнение весов токенов с учетом неопределенности, и би-уровневую аттенцию для балансировки взаимодействия между кластерами. Для обеспечения семантической согласованности в BATR-FST также используется графовое распространение токенов, позволяющее лучше сохранять контекст между поддержками и запросами. Модель также включает классовую разделяющую настройку, повышающую дискриминацию между классами. ## Результаты BATR-FST проверено на трёх наборах данных для небольших обучающих выборок (few-shot datasets): miniImageNet, CIFAR-FS и FC100. Обучение проводилось в сценариях 1-shot и 5-shot, то есть с одним и пятью обучающими примерами на класс. Результаты показали, что BATR-FST превосходит существующие методы в обеих ситуациях. Это достигается благодаря продвинутой рефинированию токенов и эффективному учету контекста. Благодаря использованию Graph Token Propagation и Class Separation Penalty, BATR-FST также показал сильную устойчивость к overfitting и высокую точность в распознавании классов. ## Значимость BATR-FST может применяться в широком спектре задач компьютерного зрения, включая классификацию изображений, обнаружение объектов и другие задачи, где данные недостаточно, и требуется эффективное использование ресурсов. Метод предлагает существенные преимущества по сравнению с другими подходами, включая усовершенствованную точность и устойчивость к недостатку данных. В будущем, BATR-FST может быть расширен для работы с более сложными сценариями, такими как динамические выборки классов или многозадачное обучение. ## Выводы BATR-FST достигает выдающихся результатов в области небольших обучающих выборок, становясь новым стандартом для ViTs в few-shot learning. Будущие исследования будут направлены на расши

Abstract

Vision Transformers (ViTs) have shown significant promise in computer vision applications. However, their performance in few-shot learning is limited by challenges in refining token-level interactions, struggling with limited training data, and developing a strong inductive bias. Existing methods often depend on inflexible token matching or basic similarity measures, which limit the effective incorporation of global context and localized feature refinement. To address these challenges, we propose Bi-Level Adaptive Token Refinement for Few-Shot Transformers (BATR-FST), a two-stage approach that progressively improves token representations and maintains a robust inductive bias for few-shot classification. During the pre-training phase, Masked Image Modeling (MIM) provides Vision Transformers (ViTs) with transferable patch-level representations by recreating masked image regions, providing a robust basis for subsequent adaptation. In the meta-fine-tuning phase, BATR-FST incorporates a Bi-Level Adaptive Token Refinement module that utilizes Token Clustering to capture localized interactions, Uncertainty-Aware Token Weighting to prioritize dependable features, and a Bi-Level Attention mechanism to balance intra-cluster and inter-cluster relationships, thereby facilitating thorough token refinement. Furthermore, Graph Token Propagation ensures semantic consistency between support and query instances, while a Class Separation Penalty preserves different class borders, enhancing discriminative capability. Extensive experiments on three benchmark few-shot datasets demonstrate that BATR-FST achieves superior results in both 1-shot and 5-shot scenarios and improves the few-shot classification via transformers.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

BATR-FST: Bi-Level Adaptive Token Refinement for Few-Shot Transformers

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Curvature-Regularized Variational Autoencoder for 3D Scene Reconstruction from S...

NICE: Neural Implicit Craniofacial Model for Orthognathic Surgery Prediction

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Навигация