Alternating Training-based Label Smoothing Enhances Prompt Generalization

2508.17846v1 cs.CV, cs.LG 2025-08-27

Авторы:

Yang Chen, Yanbin Wei, Ke Jin, Yi Kong, James Kwok, Yu Zhang

Резюме на русском

## Контекст Недавние достижения в области предобученных визуально-языковых моделей показали выдающиеся возможности нулевого-значения общей генерализации. Однако, для расширения их пригодности к различным задачам, в последнее время появилась мода на предложенный тип тюнинга, который требует меньшего количества параметров. Тем не менее, генерализационная способность этого метода остается ограниченной. Метод латеральной сглаживания (Label Smoothing, LS), широко признанный как мощный способ регуляризации, уменьшает переобучение и улучшает общую способность моделей. Исследователи задались вопросом о потенциальной интеграции LS с тюнингом подсказкой (prompt tuning). Однако, ванильная LS не только не улучшает, но и ухудшает эту способность. Для решения этой проблемы предлагается новый подход — Alternating Training-based Label Smoothing (ATLaS). ## Метод ATLaS основывается на альтернативном тренировочном процессе, в котором модель последовательно обучается с использованием стандартных одноготных меток и мягких меток, сгенерированных LS. Этот подход предназначен для того, чтобы сочетать преимущества обеих методик — точности одноготных меток и регуляризационных свойств LS. Более того, предложенный метод использует два типа эффективных мягких меток: Class-wise Soft Labels (CSL) и Instance-wise Soft Labels (ISL). CSL предоставляют связь между классами, что повышает классификационную способность, в то время как ISL подчеркивают отношения между отдельными экземплярами внутри класса, улучшая общую точность модели. ## Результаты Эксперименты проведены на различных данных и задачах, включая визуально-языковые модели и общие тестовые наборы. Результаты показали, что ATLaS, в сочетании с CSL и ISL, постоянно улучшает генерализацию модели на тюнинге подсказок. Эти результаты стабильны и заметны в сравнении с базовым тюнингом подсказок. Также была проверена совместимость ATLaS с другими популярными тюнинговыми методами, что демонстрирует его широкую применимость. ## Значимость Предложенный подход может быть применен в различных высокотехнологичных областях, таких как обработка текстов, визуальный анализ, доступность для слабовидящих и другие. Он предоставляет выигрыш в точности и устойчивости, при этом не требуя значительных изменений в существующих моделях. Таким образом, ATLaS повышает потенциал тюнинга подсказок, улучшая его эффективность и генерализационную способность. ## Выводы Результаты исследований подтверждают эффективность ATLaS в улучшении генерализации моделей с помощью тюнинга подсказок. Авторы планируют дальнейшие исследования в области усовершенствования

Abstract

Recent advances in pre-trained vision-language models have demonstrated remarkable zero-shot generalization capabilities. To further enhance these models' adaptability to various downstream tasks, prompt tuning has emerged as a parameter-efficient fine-tuning method. However, despite its efficiency, the generalization ability of prompt remains limited. In contrast, label smoothing (LS) has been widely recognized as an effective regularization technique that prevents models from becoming over-confident and improves their generalization. This inspires us to explore the integration of LS with prompt tuning. However, we have observed that the vanilla LS even weakens the generalization ability of prompt tuning. To address this issue, we propose the Alternating Training-based Label Smoothing (ATLaS) method, which alternately trains with standard one-hot labels and soft labels generated by LS to supervise the prompt tuning. Moreover, we introduce two types of efficient offline soft labels, including Class-wise Soft Labels (CSL) and Instance-wise Soft Labels (ISL), to provide inter-class or instance-class relationships for prompt tuning. The theoretical properties of the proposed ATLaS method are analyzed. Extensive experiments demonstrate that the proposed ATLaS method, combined with CSL and ISL, consistently enhances the generalization performance of prompt tuning. Moreover, the proposed ATLaS method exhibits high compatibility with prevalent prompt tuning methods, enabling seamless integration into existing methods.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Alternating Training-based Label Smoothing Enhances Prompt Generalization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias...

HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Tex...

Навигация