Alternating Training-based Label Smoothing Enhances Prompt Generalization
2508.17846v1
cs.CV, cs.LG
2025-08-27
Авторы:
Yang Chen, Yanbin Wei, Ke Jin, Yi Kong, James Kwok, Yu Zhang
Резюме на русском
## Контекст
Недавние достижения в области предобученных визуально-языковых моделей показали выдающиеся возможности нулевого-значения общей генерализации. Однако, для расширения их пригодности к различным задачам, в последнее время появилась мода на предложенный тип тюнинга, который требует меньшего количества параметров. Тем не менее, генерализационная способность этого метода остается ограниченной. Метод латеральной сглаживания (Label Smoothing, LS), широко признанный как мощный способ регуляризации, уменьшает переобучение и улучшает общую способность моделей. Исследователи задались вопросом о потенциальной интеграции LS с тюнингом подсказкой (prompt tuning). Однако, ванильная LS не только не улучшает, но и ухудшает эту способность. Для решения этой проблемы предлагается новый подход — Alternating Training-based Label Smoothing (ATLaS).
## Метод
ATLaS основывается на альтернативном тренировочном процессе, в котором модель последовательно обучается с использованием стандартных одноготных меток и мягких меток, сгенерированных LS. Этот подход предназначен для того, чтобы сочетать преимущества обеих методик — точности одноготных меток и регуляризационных свойств LS. Более того, предложенный метод использует два типа эффективных мягких меток: Class-wise Soft Labels (CSL) и Instance-wise Soft Labels (ISL). CSL предоставляют связь между классами, что повышает классификационную способность, в то время как ISL подчеркивают отношения между отдельными экземплярами внутри класса, улучшая общую точность модели.
## Результаты
Эксперименты проведены на различных данных и задачах, включая визуально-языковые модели и общие тестовые наборы. Результаты показали, что ATLaS, в сочетании с CSL и ISL, постоянно улучшает генерализацию модели на тюнинге подсказок. Эти результаты стабильны и заметны в сравнении с базовым тюнингом подсказок. Также была проверена совместимость ATLaS с другими популярными тюнинговыми методами, что демонстрирует его широкую применимость.
## Значимость
Предложенный подход может быть применен в различных высокотехнологичных областях, таких как обработка текстов, визуальный анализ, доступность для слабовидящих и другие. Он предоставляет выигрыш в точности и устойчивости, при этом не требуя значительных изменений в существующих моделях. Таким образом, ATLaS повышает потенциал тюнинга подсказок, улучшая его эффективность и генерализационную способность.
## Выводы
Результаты исследований подтверждают эффективность ATLaS в улучшении генерализации моделей с помощью тюнинга подсказок. Авторы планируют дальнейшие исследования в области усовершенствования
Abstract
Recent advances in pre-trained vision-language models have demonstrated
remarkable zero-shot generalization capabilities. To further enhance these
models' adaptability to various downstream tasks, prompt tuning has emerged as
a parameter-efficient fine-tuning method. However, despite its efficiency, the
generalization ability of prompt remains limited. In contrast, label smoothing
(LS) has been widely recognized as an effective regularization technique that
prevents models from becoming over-confident and improves their generalization.
This inspires us to explore the integration of LS with prompt tuning. However,
we have observed that the vanilla LS even weakens the generalization ability of
prompt tuning. To address this issue, we propose the Alternating Training-based
Label Smoothing (ATLaS) method, which alternately trains with standard one-hot
labels and soft labels generated by LS to supervise the prompt tuning.
Moreover, we introduce two types of efficient offline soft labels, including
Class-wise Soft Labels (CSL) and Instance-wise Soft Labels (ISL), to provide
inter-class or instance-class relationships for prompt tuning. The theoretical
properties of the proposed ATLaS method are analyzed. Extensive experiments
demonstrate that the proposed ATLaS method, combined with CSL and ISL,
consistently enhances the generalization performance of prompt tuning.
Moreover, the proposed ATLaS method exhibits high compatibility with prevalent
prompt tuning methods, enabling seamless integration into existing methods.
Ссылки и действия
Дополнительные ресурсы: