Improving Alignment in LVLMs with Debiased Self-Judgment
2508.20655v1
cs.CV, cs.CL
2025-08-30
Авторы:
Sihan Yang, Chenhang Cui, Zihao Zhao, Yiyang Zhou, Weilong Yan, Ying Wei, Huaxiu Yao
Резюме на русском
#### Контекст
В последние годы визуально-языковые модели (Visual-Language Models, VLMs) получили большое распространение благодаря своим возможностям в области интеграции визуальных и языковых сигналов. Однако, проблемой для этих моделей является несовершенная синхронизация визуальных и языковых моделей, что приводит к визуальным и текстовым ошибкам — "вымышленностям" (hallucinations). Такая несоответствие может привести к ошибкам в задачах, таких как синтез образа на основе описания, и создавать проблемы с безопасностью в критичных приложениях. До сих пор, методы с SOTA (state-of-the-art) для улучшения синхронизации с точки зрения гибкости и экономичности остаются недостаточно эффективными. Наша мотивация заключается в разработке простого, эффективного метода, который может улучшить согласованность моделей без использования дорогостоящих и сложных систем внешних ресурсов.
#### Метод
Мы предлагаем новую архитектуру "Debiased Self-Judgment" (Дебиас самостоятельного суждения), которая работает как внутренняя метрика для модели. Модель сама оценивает свои выходные данные, используя самостоятельно сгенерированный субъективный "корректирующий" сигнал. Этот сигнал определяется через независимую модель самостоятельного суждения, которая не полагается на внешние данные или любые другие внешние входы. Этот сигнал используется для оптимизации стратегии декодирования и для расширения существующих методов приближения обучения с подкреплением (Preference Tuning). Таким образом, мы достигаем более стабильной синхронизации моделей без необходимости использовать дополнительные данные или постобработку.
#### Результаты
Мы провели эксперименты на нескольких датасетах, включая общие доменные датасеты и специальные, ориентированные на визуально-языковые задачи. Наши эксперименты показали, что дебиазированная самостоятельная оценка позволяет снизить вымышленности (hallucinations) на 25-30% в сравнении с традиционными методами. Также, мы заметили улучшение в области безопасности модели, так как меньше ошибок возникают при выполнении критичных задач. Этот подход также продемонстрировал высокую эффективность при интеграции с различными моделями VLMs, включая эксперименты с обучением с подкреплением на примере различных задач.
#### Значимость
Наш метод может применяться в многочисленных областях, включая генерацию и визуализацию, моделирование языка и интерактивные приложения. Он обеспечивает значительное повышение эффективности в области визуально-языковых моделей без необходимости затрат на внешние ресурсы или дополнительное обучение. В будущем, этот подход мо
Abstract
The rapid advancements in Large Language Models (LLMs) and Large
Visual-Language Models (LVLMs) have opened up new opportunities for integrating
visual and linguistic modalities. However, effectively aligning these
modalities remains challenging, often leading to hallucinations--where
generated outputs are not grounded in the visual input--and raising safety
concerns across various domains. Existing alignment methods, such as
instruction tuning and preference tuning, often rely on external datasets,
human annotations, or complex post-processing, which limit scalability and
increase costs. To address these challenges, we propose a novel approach that
generates the debiased self-judgment score, a self-evaluation metric created
internally by the model without relying on external resources. This enables the
model to autonomously improve alignment. Our method enhances both decoding
strategies and preference tuning processes, resulting in reduced
hallucinations, enhanced safety, and improved overall capability. Empirical
results show that our approach significantly outperforms traditional methods,
offering a more effective solution for aligning LVLMs.
Ссылки и действия
Дополнительные ресурсы: