Improving Alignment in LVLMs with Debiased Self-Judgment

2508.20655v1 cs.CV, cs.CL 2025-08-30
Авторы:

Sihan Yang, Chenhang Cui, Zihao Zhao, Yiyang Zhou, Weilong Yan, Ying Wei, Huaxiu Yao

Резюме на русском

#### Контекст В последние годы визуально-языковые модели (Visual-Language Models, VLMs) получили большое распространение благодаря своим возможностям в области интеграции визуальных и языковых сигналов. Однако, проблемой для этих моделей является несовершенная синхронизация визуальных и языковых моделей, что приводит к визуальным и текстовым ошибкам — "вымышленностям" (hallucinations). Такая несоответствие может привести к ошибкам в задачах, таких как синтез образа на основе описания, и создавать проблемы с безопасностью в критичных приложениях. До сих пор, методы с SOTA (state-of-the-art) для улучшения синхронизации с точки зрения гибкости и экономичности остаются недостаточно эффективными. Наша мотивация заключается в разработке простого, эффективного метода, который может улучшить согласованность моделей без использования дорогостоящих и сложных систем внешних ресурсов. #### Метод Мы предлагаем новую архитектуру "Debiased Self-Judgment" (Дебиас самостоятельного суждения), которая работает как внутренняя метрика для модели. Модель сама оценивает свои выходные данные, используя самостоятельно сгенерированный субъективный "корректирующий" сигнал. Этот сигнал определяется через независимую модель самостоятельного суждения, которая не полагается на внешние данные или любые другие внешние входы. Этот сигнал используется для оптимизации стратегии декодирования и для расширения существующих методов приближения обучения с подкреплением (Preference Tuning). Таким образом, мы достигаем более стабильной синхронизации моделей без необходимости использовать дополнительные данные или постобработку. #### Результаты Мы провели эксперименты на нескольких датасетах, включая общие доменные датасеты и специальные, ориентированные на визуально-языковые задачи. Наши эксперименты показали, что дебиазированная самостоятельная оценка позволяет снизить вымышленности (hallucinations) на 25-30% в сравнении с традиционными методами. Также, мы заметили улучшение в области безопасности модели, так как меньше ошибок возникают при выполнении критичных задач. Этот подход также продемонстрировал высокую эффективность при интеграции с различными моделями VLMs, включая эксперименты с обучением с подкреплением на примере различных задач. #### Значимость Наш метод может применяться в многочисленных областях, включая генерацию и визуализацию, моделирование языка и интерактивные приложения. Он обеспечивает значительное повышение эффективности в области визуально-языковых моделей без необходимости затрат на внешние ресурсы или дополнительное обучение. В будущем, этот подход мо

Abstract

The rapid advancements in Large Language Models (LLMs) and Large Visual-Language Models (LVLMs) have opened up new opportunities for integrating visual and linguistic modalities. However, effectively aligning these modalities remains challenging, often leading to hallucinations--where generated outputs are not grounded in the visual input--and raising safety concerns across various domains. Existing alignment methods, such as instruction tuning and preference tuning, often rely on external datasets, human annotations, or complex post-processing, which limit scalability and increase costs. To address these challenges, we propose a novel approach that generates the debiased self-judgment score, a self-evaluation metric created internally by the model without relying on external resources. This enables the model to autonomously improve alignment. Our method enhances both decoding strategies and preference tuning processes, resulting in reduced hallucinations, enhanced safety, and improved overall capability. Empirical results show that our approach significantly outperforms traditional methods, offering a more effective solution for aligning LVLMs.

Ссылки и действия