RIV: Recursive Introspection Mask Diffusion Vision Language Model

2509.23625v1 cs.CV, cs.AI, cs.CL, cs.LG 2025-10-01

Авторы:

YuQian Li, Limeng Qiao, Lin Ma

Резюме на русском

#### Контекст Mask Diffusion-based Vision Language Models (MDVLMs) показали свою эффективность в решении задач мультимодального понимания. Однако, они страдают от отсутствия самокоррекционных возможностей, что ограничивает их универсальность и точность. Данная проблема мотивирует разработку модели, которая сможет обнаруживать и исправлять ошибки в процессе генерации. #### Метод Мы предлагаем Recursive Introspection Mask Diffusion Vision Language Model (RIV), который включает в себя два ключевых механизма. Отметим интроспекционный тренировочный процесс (Introspection Training), в котором вводится Introspection Model для определения ошибок в полученных последовательностях. Этот подход позволяет модели не только идентифицировать грамматические и орфографические ошибки, но и анализировать логические несоответствия. Второй механизм — рекурсивный инференс (Recursive Inference). Он заключается в том, что после инициального этапа раскрытия масок (unmasking), Introspection Model исправляет ошибки, затем происходит повторное маскирование (remask), и этот цикл ($\text{unmask} \rightarrow \text{introspection} \rightarrow \text{remask}$) повторяется до тех пор, пока результаты не будут достаточно достоверны. #### Результаты Мы проверили RIV на нескольких бенчмарках, включая задачи визуального понимания и мультимодального понимания. Модель показала превосходство над многими современными MDVLMs в метриках точности и общей качественной оценки. Эксперименты подтвердили, что RIV способен не только улучшить точность генерации, но также устранить ошибки в ранних этапах потока генерации. #### Значимость Исследование может быть применено в многомодальных системах, таких как автоматические системы понимания и генерации текста, графического и видеоконтента. Одним из преимуществ является увеличение точности и надежности моделей, что может положительно сказаться на применении в реальном мире. Будущие исследования могут быть направлены на улучшение эффективности и скорости моделей, а также расширение их применений в различных областях. #### Выводы Основным достижением является создание модели RIV, которая единолично добавляет моделям MDVLM самокоррекционные возможности. Эта разработка открывает новые перспективы в области мультимодального понимания. Дальнейшие исследования будут сконцентрированы на улучшении эффективности и реализации моделей RIV в реальных системах.

Abstract

Mask Diffusion-based Vision Language Models (MDVLMs) have achieved remarkable progress in multimodal understanding tasks. However, these models are unable to correct errors in generated tokens, meaning they lack self-correction capability. In this paper, we propose Recursive Introspection Mask Diffusion Vision Language Model (RIV), which equips the model with self-correction ability through two novel mechanisms. The first is Introspection Training, where an Introspection Model is introduced to identify errors within generated sequences. Introspection Training enables the model to detect not only grammatical and spelling mistakes, but more importantly, logical errors. The second is Recursive Inference. Beginning with the standard unmasking step, the learned Introspection Model helps to identify errors in the output sequence and remask them. This alternating ($\text{unmask}\rightarrow\text{introspection}\rightarrow\text{remask}$) process is repeated recursively until reliable results are obtained. Experimental results on multiple benchmarks demonstrate that the proposed RIV achieves state-of-the-art performance, outperforming most existing MDVLMs.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

RIV: Recursive Introspection Mask Diffusion Vision Language Model

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

SEASON: Mitigating Temporal Hallucination in Video Large Language Models via Sel...

DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmente...

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

Training-Free Diffusion Priors for Text-to-Image Generation via Optimization-bas...

Навигация