RIV: Recursive Introspection Mask Diffusion Vision Language Model
2509.23625v1
cs.CV, cs.AI, cs.CL, cs.LG
2025-10-01
Авторы:
YuQian Li, Limeng Qiao, Lin Ma
Резюме на русском
#### Контекст
Mask Diffusion-based Vision Language Models (MDVLMs) показали свою эффективность в решении задач мультимодального понимания. Однако, они страдают от отсутствия самокоррекционных возможностей, что ограничивает их универсальность и точность. Данная проблема мотивирует разработку модели, которая сможет обнаруживать и исправлять ошибки в процессе генерации.
#### Метод
Мы предлагаем Recursive Introspection Mask Diffusion Vision Language Model (RIV), который включает в себя два ключевых механизма. Отметим интроспекционный тренировочный процесс (Introspection Training), в котором вводится Introspection Model для определения ошибок в полученных последовательностях. Этот подход позволяет модели не только идентифицировать грамматические и орфографические ошибки, но и анализировать логические несоответствия. Второй механизм — рекурсивный инференс (Recursive Inference). Он заключается в том, что после инициального этапа раскрытия масок (unmasking), Introspection Model исправляет ошибки, затем происходит повторное маскирование (remask), и этот цикл ($\text{unmask} \rightarrow \text{introspection} \rightarrow \text{remask}$) повторяется до тех пор, пока результаты не будут достаточно достоверны.
#### Результаты
Мы проверили RIV на нескольких бенчмарках, включая задачи визуального понимания и мультимодального понимания. Модель показала превосходство над многими современными MDVLMs в метриках точности и общей качественной оценки. Эксперименты подтвердили, что RIV способен не только улучшить точность генерации, но также устранить ошибки в ранних этапах потока генерации.
#### Значимость
Исследование может быть применено в многомодальных системах, таких как автоматические системы понимания и генерации текста, графического и видеоконтента. Одним из преимуществ является увеличение точности и надежности моделей, что может положительно сказаться на применении в реальном мире. Будущие исследования могут быть направлены на улучшение эффективности и скорости моделей, а также расширение их применений в различных областях.
#### Выводы
Основным достижением является создание модели RIV, которая единолично добавляет моделям MDVLM самокоррекционные возможности. Эта разработка открывает новые перспективы в области мультимодального понимания. Дальнейшие исследования будут сконцентрированы на улучшении эффективности и реализации моделей RIV в реальных системах.
Abstract
Mask Diffusion-based Vision Language Models (MDVLMs) have achieved remarkable
progress in multimodal understanding tasks. However, these models are unable to
correct errors in generated tokens, meaning they lack self-correction
capability. In this paper, we propose Recursive Introspection Mask Diffusion
Vision Language Model (RIV), which equips the model with self-correction
ability through two novel mechanisms. The first is Introspection Training,
where an Introspection Model is introduced to identify errors within generated
sequences. Introspection Training enables the model to detect not only
grammatical and spelling mistakes, but more importantly, logical errors. The
second is Recursive Inference. Beginning with the standard unmasking step, the
learned Introspection Model helps to identify errors in the output sequence and
remask them. This alternating
($\text{unmask}\rightarrow\text{introspection}\rightarrow\text{remask}$)
process is repeated recursively until reliable results are obtained.
Experimental results on multiple benchmarks demonstrate that the proposed RIV
achieves state-of-the-art performance, outperforming most existing MDVLMs.