The Telephone Game: Evaluating Semantic Drift in Unified Models

2509.04438v1 cs.CV, cs.CL 2025-09-06
Авторы:

Sabbir Mollah, Rohit Gupta, Sirnam Swetha, Qingyang Liu, Ahnaf Munir, Mubarak Shah

Резюме на русском

#### Контекст Современные визуально-языковые модели (Visual Language Models, VLM) стремятся объединить возможности по обработке имиджей и текста в единой модели. Эти модели обладают высоким потенциалом в задачах, требующих устойчивого понимания и консистентного генерирования визуальной и текстовой информации. Однако существуют проблемы с приоритезацией одной области над другой во время обучения, что приводит к снижению качества взаимодействия модели с данными в процессе циклических преобразований. Эта проблема, известная как semantic drift, остается недостаточно изученной. #### Метод Для изучения semantic drift мы предлагаем **Unified Consistency Framework for Unified Models (UCF-UM)** — новый протокол оценки, основанный на циклическом тестировании. Он включает в себя многошаговый процесс: текст преобразуется в изображение, а затем это изображение снова преобразуется обратно в текст. Этот цикл повторяется несколько раз, чтобы измерить ухудшение понимания и консистентность. Мы представляем три новых метрики: - **Mean Cumulative Drift (MCD)** — усредненное изменение семантики с использованием векторного представления. - **Semantic Drift Rate (SDR)** — скорость уменьшения значимости смысла. - **Multi-Generation GenEval (MGG)** — мера соответствия объектной информации на последних этапах цикла. Данные для экспериментов были подготовлены с помощью создания нового бенчмарка ND400, сочетающего данные из NoCaps и DOCCI. Мы проверили семь моделей с разными архитектурами и обучающими данными. #### Результаты Эксперименты показали, что модели различаются существенно по устойчивости в циклических задачах. Например, модель BAGEL показала маргинальную потерю семантики после множественных итераций, в то время как модель Vil-u быстро утратила смысл даже с хорошими одношаговыми результатами. Эти наблюдения подтверждают, что устойчивость к semantic drift является ключевым фактором для оценки моделей, а не только I2T и T2I оценок. #### Значимость Результаты могут быть применены в разработке моделей с глубжей синергией между визуальным и текстовым пониманием. Метрики UCF-UM позволяют выявлять недостатки в общей обработке смысла, независимо от высоких результатов в отдельных задачах. Это может улучшить протоколы обучения и разработку моделей, способных поддерживать консистентность в различных моделях VLM. #### Выводы Мы показали, что cyclic consistency является ключевым аспектом для оценки сильной модели VLM. Наши результаты раскрывают необходимость продолжительных циклических тестов в дополнение к стандартным одношаговым оценкам. Будущие исследования будут сосредоточены на расширении UCF-UM для разных моделей и задач, а также на создании моделей с более высокой устойчивостью к semantic

Abstract

Employing a single, unified model (UM) for both visual understanding (image-to-text: I2T) and and visual generation (text-to-image: T2I) has opened a new direction in Visual Language Model (VLM) research. While UMs can also support broader unimodal tasks (e.g., text-to-text, image-to-image), we focus on the core cross-modal pair T2I and I2T, as consistency between understanding and generation is critical for downstream use. Existing evaluations consider these capabilities in isolation: FID and GenEval for T2I, and benchmarks such as MME, MMBench for I2T. These single-pass metrics do not reveal whether a model that understands a concept can also render it, nor whether meaning is preserved when cycling between image and text modalities. To address this, we introduce the Unified Consistency Framework for Unified Models (UCF-UM), a cyclic evaluation protocol that alternates I2T and T2I over multiple generations to quantify semantic drift. UCF formulates 3 metrics: (i) Mean Cumulative Drift (MCD), an embedding-based measure of overall semantic loss; (ii) Semantic Drift Rate (SDR), that summarizes semantic decay rate; and (iii) Multi-Generation GenEval (MGG), an object-level compliance score extending GenEval. To assess generalization beyond COCO, which is widely used in training; we create a new benchmark ND400, sampled from NoCaps and DOCCI and evaluate on seven recent models. UCF-UM reveals substantial variation in cross-modal stability: some models like BAGEL maintain semantics over many alternations, whereas others like Vila-u drift quickly despite strong single-pass scores. Our results highlight cyclic consistency as a necessary complement to standard I2T and T2I evaluations, and provide practical metrics to consistently assess unified model's cross-modal stability and strength of their shared representations. Code: https://github.com/mollahsabbir/Semantic-Drift-in-Unified-Models

Ссылки и действия