The Telephone Game: Evaluating Semantic Drift in Unified Models
2509.04438v1
cs.CV, cs.CL
2025-09-06
Авторы:
Sabbir Mollah, Rohit Gupta, Sirnam Swetha, Qingyang Liu, Ahnaf Munir, Mubarak Shah
Резюме на русском
#### Контекст
Современные визуально-языковые модели (Visual Language Models, VLM) стремятся объединить возможности по обработке имиджей и текста в единой модели. Эти модели обладают высоким потенциалом в задачах, требующих устойчивого понимания и консистентного генерирования визуальной и текстовой информации. Однако существуют проблемы с приоритезацией одной области над другой во время обучения, что приводит к снижению качества взаимодействия модели с данными в процессе циклических преобразований. Эта проблема, известная как semantic drift, остается недостаточно изученной.
#### Метод
Для изучения semantic drift мы предлагаем **Unified Consistency Framework for Unified Models (UCF-UM)** — новый протокол оценки, основанный на циклическом тестировании. Он включает в себя многошаговый процесс: текст преобразуется в изображение, а затем это изображение снова преобразуется обратно в текст. Этот цикл повторяется несколько раз, чтобы измерить ухудшение понимания и консистентность. Мы представляем три новых метрики:
- **Mean Cumulative Drift (MCD)** — усредненное изменение семантики с использованием векторного представления.
- **Semantic Drift Rate (SDR)** — скорость уменьшения значимости смысла.
- **Multi-Generation GenEval (MGG)** — мера соответствия объектной информации на последних этапах цикла.
Данные для экспериментов были подготовлены с помощью создания нового бенчмарка ND400, сочетающего данные из NoCaps и DOCCI. Мы проверили семь моделей с разными архитектурами и обучающими данными.
#### Результаты
Эксперименты показали, что модели различаются существенно по устойчивости в циклических задачах. Например, модель BAGEL показала маргинальную потерю семантики после множественных итераций, в то время как модель Vil-u быстро утратила смысл даже с хорошими одношаговыми результатами. Эти наблюдения подтверждают, что устойчивость к semantic drift является ключевым фактором для оценки моделей, а не только I2T и T2I оценок.
#### Значимость
Результаты могут быть применены в разработке моделей с глубжей синергией между визуальным и текстовым пониманием. Метрики UCF-UM позволяют выявлять недостатки в общей обработке смысла, независимо от высоких результатов в отдельных задачах. Это может улучшить протоколы обучения и разработку моделей, способных поддерживать консистентность в различных моделях VLM.
#### Выводы
Мы показали, что cyclic consistency является ключевым аспектом для оценки сильной модели VLM. Наши результаты раскрывают необходимость продолжительных циклических тестов в дополнение к стандартным одношаговым оценкам. Будущие исследования будут сосредоточены на расширении UCF-UM для разных моделей и задач, а также на создании моделей с более высокой устойчивостью к semantic
Abstract
Employing a single, unified model (UM) for both visual understanding
(image-to-text: I2T) and and visual generation (text-to-image: T2I) has opened
a new direction in Visual Language Model (VLM) research. While UMs can also
support broader unimodal tasks (e.g., text-to-text, image-to-image), we focus
on the core cross-modal pair T2I and I2T, as consistency between understanding
and generation is critical for downstream use. Existing evaluations consider
these capabilities in isolation: FID and GenEval for T2I, and benchmarks such
as MME, MMBench for I2T. These single-pass metrics do not reveal whether a
model that understands a concept can also render it, nor whether meaning is
preserved when cycling between image and text modalities. To address this, we
introduce the Unified Consistency Framework for Unified Models (UCF-UM), a
cyclic evaluation protocol that alternates I2T and T2I over multiple
generations to quantify semantic drift. UCF formulates 3 metrics: (i) Mean
Cumulative Drift (MCD), an embedding-based measure of overall semantic loss;
(ii) Semantic Drift Rate (SDR), that summarizes semantic decay rate; and (iii)
Multi-Generation GenEval (MGG), an object-level compliance score extending
GenEval. To assess generalization beyond COCO, which is widely used in
training; we create a new benchmark ND400, sampled from NoCaps and DOCCI and
evaluate on seven recent models. UCF-UM reveals substantial variation in
cross-modal stability: some models like BAGEL maintain semantics over many
alternations, whereas others like Vila-u drift quickly despite strong
single-pass scores. Our results highlight cyclic consistency as a necessary
complement to standard I2T and T2I evaluations, and provide practical metrics
to consistently assess unified model's cross-modal stability and strength of
their shared representations. Code:
https://github.com/mollahsabbir/Semantic-Drift-in-Unified-Models
Ссылки и действия
Дополнительные ресурсы: