CEMTM: Contextual Embedding-based Multimodal Topic Modeling
2509.11465v1
cs.CL, cs.LG
2025-09-17
Авторы:
Amirhossein Abaskohi, Raymond Li, Chuyuan Li, Shafiq Joty, Giuseppe Carenini
Резюме на русском
## Контекст
Современные мультимодальные модели тематик сталкиваются с вызовами в области обнаружения интерпретируемых и консистентных семантических структур в документах, сочетающих текст и изображения. Особенно актуальным является задача обработки коротких и длинных документов, в которых как текст, так и изображения должны быть корректно проанализированы для выделения тематик. Это важно для приложений в таких областях, как научное издание, социальные сети и образовательные ресурсы. Недостаток существующих моделей заключается в том, что они либо не умеют обрабатывать множество изображений в документе, либо не могут построить выгодную семантическую консистентность между текстом и изображениями.
## Метод
CEMTM (Contextual Embedding-based Multimodal Topic Modeling) — современная модель, основанная на контекстном взвешивании эмбеддингов. Она использует граничные модели для обработки языка и изображений, которые преобразуют документ в высококонтекстные эмбеддинги. Механизм распределенного внимания учитывает вклад каждого токена в выявление тематик. Тематические представления синхронизируются с документом с помощью реконструкционной функции, обеспечивая семантическую консистентность между текстом и изображениями. Особенностью CEMTM является возможность обработки нескольких изображений в документе без повторной их кодирования, что экономит ресурсы.
## Результаты
Проводились эксперименты на шести мультимодальных бенчмарках, включающих документы с разным содержанием. CEMTM показала значительные выигрыши по сравнению с рядом современных моделей. Она набирает на выборке среднюю оценку LLM близкую к 2.61, что говорит о высокой точности и интерпретируемости модели. Эксперименты показали, что CEMTM эффективна в задачах нескольких выборок и может достаточно хорошо работать в сложных областях, таких как научные статьи.
## Значимость
CEMTM может быть применена в различных сферах, включая анализ научных текстов, создание содержимого для социальных сетей, анализ изображений и текста в области образования. Её преимущества заключаются в поддержке нескольких изображений в документе, высокой точности и интерпретируемости результатов. Эта модель может стать решающим шагом в развитии систем совмещающих текст и изображения, а также в улучшении систем понимания естественного языка в комплексных сферах.
## Выводы
Результаты CEMTM подтверждают её эффективность в обнаружении тематик в мультимодальных документах. Будущие исследования будут сконцентрированы на улучшении модели для работы с более большими данными, а также на расширении её возможностей для областей, где необходимо учитывать множество мода
Abstract
We introduce CEMTM, a context-enhanced multimodal topic model designed to
infer coherent and interpretable topic structures from both short and long
documents containing text and images. CEMTM builds on fine-tuned large vision
language models (LVLMs) to obtain contextualized embeddings, and employs a
distributional attention mechanism to weight token-level contributions to topic
inference. A reconstruction objective aligns topic-based representations with
the document embedding, encouraging semantic consistency across modalities.
Unlike existing approaches, CEMTM can process multiple images per document
without repeated encoding and maintains interpretability through explicit
word-topic and document-topic distributions. Extensive experiments on six
multimodal benchmarks show that CEMTM consistently outperforms unimodal and
multimodal baselines, achieving a remarkable average LLM score of 2.61. Further
analysis shows its effectiveness in downstream few-shot retrieval and its
ability to capture visually grounded semantics in complex domains such as
scientific articles.
Ссылки и действия
Дополнительные ресурсы: