CEMTM: Contextual Embedding-based Multimodal Topic Modeling

2509.11465v1 cs.CL, cs.LG 2025-09-17
Авторы:

Amirhossein Abaskohi, Raymond Li, Chuyuan Li, Shafiq Joty, Giuseppe Carenini

Резюме на русском

## Контекст Современные мультимодальные модели тематик сталкиваются с вызовами в области обнаружения интерпретируемых и консистентных семантических структур в документах, сочетающих текст и изображения. Особенно актуальным является задача обработки коротких и длинных документов, в которых как текст, так и изображения должны быть корректно проанализированы для выделения тематик. Это важно для приложений в таких областях, как научное издание, социальные сети и образовательные ресурсы. Недостаток существующих моделей заключается в том, что они либо не умеют обрабатывать множество изображений в документе, либо не могут построить выгодную семантическую консистентность между текстом и изображениями. ## Метод CEMTM (Contextual Embedding-based Multimodal Topic Modeling) — современная модель, основанная на контекстном взвешивании эмбеддингов. Она использует граничные модели для обработки языка и изображений, которые преобразуют документ в высококонтекстные эмбеддинги. Механизм распределенного внимания учитывает вклад каждого токена в выявление тематик. Тематические представления синхронизируются с документом с помощью реконструкционной функции, обеспечивая семантическую консистентность между текстом и изображениями. Особенностью CEMTM является возможность обработки нескольких изображений в документе без повторной их кодирования, что экономит ресурсы. ## Результаты Проводились эксперименты на шести мультимодальных бенчмарках, включающих документы с разным содержанием. CEMTM показала значительные выигрыши по сравнению с рядом современных моделей. Она набирает на выборке среднюю оценку LLM близкую к 2.61, что говорит о высокой точности и интерпретируемости модели. Эксперименты показали, что CEMTM эффективна в задачах нескольких выборок и может достаточно хорошо работать в сложных областях, таких как научные статьи. ## Значимость CEMTM может быть применена в различных сферах, включая анализ научных текстов, создание содержимого для социальных сетей, анализ изображений и текста в области образования. Её преимущества заключаются в поддержке нескольких изображений в документе, высокой точности и интерпретируемости результатов. Эта модель может стать решающим шагом в развитии систем совмещающих текст и изображения, а также в улучшении систем понимания естественного языка в комплексных сферах. ## Выводы Результаты CEMTM подтверждают её эффективность в обнаружении тематик в мультимодальных документах. Будущие исследования будут сконцентрированы на улучшении модели для работы с более большими данными, а также на расширении её возможностей для областей, где необходимо учитывать множество мода

Abstract

We introduce CEMTM, a context-enhanced multimodal topic model designed to infer coherent and interpretable topic structures from both short and long documents containing text and images. CEMTM builds on fine-tuned large vision language models (LVLMs) to obtain contextualized embeddings, and employs a distributional attention mechanism to weight token-level contributions to topic inference. A reconstruction objective aligns topic-based representations with the document embedding, encouraging semantic consistency across modalities. Unlike existing approaches, CEMTM can process multiple images per document without repeated encoding and maintains interpretability through explicit word-topic and document-topic distributions. Extensive experiments on six multimodal benchmarks show that CEMTM consistently outperforms unimodal and multimodal baselines, achieving a remarkable average LLM score of 2.61. Further analysis shows its effectiveness in downstream few-shot retrieval and its ability to capture visually grounded semantics in complex domains such as scientific articles.

Ссылки и действия