Benchmarking and Improving LVLMs on Event Extraction from Multimedia Documents
2509.12876v1
cs.CL, cs.MM
2025-09-18
Авторы:
Fuyu Xing, Zimu Wang, Wei Wang, Haiyang Zhang
Резюме на русском
## Контекст
Современный мир охвачен всемиконный потоком мультимедийной информации. Это создает необходимость в развитии систем, способных эффективно извлекать информацию из мультимедийных документов. Одним из сложных практических задач этого класса является **Мультимедийное Извлечение Событий (M2E2)**. Оно заключается в выделении событий из текста и изображения, что требует глубокого понимания кросс-модальных связей. Несмотря на прогресс в области крупных зрения-языковых моделей (LVLMs), их потенциал в M2E2 остается малоизученным. Целью настоящего исследования является осмысление этих моделей в контексте M2E2, а также оценка и улучшение их эффективности.
## Метод
Для изучения особенностей LVLMs в M2E2 использованы **DeepSeek-VL2** и **Qwen-VL** - представители крупных моделей с кросс-модальными возможностями. Методология основывалась на оценке моделей по трем субзадачам M2E2: **текстовому**, **изображению-только** и **кросс-задаче**. Оценка проводилась в двух режимах: **небольших данных (few-shot)** и **полноценной файнтюнинг-оценке**. Для улучшения моделей использовался подход с **LoRA** (Low-Rank Adaptation), дающий возможность адаптировать модель к конкретной задаче. Использовались данные из **M2E2-dataset**, который представляет собой широко известный ресурс для развития M2E2-систем.
## Результаты
Опытные исследования показали, что **небольшие данные в LVLMs** дают лучшие результаты на **визуальных задачах**, но при этом сильно страдают на задачах, связанных с текстом. Файнтюнинг с использованием LoRA привел к значительному повышению производительности моделей, особенно на текстовых задачах. Обнаружена сильная **синергия кросс-модальных моделей** при объединении зрения и языка. Однако, существуют недостатки: LVLMs страдают от недостатка **семантической точности**, **локализации** и **кросс-модального уточнения**. Это отражается в ошибках, связанных с недостаточной точностью определения смысла, сложностями в локализации событий и недостаточной связи между текстом и изображением.
## Значимость
Результаты имеют применение в развитии систем, позволяющих эффективно извлекать события из мультимедийных документов. Это имеет большое значение для применений в сферах **новостных систем**, **рекламного анализа** и **поиска информации**. Одним из преимуществ является улучшение локальной и кросс-модальной точности, что облегчает понимание и интерпретацию мультимедийных данных. Такое исследование может способствовать развитию **систем умных помощников** и **анализа массовых мультимедийных источников**.
## Выводы
Настоящее
Abstract
The proliferation of multimedia content necessitates the development of
effective Multimedia Event Extraction (M2E2) systems. Though Large
Vision-Language Models (LVLMs) have shown strong cross-modal capabilities,
their utility in the M2E2 task remains underexplored. In this paper, we present
the first systematic evaluation of representative LVLMs, including DeepSeek-VL2
and the Qwen-VL series, on the M2E2 dataset. Our evaluations cover text-only,
image-only, and cross-media subtasks, assessed under both few-shot prompting
and fine-tuning settings. Our key findings highlight the following valuable
insights: (1) Few-shot LVLMs perform notably better on visual tasks but
struggle significantly with textual tasks; (2) Fine-tuning LVLMs with LoRA
substantially enhances model performance; and (3) LVLMs exhibit strong synergy
when combining modalities, achieving superior performance in cross-modal
settings. We further provide a detailed error analysis to reveal persistent
challenges in areas such as semantic precision, localization, and cross-modal
grounding, which remain critical obstacles for advancing M2E2 capabilities.