Benchmarking and Improving LVLMs on Event Extraction from Multimedia Documents

2509.12876v1 cs.CL, cs.MM 2025-09-18
Авторы:

Fuyu Xing, Zimu Wang, Wei Wang, Haiyang Zhang

Резюме на русском

## Контекст Современный мир охвачен всемиконный потоком мультимедийной информации. Это создает необходимость в развитии систем, способных эффективно извлекать информацию из мультимедийных документов. Одним из сложных практических задач этого класса является **Мультимедийное Извлечение Событий (M2E2)**. Оно заключается в выделении событий из текста и изображения, что требует глубокого понимания кросс-модальных связей. Несмотря на прогресс в области крупных зрения-языковых моделей (LVLMs), их потенциал в M2E2 остается малоизученным. Целью настоящего исследования является осмысление этих моделей в контексте M2E2, а также оценка и улучшение их эффективности. ## Метод Для изучения особенностей LVLMs в M2E2 использованы **DeepSeek-VL2** и **Qwen-VL** - представители крупных моделей с кросс-модальными возможностями. Методология основывалась на оценке моделей по трем субзадачам M2E2: **текстовому**, **изображению-только** и **кросс-задаче**. Оценка проводилась в двух режимах: **небольших данных (few-shot)** и **полноценной файнтюнинг-оценке**. Для улучшения моделей использовался подход с **LoRA** (Low-Rank Adaptation), дающий возможность адаптировать модель к конкретной задаче. Использовались данные из **M2E2-dataset**, который представляет собой широко известный ресурс для развития M2E2-систем. ## Результаты Опытные исследования показали, что **небольшие данные в LVLMs** дают лучшие результаты на **визуальных задачах**, но при этом сильно страдают на задачах, связанных с текстом. Файнтюнинг с использованием LoRA привел к значительному повышению производительности моделей, особенно на текстовых задачах. Обнаружена сильная **синергия кросс-модальных моделей** при объединении зрения и языка. Однако, существуют недостатки: LVLMs страдают от недостатка **семантической точности**, **локализации** и **кросс-модального уточнения**. Это отражается в ошибках, связанных с недостаточной точностью определения смысла, сложностями в локализации событий и недостаточной связи между текстом и изображением. ## Значимость Результаты имеют применение в развитии систем, позволяющих эффективно извлекать события из мультимедийных документов. Это имеет большое значение для применений в сферах **новостных систем**, **рекламного анализа** и **поиска информации**. Одним из преимуществ является улучшение локальной и кросс-модальной точности, что облегчает понимание и интерпретацию мультимедийных данных. Такое исследование может способствовать развитию **систем умных помощников** и **анализа массовых мультимедийных источников**. ## Выводы Настоящее

Abstract

The proliferation of multimedia content necessitates the development of effective Multimedia Event Extraction (M2E2) systems. Though Large Vision-Language Models (LVLMs) have shown strong cross-modal capabilities, their utility in the M2E2 task remains underexplored. In this paper, we present the first systematic evaluation of representative LVLMs, including DeepSeek-VL2 and the Qwen-VL series, on the M2E2 dataset. Our evaluations cover text-only, image-only, and cross-media subtasks, assessed under both few-shot prompting and fine-tuning settings. Our key findings highlight the following valuable insights: (1) Few-shot LVLMs perform notably better on visual tasks but struggle significantly with textual tasks; (2) Fine-tuning LVLMs with LoRA substantially enhances model performance; and (3) LVLMs exhibit strong synergy when combining modalities, achieving superior performance in cross-modal settings. We further provide a detailed error analysis to reveal persistent challenges in areas such as semantic precision, localization, and cross-modal grounding, which remain critical obstacles for advancing M2E2 capabilities.

Ссылки и действия

Связанные статьи

DRISHTIKON: A Multimodal Multilingual Benchmark for Testing Language Models' Und...

## Контекст Данная работа посвящена развитию DRISHTIKON — первого в своём роде многомодального и многоязыкового бенчмарк...

2025-09-25

RealBench: A Chinese Multi-image Understanding Benchmark Close to Real-world Sce...

## Контекст В последние годы стало ясно, что понимание множества изображений (multi-image understanding) является кллюч...

2025-09-24

Evaluating Multimodal Large Language Models on Spoken Sarcasm Understanding

## Контекст Sarcasm detection является сложной задачей в области natural language understanding (NLU), так как sarcasm ч...

2025-09-23

Text2Sign Diffusion: A Generative Approach for Gloss-Free Sign Language Producti...

## Контекст Sign language production (SLP) является ключевым вопросом в области интеллектуальных технологий для продвиж...

2025-09-17