DeepMEL: A Multi-Agent Collaboration Framework for Multimodal Entity Linking

2508.15876v1 cs.CL, cs.AI, cs.MA 2025-08-26
Авторы:

Fang Wang, Tianwei Yan, Zonghao Yang, Minghao Hu, Jun Zhang, Zhunchen Luo, Xiaoying Bai

Резюме на русском

## Контекст Multimodal Entity Linking (MEL) — это задача, связанная с семантическим сопоставлением текстовых и визуальных упоминаний с сущностями в многомедийном знании. Она широко применяется в сферах, таких как видеореконструкция, рекомендательные системы и визуальные поисковые системы. Однако существующие методы сталкиваются с проблемами, такими как неполнота контекстной информации, неэффективное совмещение многоканальных данных и сложность интеграции современных больших языковых моделей (LLMs) и визуальных моделей (LVMs). Эти ограничения приводят к низкой точности и недостаточному разрешению сущностей. Мотивация для DeepMEL заключается в развитии более эффективного подхода к решению этих проблем, обеспечивая более точное и быстрое сравнение многоканальных данных. ## Метод DeepMEL представляет собой рамочный подход, основанный на многоагентном системном рассуждении, чтобы решить задачи MEL. Он разделяет задачи на четыре специализированных агента: Modal-Fuser, Candidate-Adapter, Entity-Clozer и Role-Orchestrator. Modal-Fuser объединяет текстовую и визуальную информацию, а Candidate-Adapter динамически выбирает кандидатов для связи. Entity-Clozer разрешает неоднозначность, а Role-Orchestrator гарантирует динамическое взаимодействие между агентами. Эта структура обеспечивает эффективное выравнивание и разрешение модальностей. Метод также включает двойной путь сравнения модальностей, который объединяет текстовые семантические структуры, создаваемые LLMs, и визуальные структуры, извлекаемые LVMs. Это позволяет уменьшить разрыв между модальностями и повысить точность. ## Результаты Проведенные эксперименты на пяти открытых наборах данных показали, что DeepMEL превосходит текущие стандарты по метрике ACC с увеличением от 1% до 57%. Использовались большие наборы данных, такие как Flickr30K, Conceptual Captions и VG-VQA. Детальные анализы показали, что каждый модуль системы вносит свой вклад в улучшение результатов. Адаптивная стратегия итерации, комбинирующая инструментальную оптимизацию и семантическое обобщение, позволяет многоагентной системе устойчиво повышать качество работы. ## Значимость DeepMEL имеет значительное значение в приложениях, таких как видеопоиск, визуальная развлекательная система, интеллектуальные системы рекомендаций и медицинская информатика. Его мощь заключается в уменьшении разрыва модальностей, улучшении точности и эффективности. Эта система может повлиять на развитие систем видеоанализа и контент-ранжирования, предоставив новые возможности для семантического сравнения видео и текстовых данных. ## Выводы DeepMEL достигает состояния лидера в области MEL благодаря использованию многоа

Abstract

Multimodal Entity Linking (MEL) aims to associate textual and visual mentions with entities in a multimodal knowledge graph. Despite its importance, current methods face challenges such as incomplete contextual information, coarse cross-modal fusion, and the difficulty of jointly large language models (LLMs) and large visual models (LVMs). To address these issues, we propose DeepMEL, a novel framework based on multi-agent collaborative reasoning, which achieves efficient alignment and disambiguation of textual and visual modalities through a role-specialized division strategy. DeepMEL integrates four specialized agents, namely Modal-Fuser, Candidate-Adapter, Entity-Clozer and Role-Orchestrator, to complete end-to-end cross-modal linking through specialized roles and dynamic coordination. DeepMEL adopts a dual-modal alignment path, and combines the fine-grained text semantics generated by the LLM with the structured image representation extracted by the LVM, significantly narrowing the modal gap. We design an adaptive iteration strategy, combines tool-based retrieval and semantic reasoning capabilities to dynamically optimize the candidate set and balance recall and precision. DeepMEL also unifies MEL tasks into a structured cloze prompt to reduce parsing complexity and enhance semantic comprehension. Extensive experiments on five public benchmark datasets demonstrate that DeepMEL achieves state-of-the-art performance, improving ACC by 1%-57%. Ablation studies verify the effectiveness of all modules.

Ссылки и действия