DeepMEL: A Multi-Agent Collaboration Framework for Multimodal Entity Linking
2508.15876v1
cs.CL, cs.AI, cs.MA
2025-08-26
Авторы:
Fang Wang, Tianwei Yan, Zonghao Yang, Minghao Hu, Jun Zhang, Zhunchen Luo, Xiaoying Bai
Резюме на русском
## Контекст
Multimodal Entity Linking (MEL) — это задача, связанная с семантическим сопоставлением текстовых и визуальных упоминаний с сущностями в многомедийном знании. Она широко применяется в сферах, таких как видеореконструкция, рекомендательные системы и визуальные поисковые системы. Однако существующие методы сталкиваются с проблемами, такими как неполнота контекстной информации, неэффективное совмещение многоканальных данных и сложность интеграции современных больших языковых моделей (LLMs) и визуальных моделей (LVMs). Эти ограничения приводят к низкой точности и недостаточному разрешению сущностей. Мотивация для DeepMEL заключается в развитии более эффективного подхода к решению этих проблем, обеспечивая более точное и быстрое сравнение многоканальных данных.
## Метод
DeepMEL представляет собой рамочный подход, основанный на многоагентном системном рассуждении, чтобы решить задачи MEL. Он разделяет задачи на четыре специализированных агента: Modal-Fuser, Candidate-Adapter, Entity-Clozer и Role-Orchestrator. Modal-Fuser объединяет текстовую и визуальную информацию, а Candidate-Adapter динамически выбирает кандидатов для связи. Entity-Clozer разрешает неоднозначность, а Role-Orchestrator гарантирует динамическое взаимодействие между агентами. Эта структура обеспечивает эффективное выравнивание и разрешение модальностей. Метод также включает двойной путь сравнения модальностей, который объединяет текстовые семантические структуры, создаваемые LLMs, и визуальные структуры, извлекаемые LVMs. Это позволяет уменьшить разрыв между модальностями и повысить точность.
## Результаты
Проведенные эксперименты на пяти открытых наборах данных показали, что DeepMEL превосходит текущие стандарты по метрике ACC с увеличением от 1% до 57%. Использовались большие наборы данных, такие как Flickr30K, Conceptual Captions и VG-VQA. Детальные анализы показали, что каждый модуль системы вносит свой вклад в улучшение результатов. Адаптивная стратегия итерации, комбинирующая инструментальную оптимизацию и семантическое обобщение, позволяет многоагентной системе устойчиво повышать качество работы.
## Значимость
DeepMEL имеет значительное значение в приложениях, таких как видеопоиск, визуальная развлекательная система, интеллектуальные системы рекомендаций и медицинская информатика. Его мощь заключается в уменьшении разрыва модальностей, улучшении точности и эффективности. Эта система может повлиять на развитие систем видеоанализа и контент-ранжирования, предоставив новые возможности для семантического сравнения видео и текстовых данных.
## Выводы
DeepMEL достигает состояния лидера в области MEL благодаря использованию многоа
Abstract
Multimodal Entity Linking (MEL) aims to associate textual and visual mentions
with entities in a multimodal knowledge graph. Despite its importance, current
methods face challenges such as incomplete contextual information, coarse
cross-modal fusion, and the difficulty of jointly large language models (LLMs)
and large visual models (LVMs). To address these issues, we propose DeepMEL, a
novel framework based on multi-agent collaborative reasoning, which achieves
efficient alignment and disambiguation of textual and visual modalities through
a role-specialized division strategy. DeepMEL integrates four specialized
agents, namely Modal-Fuser, Candidate-Adapter, Entity-Clozer and
Role-Orchestrator, to complete end-to-end cross-modal linking through
specialized roles and dynamic coordination. DeepMEL adopts a dual-modal
alignment path, and combines the fine-grained text semantics generated by the
LLM with the structured image representation extracted by the LVM,
significantly narrowing the modal gap. We design an adaptive iteration
strategy, combines tool-based retrieval and semantic reasoning capabilities to
dynamically optimize the candidate set and balance recall and precision.
DeepMEL also unifies MEL tasks into a structured cloze prompt to reduce parsing
complexity and enhance semantic comprehension. Extensive experiments on five
public benchmark datasets demonstrate that DeepMEL achieves state-of-the-art
performance, improving ACC by 1%-57%. Ablation studies verify the effectiveness
of all modules.
Ссылки и действия
Дополнительные ресурсы: