REMOTE: A Unified Multimodal Relation Extraction Framework with Multilevel Optimal Transport and Mixture-of-Experts

2509.04844v1 cs.MM, cs.AI, cs.IR 2025-09-09
Авторы:

Xinkui Lin, Yongxiu Xu, Minghao Tang, Shilong Zhang, Hongbo Xu, Hao Xu, Yubin Wang

Резюме на русском

## Контекст Много modal relation extraction (MRE) является важной задачей в областях Knowledge Graph и Multimedia, играя ключевую роль в построении multimodal knowledge graph. Однако существующие методы по сути ограничены в выделении одного типа реляционных тройняшек, что ограничивает их возможности выделять тройки за пределами указанных типов. Их комбинирование прямым образом не позволяет ловко охватить динамические кросс-modalные взаимодействия и приводит к значительному росту вычислительных затрат. Мы предлагаем REMOTE — универсальный много modal relation extraction фреймворк с многоуровневым транспортным оптимизатором и микстой экспертов, проектированный для совместного выделения внутри modal и меж modalных реляций между текстовыми сущностями и визуальными объектами. Наша модель позволяет эффективно адаптировать выбор интересующих функций взаимодействия к различным типам реляционных тройняшек. ## Метод Мы вводим многоуровневый транспортный модуль для объединения, который сохраняет низкоуровневые признаки в процессе многослойного кодирования. Это позволяет повысить выразительность представлений. Для выделения реляционных тройняшек мы применяем механизм микстов экспертов, который динамически выбирает наиболее релевантные взаимодействия для каждого типа реляций. Это гарантирует оптимальную использование информации из разных модальностей. Таким образом, REMOTE универсально и эффективно, охватывая широкий спектр взаимодействий между текстовыми и визуальными субъектами. ## Результаты Мы проводим эксперименты на созданном нами датасете Unified Multimodal Relation Extraction (UMRE), включающем разнообразные сценарии, где субъекты могут быть текстовыми или изображениями. Модель REMOTE показывает сверхувышнее качество результатов почти на всех метриках по сравнению с другими моделями на двух открытых датасетах MRE. Наши исследования подтверждают, что REMOTE эффективно выделяет разнообразные типы реляционных тройняшек и достигает состояния лидерства в своей области. ## Значимость Наша модель REMOTE может использоваться в различных приложениях, таких как распознавание значков, обработка текста и видео, а также в биоинформатике. Она превосходит существующие методы по объему выделенных реляций и точности, что делает ее привлекательной для разных задач. Мы также открыли доступ к нашим ресурсам, чтобы поддержать будущие исследования. ## Выводы Мы предложили REMOTE — мощный фреймворк для много modal relation extraction, который эффективно работает с разнообразными типами реляционных тройняшек. Наши результаты показали лидирующую позицию REMOTE по сравнению с другими моделями. Мы планируем продолжать развивать REMOTE, о

Abstract

Multimodal relation extraction (MRE) is a crucial task in the fields of Knowledge Graph and Multimedia, playing a pivotal role in multimodal knowledge graph construction. However, existing methods are typically limited to extracting a single type of relational triplet, which restricts their ability to extract triplets beyond the specified types. Directly combining these methods fails to capture dynamic cross-modal interactions and introduces significant computational redundancy. Therefore, we propose a novel \textit{unified multimodal Relation Extraction framework with Multilevel Optimal Transport and mixture-of-Experts}, termed REMOTE, which can simultaneously extract intra-modal and inter-modal relations between textual entities and visual objects. To dynamically select optimal interaction features for different types of relational triplets, we introduce mixture-of-experts mechanism, ensuring the most relevant modality information is utilized. Additionally, considering that the inherent property of multilayer sequential encoding in existing encoders often leads to the loss of low-level information, we adopt a multilevel optimal transport fusion module to preserve low-level features while maintaining multilayer encoding, yielding more expressive representations. Correspondingly, we also create a Unified Multimodal Relation Extraction (UMRE) dataset to evaluate the effectiveness of our framework, encompassing diverse cases where the head and tail entities can originate from either text or image. Extensive experiments show that REMOTE effectively extracts various types of relational triplets and achieves state-of-the-art performanc on almost all metrics across two other public MRE datasets. We release our resources at https://github.com/Nikol-coder/REMOTE.

Ссылки и действия