REMOTE: A Unified Multimodal Relation Extraction Framework with Multilevel Optimal Transport and Mixture-of-Experts
2509.04844v1
cs.MM, cs.AI, cs.IR
2025-09-09
Авторы:
Xinkui Lin, Yongxiu Xu, Minghao Tang, Shilong Zhang, Hongbo Xu, Hao Xu, Yubin Wang
Резюме на русском
## Контекст
Много modal relation extraction (MRE) является важной задачей в областях Knowledge Graph и Multimedia, играя ключевую роль в построении multimodal knowledge graph. Однако существующие методы по сути ограничены в выделении одного типа реляционных тройняшек, что ограничивает их возможности выделять тройки за пределами указанных типов. Их комбинирование прямым образом не позволяет ловко охватить динамические кросс-modalные взаимодействия и приводит к значительному росту вычислительных затрат. Мы предлагаем REMOTE — универсальный много modal relation extraction фреймворк с многоуровневым транспортным оптимизатором и микстой экспертов, проектированный для совместного выделения внутри modal и меж modalных реляций между текстовыми сущностями и визуальными объектами. Наша модель позволяет эффективно адаптировать выбор интересующих функций взаимодействия к различным типам реляционных тройняшек.
## Метод
Мы вводим многоуровневый транспортный модуль для объединения, который сохраняет низкоуровневые признаки в процессе многослойного кодирования. Это позволяет повысить выразительность представлений. Для выделения реляционных тройняшек мы применяем механизм микстов экспертов, который динамически выбирает наиболее релевантные взаимодействия для каждого типа реляций. Это гарантирует оптимальную использование информации из разных модальностей. Таким образом, REMOTE универсально и эффективно, охватывая широкий спектр взаимодействий между текстовыми и визуальными субъектами.
## Результаты
Мы проводим эксперименты на созданном нами датасете Unified Multimodal Relation Extraction (UMRE), включающем разнообразные сценарии, где субъекты могут быть текстовыми или изображениями. Модель REMOTE показывает сверхувышнее качество результатов почти на всех метриках по сравнению с другими моделями на двух открытых датасетах MRE. Наши исследования подтверждают, что REMOTE эффективно выделяет разнообразные типы реляционных тройняшек и достигает состояния лидерства в своей области.
## Значимость
Наша модель REMOTE может использоваться в различных приложениях, таких как распознавание значков, обработка текста и видео, а также в биоинформатике. Она превосходит существующие методы по объему выделенных реляций и точности, что делает ее привлекательной для разных задач. Мы также открыли доступ к нашим ресурсам, чтобы поддержать будущие исследования.
## Выводы
Мы предложили REMOTE — мощный фреймворк для много modal relation extraction, который эффективно работает с разнообразными типами реляционных тройняшек. Наши результаты показали лидирующую позицию REMOTE по сравнению с другими моделями. Мы планируем продолжать развивать REMOTE, о
Abstract
Multimodal relation extraction (MRE) is a crucial task in the fields of
Knowledge Graph and Multimedia, playing a pivotal role in multimodal knowledge
graph construction. However, existing methods are typically limited to
extracting a single type of relational triplet, which restricts their ability
to extract triplets beyond the specified types. Directly combining these
methods fails to capture dynamic cross-modal interactions and introduces
significant computational redundancy. Therefore, we propose a novel
\textit{unified multimodal Relation Extraction framework with Multilevel
Optimal Transport and mixture-of-Experts}, termed REMOTE, which can
simultaneously extract intra-modal and inter-modal relations between textual
entities and visual objects. To dynamically select optimal interaction features
for different types of relational triplets, we introduce mixture-of-experts
mechanism, ensuring the most relevant modality information is utilized.
Additionally, considering that the inherent property of multilayer sequential
encoding in existing encoders often leads to the loss of low-level information,
we adopt a multilevel optimal transport fusion module to preserve low-level
features while maintaining multilayer encoding, yielding more expressive
representations. Correspondingly, we also create a Unified Multimodal Relation
Extraction (UMRE) dataset to evaluate the effectiveness of our framework,
encompassing diverse cases where the head and tail entities can originate from
either text or image. Extensive experiments show that REMOTE effectively
extracts various types of relational triplets and achieves state-of-the-art
performanc on almost all metrics across two other public MRE datasets. We
release our resources at https://github.com/Nikol-coder/REMOTE.
Ссылки и действия
Дополнительные ресурсы: