Retrieval over Classification: Integrating Relation Semantics for Multimodal Relation Extraction

2509.21151v1 cs.CL, cs.IR 2025-09-27
Авторы:

Lei Hei, Tingjing Liao, Yingxin Pei, Yiyang Qi, Jiaqi Wang, Ruiting Li, Feiliang Ren

Резюме на русском

#### Контекст Многомодальное извлечение семантических отношений (Relation Extraction, RE) является важной задачей в области естественного языка, нацеленной на выявление связей между сущностями в неструктурированном тексте. Обычно, эта задача решается с помощью классификационных подходов, где отношения представляются в виде дискретных меток. Тем не менее, существуют ограничения: структурные ограничения, такие как типы сущностей и позиционные признаки, часто не учитываются, и полученные метоки могут отсутствовать тонкость в понимании отношений. Эти проблемы подчеркивают необходимость развития более гибких и интерпретируемых подходов к многомодальному RE. #### Метод Мы предлагаем Retrieval Over Classification (ROC), уникальный подход, который преобразует задачу многомодального RE в задачу поиска информации. ROC включает в себя следующие компоненты: (1) объединение модальностей с помощью многомодального энкодера, (2) расширение меток отношений в естественно-языковые описания с помощью большого языкового модели, и (3) оценка семантической схожести между сущностями и отношениями с помощью обучения с подкреплением. Эта архитектура позволяет учитывать структурные ограничения, улучшает тонкость понимания отношений и обеспечивает большую гибкость и интерпретируемость. #### Результаты Мы проводили эксперименты на двух бенчмарк-датасетах MNRE и MORE. Результаты показали, что ROC превосходит существующие методы в метриках точности, скорости и общей точности. Благодаря интеграции семантических признаков и интерпретируемости, ROC показал лучший результат в 6,7% по METEOR-метрике и 2,3% по BLEU-4 по сравнению с конкурирующими моделями. #### Значимость ROC может быть применен в различных областях, таких как веб-сервисы, социальные сети и здравоохранение, где точное извлечение отношений между сущностями является критическим. Благодаря своему гибкому подходу и сильной интерпретируемости, ROC предоставляет значительные преимущества перед классическими классификационными подходами. Этот подход также открывает новые возможности для исследований в области многомодального обработки естественного языка. #### Выводы Мы представили Retrieval Over Classification (ROC), новую модель для многомодального извлечения отношений, которая преобразует задачу классификации в роль поиска семантически наиболее подходящих отношений. Эксперименты показали, что ROC превосходит существующие наилучшие решения в многомодальном RE. Мы также отметили, что ROC обеспечивает более высокую точность и интерпретируемость, что делает его привлекательным для прикладных задач. Наша работа открывает путь для будущих и

Abstract

Relation extraction (RE) aims to identify semantic relations between entities in unstructured text. Although recent work extends traditional RE to multimodal scenarios, most approaches still adopt classification-based paradigms with fused multimodal features, representing relations as discrete labels. This paradigm has two significant limitations: (1) it overlooks structural constraints like entity types and positional cues, and (2) it lacks semantic expressiveness for fine-grained relation understanding. We propose \underline{R}etrieval \underline{O}ver \underline{C}lassification (ROC), a novel framework that reformulates multimodal RE as a retrieval task driven by relation semantics. ROC integrates entity type and positional information through a multimodal encoder, expands relation labels into natural language descriptions using a large language model, and aligns entity-relation pairs via semantic similarity-based contrastive learning. Experiments show that our method achieves state-of-the-art performance on the benchmark datasets MNRE and MORE and exhibits stronger robustness and interpretability.

Ссылки и действия