Retrieval over Classification: Integrating Relation Semantics for Multimodal Relation Extraction
2509.21151v1
cs.CL, cs.IR
2025-09-27
Авторы:
Lei Hei, Tingjing Liao, Yingxin Pei, Yiyang Qi, Jiaqi Wang, Ruiting Li, Feiliang Ren
Резюме на русском
#### Контекст
Многомодальное извлечение семантических отношений (Relation Extraction, RE) является важной задачей в области естественного языка, нацеленной на выявление связей между сущностями в неструктурированном тексте. Обычно, эта задача решается с помощью классификационных подходов, где отношения представляются в виде дискретных меток. Тем не менее, существуют ограничения: структурные ограничения, такие как типы сущностей и позиционные признаки, часто не учитываются, и полученные метоки могут отсутствовать тонкость в понимании отношений. Эти проблемы подчеркивают необходимость развития более гибких и интерпретируемых подходов к многомодальному RE.
#### Метод
Мы предлагаем Retrieval Over Classification (ROC), уникальный подход, который преобразует задачу многомодального RE в задачу поиска информации. ROC включает в себя следующие компоненты: (1) объединение модальностей с помощью многомодального энкодера, (2) расширение меток отношений в естественно-языковые описания с помощью большого языкового модели, и (3) оценка семантической схожести между сущностями и отношениями с помощью обучения с подкреплением. Эта архитектура позволяет учитывать структурные ограничения, улучшает тонкость понимания отношений и обеспечивает большую гибкость и интерпретируемость.
#### Результаты
Мы проводили эксперименты на двух бенчмарк-датасетах MNRE и MORE. Результаты показали, что ROC превосходит существующие методы в метриках точности, скорости и общей точности. Благодаря интеграции семантических признаков и интерпретируемости, ROC показал лучший результат в 6,7% по METEOR-метрике и 2,3% по BLEU-4 по сравнению с конкурирующими моделями.
#### Значимость
ROC может быть применен в различных областях, таких как веб-сервисы, социальные сети и здравоохранение, где точное извлечение отношений между сущностями является критическим. Благодаря своему гибкому подходу и сильной интерпретируемости, ROC предоставляет значительные преимущества перед классическими классификационными подходами. Этот подход также открывает новые возможности для исследований в области многомодального обработки естественного языка.
#### Выводы
Мы представили Retrieval Over Classification (ROC), новую модель для многомодального извлечения отношений, которая преобразует задачу классификации в роль поиска семантически наиболее подходящих отношений. Эксперименты показали, что ROC превосходит существующие наилучшие решения в многомодальном RE. Мы также отметили, что ROC обеспечивает более высокую точность и интерпретируемость, что делает его привлекательным для прикладных задач. Наша работа открывает путь для будущих и
Abstract
Relation extraction (RE) aims to identify semantic relations between entities
in unstructured text. Although recent work extends traditional RE to multimodal
scenarios, most approaches still adopt classification-based paradigms with
fused multimodal features, representing relations as discrete labels. This
paradigm has two significant limitations: (1) it overlooks structural
constraints like entity types and positional cues, and (2) it lacks semantic
expressiveness for fine-grained relation understanding. We propose
\underline{R}etrieval \underline{O}ver \underline{C}lassification (ROC), a
novel framework that reformulates multimodal RE as a retrieval task driven by
relation semantics. ROC integrates entity type and positional information
through a multimodal encoder, expands relation labels into natural language
descriptions using a large language model, and aligns entity-relation pairs via
semantic similarity-based contrastive learning. Experiments show that our
method achieves state-of-the-art performance on the benchmark datasets MNRE and
MORE and exhibits stronger robustness and interpretability.
Ссылки и действия
Дополнительные ресурсы: