ReFineG: Synergizing Small Supervised Models and LLMs for Low-Resource Grounded Multimodal NER

2509.10975v1 cs.IR, cs.CL 2025-09-17
Авторы:

Jielong Tang, Shuang Wang, Zhenxing Wang, Jianxing Yu, Jian Yin

Резюме на русском

## Контекст Grounded Multimodal Named Entity Recognition (GMNER) представляет собой расширение традиционной NER, которое включает в себя детектирование текстовых фраз и их графическое упоминание в изображениях. Хотя существующие супервизорные методы показывают высокую точность, они требуют дорогостоящих мультимодальных аннотаций и часто сталкиваются с проблемами в узких, low-resource диапазонах. Использование Multimodal Large Language Models (MLLMs) обеспечивает сильную общая обустройствованность, но они страдают от Domain Knowledge Conflict, когда модель генерирует ненужные или неточные элементы для domain-specific entities. Наша цель заключается в том, чтобы создать решение, которое будет эффективно справляться с этими проблемами в низкоресурсных областях. ## Метод Мы предлагаем ReFineG, трехэтапную систему, которая объединяет небольшие супервизорные модели с замороженными MLLMs. В первой стадии, **Training Stage**, мы используем стратегию синтеза данных для NER, которая позволяет передавать LLM-знания в small-scale supervised модели, избегая Domain Knowledge Conflict. Во второй стадии, **Refinement Stage**, мы применяем неопределенность-ориентированный механизм, который сохраняет уверенные предсказания модели и передает более неуверенные на MLLM для дополнительной обработки. На третьей стадии, **Grounding Stage**, мы совершаем multimodal context selection, используя analogical reasoning для улучшения графического упоминания. ## Результаты Мы провели эксперименты на CCKS2025 GMNER Shared Task, где ReFineG достигла F1-меры в 0.6461, опередив многие соревнования. Выполняя требования к low-resource domain, ReFineG показала сильную эффективность с ограниченными аннотациями. Мы также проверили эффективность каждого этапа через ряд тестов и анализировали точность в различных условиях. ## Значимость ReFineG может применяться в различных сферах, где требуется нейроизвлечение с мультимодальным контекстом, такие как медицина, юриспруденция и high-tech. Наши результаты показывают, что данный подход может значительно улучшить результаты в узких областях, где данные и аннотации ограниченны. Преимущества ReFineG включают адаптивность, эффективность при работе с небольшими данными и сильную графическую гранулярность. Будущие исследования будут сфокусированы на расширении моделей для более широких областей и улучшении технологий grounding. ## Выводы ReFineG показала свою эффективность в низкоресурсных GMNER-задачах, доказав силу трёхэтапного синергетического подхода. Мы выделили себя среди конкурентов на CCKS2025 GMNER Shared Task. Наше исследование открывает новые возможности для применения AI в low-resource domains, а также подчеркивает важность совместной работы между small supervised models и MLLMs. Мы планируем расширить ReFineG для дополнительных типов multimodal data и улучшить её scalability

Abstract

Grounded Multimodal Named Entity Recognition (GMNER) extends traditional NER by jointly detecting textual mentions and grounding them to visual regions. While existing supervised methods achieve strong performance, they rely on costly multimodal annotations and often underperform in low-resource domains. Multimodal Large Language Models (MLLMs) show strong generalization but suffer from Domain Knowledge Conflict, producing redundant or incorrect mentions for domain-specific entities. To address these challenges, we propose ReFineG, a three-stage collaborative framework that integrates small supervised models with frozen MLLMs for low-resource GMNER. In the Training Stage, a domain-aware NER data synthesis strategy transfers LLM knowledge to small models with supervised training while avoiding domain knowledge conflicts. In the Refinement Stage, an uncertainty-based mechanism retains confident predictions from supervised models and delegates uncertain ones to the MLLM. In the Grounding Stage, a multimodal context selection algorithm enhances visual grounding through analogical reasoning. In the CCKS2025 GMNER Shared Task, ReFineG ranked second with an F1 score of 0.6461 on the online leaderboard, demonstrating its effectiveness with limited annotations.

Ссылки и действия