LLaVA-RE: Binary Image-Text Relevancy Evaluation with Multimodal Large Language Model
2508.05602v1
cs.CV
2025-08-09
Авторы:
Tao Sun, Oliver Liu, JinJin Li, Lan Ma
Резюме на русском
**Резюме**
Работа **LLaVA-RE: Binary Image-Text Relevancy Evaluation with Multimodal Large Language Model** рассматривает проблему оценки значимости сочетаний изображений и текста в контексте двухклассовой оценки («Значимый» vs. «Не значимый»). Эта задача ключевая для оценки качества моделей генерирующих объединенные реплики, но сложна в решении из-за широкого диапазона форматов текста и субъективности определения значимости в различных сценариях. Авторы предлагают использовать мультимодальные большие языковые модели (MLLMs) как оптимальные средства для решения этой проблемы, так как они способны обрабатывать сложные текстовые форматы и использовать дополнительные задачные сведения.
В ходе работы разработана LLaVA-RE — первая модель для двоичной оценки значимости изображения-текст, основанная на LLaVA-архитектуре. Модель использует подробные инструкции, набор мультимодальных примеров в контекстной обучающей выборке, что позволяет улучшить точность и универсальность решения. Проведенные эксперименты подтверждают высокую эффективность предложенного подхода. Данная работа является важной шагом в создании достоверных методов оценки значимости внутри моделей генерирующих объединенные модели текста и изображений.
Abstract
Multimodal generative AI usually involves generating image or text responses
given inputs in another modality. The evaluation of image-text relevancy is
essential for measuring response quality or ranking candidate responses. In
particular, binary relevancy evaluation, i.e., ``Relevant'' vs. ``Not
Relevant'', is a fundamental problem. However, this is a challenging task
considering that texts have diverse formats and the definition of relevancy
varies in different scenarios. We find that Multimodal Large Language Models
(MLLMs) are an ideal choice to build such evaluators, as they can flexibly
handle complex text formats and take in additional task information. In this
paper, we present LLaVA-RE, a first attempt for binary image-text relevancy
evaluation with MLLM. It follows the LLaVA architecture and adopts detailed
task instructions and multimodal in-context samples. In addition, we propose a
novel binary relevancy data set that covers various tasks. Experimental results
validate the effectiveness of our framework.
Ссылки и действия
Дополнительные ресурсы: