LLaVA-RE: Binary Image-Text Relevancy Evaluation with Multimodal Large Language Model

2508.05602v1 cs.CV 2025-08-09

Авторы:

Tao Sun, Oliver Liu, JinJin Li, Lan Ma

Резюме на русском

**Резюме** Работа **LLaVA-RE: Binary Image-Text Relevancy Evaluation with Multimodal Large Language Model** рассматривает проблему оценки значимости сочетаний изображений и текста в контексте двухклассовой оценки («Значимый» vs. «Не значимый»). Эта задача ключевая для оценки качества моделей генерирующих объединенные реплики, но сложна в решении из-за широкого диапазона форматов текста и субъективности определения значимости в различных сценариях. Авторы предлагают использовать мультимодальные большие языковые модели (MLLMs) как оптимальные средства для решения этой проблемы, так как они способны обрабатывать сложные текстовые форматы и использовать дополнительные задачные сведения. В ходе работы разработана LLaVA-RE — первая модель для двоичной оценки значимости изображения-текст, основанная на LLaVA-архитектуре. Модель использует подробные инструкции, набор мультимодальных примеров в контекстной обучающей выборке, что позволяет улучшить точность и универсальность решения. Проведенные эксперименты подтверждают высокую эффективность предложенного подхода. Данная работа является важной шагом в создании достоверных методов оценки значимости внутри моделей генерирующих объединенные модели текста и изображений.

Abstract

Multimodal generative AI usually involves generating image or text responses given inputs in another modality. The evaluation of image-text relevancy is essential for measuring response quality or ranking candidate responses. In particular, binary relevancy evaluation, i.e., ``Relevant'' vs. ``Not Relevant'', is a fundamental problem. However, this is a challenging task considering that texts have diverse formats and the definition of relevancy varies in different scenarios. We find that Multimodal Large Language Models (MLLMs) are an ideal choice to build such evaluators, as they can flexibly handle complex text formats and take in additional task information. In this paper, we present LLaVA-RE, a first attempt for binary image-text relevancy evaluation with MLLM. It follows the LLaVA architecture and adopts detailed task instructions and multimodal in-context samples. In addition, we propose a novel binary relevancy data set that covers various tasks. Experimental results validate the effectiveness of our framework.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

LLaVA-RE: Binary Image-Text Relevancy Evaluation with Multimodal Large Language Model

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ViRectify: A Challenging Benchmark for Video Reasoning Correction with Multimoda...

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with P...

ViDiC: Video Difference Captioning

Beyond the Ground Truth: Enhanced Supervision for Image Restoration

TempR1: Improving Temporal Understanding of MLLMs via Temporal-Aware Multi-Task ...

Навигация