SPECS: Specificity-Enhanced CLIP-Score for Long Image Caption Evaluation

2509.03897v1 cs.CV, cs.CL 2025-09-06

Авторы:

Xiaofu Chen, Israfel Salazar, Yova Kementchedjhieva

Резюме на русском

## Контекст В последние годы возрастает интерес к разработке систем, способных формировать подробные и точные описания изображений в текстовом виде. Однако существующие метрики, используемые для оценки качества таких описаний, начинают продемонстрировать ограничения. Н-грам-based метрики, хотя и эффективны в быстрой оценке сходства с текстом, не могут отразить полноту семантического смысла. Метрики Representational Similarity (RS), которые предназначены для точной оценки логики и семантики, сталкиваются с проблемой высокой вычислительной сложности и низким корреляционным показателем с оценками людей. Улучшения в технической стороне не привели к их популярности. Лишь LLM-based метрики (например, CLIPScore) доказали свою эффективность, но остаются дорогостоящими для широкого применения в процессе разработки и тренировки моделей. ## Метод SPECS (Specificity-Enhanced CLIPScore) предлагается как решение данных проблем. Это усовершенствованная версия CLIP, которая нацелена на улучшение оценки точности и специфичности описаний. SPECS вводит дополнительный тренировочный функционал, который поощряет модель признаковая спецификация корректных фактов и отклонение от неточностей. Метод призван обеспечить высокую корреляцию с оценками людей при значительном сокращении вычислительных затрат по сравнению с прямыми LLM-based метриками. ## Результаты Сравнительные эксперименты проводились на датасетах с длинными текстовыми описаниями изображений. SPECS демонстрирует высокую корреляцию с оценками людей, которая сопоставима с LLM-based метриками. Однако SPECS показывает значительно меньшую вычислительную сложность и требует меньших ресурсов, что делает его привлекательным для широкого использования в оптимизации и тренировке изображений-описаний. ## Значимость SPECS может быть применено в различных областях, включая развитие систем обработки естественного языка, компьютерного зрения и машинного обучения. Он предоставляет практическое, эффективное и доступное решение для точного оценивания длинных описаний изображений. SPECS также открывает пути к будущим исследованиям в области улучшения RS-метрик и их интеграции с моделями для естественного языка. ## Выводы SPECS является революционным шагом в повышении точности и эффективности оценки длинных описаний изображений. Он выполняет роль эффективного альтернативного LLM-based метрик, сохраняя их высокую корреляцию с оценками людей. Дальнейшие исследования могут рассматривать расширение SPECS для других типов задач, таких как референс-based оценка или мультимодальные задачи.

Abstract

As interest grows in generating long, detailed image captions, standard evaluation metrics become increasingly unreliable. N-gram-based metrics though efficient, fail to capture semantic correctness. Representational Similarity (RS) metrics, designed to address this, initially saw limited use due to high computational costs, while today, despite advances in hardware, they remain unpopular due to low correlation to human judgments. Meanwhile, metrics based on large language models (LLMs) show strong correlation with human judgments, but remain too expensive for iterative use during model development. We introduce SPECS (Specificity-Enhanced CLIPScore), a reference-free RS metric tailored to long image captioning. SPECS modifies CLIP with a new objective that emphasizes specificity: rewarding correct details and penalizing incorrect ones. We show that SPECS matches the performance of open-source LLM-based metrics in correlation to human judgments, while being far more efficient. This makes it a practical alternative for iterative checkpoint evaluation during image captioning model development.Our code can be found at https://github.com/mbzuai-nlp/SPECS.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SPECS: Specificity-Enhanced CLIP-Score for Long Image Caption Evaluation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация