AGIC: Attention-Guided Image Captioning to Improve Caption Relevance

2508.06853v1 cs.CV, cs.AI 2025-08-14

Авторы:

L. D. M. S. Sai Teja, Ashok Urlana, Pruthwik Mishra

Резюме на русском

#### Контекст Область искусственного интеллекта (ИИ) продолжает развиваться с целью решения важных задач, включая генерацию описаний изображений. Несмотря на значительные успехи в области обнаружения объектов и генерации текстов, генерирование точных и описательных каптионов для изображений остается сложной задачей. Отсутствие точности и соответствия между сгенерированным описанием и контекстом изображения является одной из основных проблем. Существующие подходы часто игнорируют важность визуальных регионов, которые имеют ключевое значение для понимания сцены. Это приводит к менее точным и нерелевантным каптионам. Наша мотивация заключается в разработке метода, который улучшит соответствие каптионов контексту изображения, усилив внимание на самых существенных частях изображения. #### Метод Мы предлагаем Attention-Guided Image Captioning (AGIC), который усиливает важные визуальные регионы напрямую в пространстве признаков для улучшения точности генерации. Модель AGIC включает в себя два основных компонента: 1) **аттенционные модули**, которые выделяют наиболее значимые части изображения; 2) **гибридную стратегию декодирования**, которая объединяет детерминированное и вероятностное семплирование для баланса между гладкостью и разнообразием генерируемых описаний. Для обучения и оценки AGIC мы использовали данные из двух наборов данных: Flickr8k и Flickr30k. Эти наборы содержат тысячи изображений с предоставленными текстовыми описаниями, представляющими различные сцены и объекты. #### Результаты В ходе экспериментов мы сравнили AGIC с несколькими современными моделями, включая Show, Attend and Tell и BUTD. Результаты показали, что AGIC показывает точность источника, совпадает или превосходит ряд современных моделей, при этом достигая более высокой скорости обработки. Мы оценивали AGIC по метрикам BLEU, METEOR, ROUGE-L и CIDEr, и подтвердили его высокую точность и хорошую разнообразие генерируемых описаний. Эти результаты демонстрируют, что AGIC является эффективным и понятным подходом к решению проблемы неточности каптионов. #### Значимость Модель AGIC может быть применена в сферах, требующих точной генерации текстов, таких как видеонаблюдение, системы рекомендаций и видеозахват. Основные преимущества AGIC заключаются в его способности улучшить точность описаний, увеличить скорость обработки и обеспечить прозрачность решения. Это делает AGIC полезным для разработчиков, которые ищут модели с высокой точностью и прозрачностью в области изображения и текста. #### Выводы Мы представили AGIC, модель, которая улучшает точность и соответствие каптионов к изобра

Abstract

Despite significant progress in image captioning, generating accurate and descriptive captions remains a long-standing challenge. In this study, we propose Attention-Guided Image Captioning (AGIC), which amplifies salient visual regions directly in the feature space to guide caption generation. We further introduce a hybrid decoding strategy that combines deterministic and probabilistic sampling to balance fluency and diversity. To evaluate AGIC, we conduct extensive experiments on the Flickr8k and Flickr30k datasets. The results show that AGIC matches or surpasses several state-of-the-art models while achieving faster inference. Moreover, AGIC demonstrates strong performance across multiple evaluation metrics, offering a scalable and interpretable solution for image captioning.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

AGIC: Attention-Guided Image Captioning to Improve Caption Relevance

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация