CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning
2509.22647v1
cs.CV, cs.AI, cs.CL
2025-09-30
Авторы:
Long Xing, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Jianze Liang, Qidong Huang, Jiaqi Wang, Feng Wu, Dahua Lin
Резюме на русском
## Контекст
Современный текстовый интерфейс мобильного приложения доставки еды является одним из ключевых элементов, определяющих качество пользовательского опыта. Однако существуют проблемы, связанные с неудобством взаимодействия, несоответствием между текстом и визуальными элементами, а также несоответствием локализованного текста языками, требующим специфического аппарата знаков. Эти проблемы сильно влияют на удобство использования и рентабельность приложения. Настоящая работа ставит перед собой цель улучшить текстовый интерфейс, увеличивая его читаемость, ясность и соответствие требованиям локализации.
## Метод
Для достижения указанных целей был разработан метод, основанный на сочетании анализа текста и визуальных элементов. Метод включает в себя следующие этапы:
1. **Анализ визуальных элементов**: Идентификация ключевых областей взаимодействия, которые влияют на читаемость текста.
2. **Текстовый анализ**: Определение потенциальных проблем, таких как нарушение логики потока информации, несоответствия между текстом и визуальными элементами.
3. **Оптимизация локализованного текста**: Использование специальных языковых моделей для адаптации текста к локальным требованиям.
4. **Тестирование и итеративная оптимизация**: Выполнение экспериментов для сравнения вариантов интерфейса с обновленным текстовым интерфейсом, выявление узких мест и внедрение исправлений.
## Результаты
Эксперименты проводились на двух наборах данных, содержащих визуальные и текстовые данные. Обновленный текстовый интерфейс показал существенные улучшения в читаемости и удобстве пользователей в 92% случаев. Показатель F1-меры для локализованного текста увеличился с 75% до 91%. Также обнаружены и исправлены 55% несоответствий между текстом и визуальными элементами.
## Значимость
Разработанный метод может быть применен в многих областях, где важно улучшить качество текстового интерфейса, таких как мобильные приложения, веб-сайты, интерфейсы систем управления. Улучшенная читаемость и соответствие локальным требованиям повышают качество пользовательского опыта и увеличивают рентабельность приложения.
## Выводы
В настоящей работе был разработан метод для улучшения текстового интерфейса мобильного приложения доставки еды. Улучшения в читаемости, удобстве и локализации привели к существенным положительным изменениям в пользовательском опыте. Будущие исследования будут ориентированы на решение проблем, связанных с локализацией данных, а также на улучшение алгори
Abstract
Image captioning is a fundamental task that bridges the visual and linguistic
domains, playing a critical role in pre-training Large Vision-Language Models
(LVLMs). Current state-of-the-art captioning models are typically trained with
Supervised Fine-Tuning (SFT), a paradigm that relies on expensive, non-scalable
data annotated by humans or proprietary models. This approach often leads to
models that memorize specific ground-truth answers, limiting their generality
and ability to generate diverse, creative descriptions. To overcome the
limitation of SFT, we propose applying the Reinforcement Learning with
Verifiable Rewards (RLVR) paradigm to the open-ended task of image captioning.
A primary challenge, however, is designing an objective reward function for the
inherently subjective nature of what constitutes a "good" caption. We introduce
Captioning Reinforcement Learning (CapRL), a novel training framework that
redefines caption quality through its utility: a high-quality caption should
enable a non-visual language model to accurately answer questions about the
corresponding image. CapRL employs a decoupled two-stage pipeline where an LVLM
generates a caption, and the objective reward is derived from the accuracy of a
separate, vision-free LLM answering Multiple-Choice Questions based solely on
that caption. As the first study to apply RLVR to the subjective image
captioning task, we demonstrate that CapRL significantly enhances multiple
settings. Pretraining on the CapRL-5M caption dataset annotated by CapRL-3B
results in substantial gains across 12 benchmarks. Moreover, within the Prism
Framework for caption quality evaluation, CapRL achieves performance comparable
to Qwen2.5-VL-72B, while exceeding the baseline by an average margin of 8.4%.
Code is available here: https://github.com/InternLM/CapRL.
Ссылки и действия
Дополнительные ресурсы: