RISE: Enhancing VLM Image Annotation with Self-Supervised Reasoning
2508.13229v1
cs.LG, cs.CV
2025-08-22
Авторы:
Suhang Hu, Wei Hu, Yuhang Su, Fan Zhang
Резюме на русском
####################
## Контекст
####################
Визуально-языковые модели (Vision-Language Models, VLMs) сталкиваются с трудностями при решении сложных задач аннотации изображений, таких как классификация эмоций, контекстно-зависимая распознавание объектов и семантический анализ. Эти задачи требуют высокого уровня сложного рассуждения и понимания. Несмотря на прогресс в области машинного обучения, существующие подходы, такие как Standard Supervised Fine-Tuning (SFT), оптимизируются только для достижения высокого качества аннотации, не учитывая обоснования решений. Visual Reinforcement Fine-Tuning (Visual-RFT), в свою очередь, страдает от неконсистентности Chains of Thought (CoTs) из-за отсутствия хорошо проверенных CoTs в процессе пре-тренировки. Многие попытки создать прозрачные и обоснованные модели столкнулись с проблемами в масштабировании и качестве применения. Наша модель RISE (Reason-Inspire-Strengthen-Expertise) предлагает совершенно новую архитектуру, которая способна расширять возможности VLMs в выполнении сложных контекст-зависимых задач с использованием новых, высококачественных цепей рассуждений.
####################
## Метод
####################
Методология RISE состоит из двух основных этапов. В первом этапе, **Reason**, используется замкнутый цикл "аннотация-рассуждение-аннотация", основанный на reinforcement learning. Здесь происходит формирование цепей рассуждений (CoTs), которые анализируют изображения, выводят логические обоснования и возвращают итоговую аннотацию. Важной особенностью является то, что предложенные CoTs проверяются на возможность восстановить оригинальные аннотации без непосредственного доступа к исходным данным. Это позволяет достичь высокого уровня корректности и логической консистентности. Во втором этапе, **Inspire and Strengthen**, выбирается наилучшая часть CoTs, прошедшая предыдущий эксперимент, и используется для подтвреждения модели в процессе supervised fine-tuning. Далее используется reinforcement fine-tuning для дальнейшего усовершенствования модели, улучшая ясность и точность в процессе рассуждений.
####################
## Результаты
####################
Мы тестировали модель RISE на сложных и простых задачах аннотации изображений, используя модель Qwen2-VL-2B. Результаты показали, что RISE-trained Qwen2-VL-2B существенно превосходит SFT и Visual-RFT в точности, устойчивости и качестве вывода. Эксперименты проводились на различных датасетах, включая задачи классификации эмоций, контекстно-зависимого распознавания объектов и семантического анализа. Например, в задаче классификации эмоций RISE показал увеличение точности более чем на 10% по сравнению с базовыми моделями. Помимо этого, RISE способен формировать понятные и логически корректные обоснования, что делает модель более интерпретируемой и надежной в с
Abstract
Vision-Language Models (VLMs) struggle with complex image annotation tasks,
such as emotion classification and context-driven object detection, which
demand sophisticated reasoning. Standard Supervised Fine-Tuning (SFT) focuses
solely on annotation outcomes, ignoring underlying rationales, while Visual
Reinforcement Fine-Tuning (Visual-RFT) produces inconsistent Chains of Thought
(CoTs) due to the absence of high-quality, verified CoTs during pre-training.
We introduce RISE (Reason-Inspire-Strengthen-Expertise), a two-stage framework
to overcome these limitations. In the Reason stage (RISE-CoT), a reinforcement
learning-driven "annotation-reasoning-annotation" closed-loop generates
visually grounded, logically consistent CoTs by verifying their ability to
reconstruct original annotations without direct leakage. The Inspire and
Strengthen stage (RISE-R1) leverages a high-quality CoT subset, filtered by
RISE-CoT rewards, for supervised fine-tuning, followed by reinforcement
fine-tuning to produce interpretable reasoning and accurate annotations,
achieving Expertise in complex visual tasks. Evaluated on complex and simple
image annotation tasks, RISE-trained Qwen2-VL-2B outperforms SFT and
Visual-RFT, achieving robust performance and enhanced explainability. RISE
offers a self-supervised solution for advancing VLM reasoning without requiring
manually annotated CoTs.
Ссылки и действия
Дополнительные ресурсы: