Better Supervised Fine-tuning for VQA: Integer-Only Loss

2508.11170v1 cs.CV, cs.AI 2025-08-19
Авторы:

Baihong Qian, Haotian Fan, Wenjie Liao, Yunqiu Wang, Tao Li, Junhui Cui

Резюме на русском

#### Контекст Визуально-языковые модели (Vision Language Models, VLM) широко применяются в задачах, требующих оценки визуального содержимого по установленным критериям и измерениям. Однако существующие методы в том числе страдают от неточных результатов и неэффективных механизмах вычисления потерь, что снижает точность модели и ее фокус на ключевых оценочных показателях. Это ограничивает применение VLM в задачах, требующих точной оценки визуального содержимого, например, в задачах оценки качества видео. Для решения этих проблем мы предлагаем новый подход к обучению VLM — IOVQA (Integer-only VQA), который ориентирован на улучшение модели для задач оценки качества видео. #### Метод Методология IOVQA основывается на уникальной конструкции меток и целевом механизме потерь. Для обучения в Dataset, метки адаптируются в интервал от 10 до 50, что улучшает числовую стабильность. Была представлена методика "target-mask": за счет маскирования всех значений меток, кроме первых двух цифр, модель во время тренировки фокусируется на ключевых компонентах оценки. Мы использовали Qwen2.5-VL в качестве модели для оценки качества видео и дообучили ее на созданном Dataset. Эта методика позволяет улучшить точность и консистентность решения задачи VQA. #### Результаты С помощью предложенного подхода, мы достигли высокой точности и улучшили позиционирование модели. Эксперименты проводились на данных VQualA 2025 GenAI-Bench AIGC Video Quality Assessment Challenge -- Track I. Использование IOVQA привело к значительному повышению точности и согласованности модели. Она заняла 3-е место в этом треке. Этот результат подтверждает эффективность метода IOVQA в стимулировании точности и эффективности VLM в задачах оценки видеокачества. #### Значимость Предложенный подход может применяться в различных областях, включая оценку видео, контроль качества графики и многие другие задачи, требующие точной оценки визуального содержимого. Он обеспечивает более точные и стабильные результаты, уменьшая потери в процессе обучения. Благодаря возможности направить модель на ключевые критерии оценки, IOVQA имеет потенциал для улучшения решений во многих областях. #### Выводы Предложенный метод IOVQA позволяет значительно улучшить точность и консистентность VLM в задачах оценки качества видео. Это демонстрирует, что целевая потеря с интересом на интервале и маскировкой незначительных деталей может быть эффективной для решения задач оценки видеокачества. Будущие исследования будут ориентированы на расширение этого подхода для других моделей и задач, включая сложные задачи оценки видео и развитие его применения в реальной жизни.

Abstract

With the rapid advancement of vision language models(VLM), their ability to assess visual content based on specific criteria and dimensions has become increasingly critical for applications such as video-theme consistency assessment and visual quality scoring. However, existing methods often suffer from imprecise results and inefficient loss calculation, which limit the focus of the model on key evaluation indicators. To address this, we propose IOVQA(Integer-only VQA), a novel fine-tuning approach tailored for VLMs to enhance their performance in video quality assessment tasks. The key innovation of IOVQA lies in its label construction and its targeted loss calculation mechanism. Specifically, during dataset curation, we constrain the model's output to integers within the range of [10,50], ensuring numerical stability, and convert decimal Overall_MOS to integer before using them as labels. We also introduce a target-mask strategy: when computing the loss, only the first two-digit-integer of the label is unmasked, forcing the model to learn the critical components of the numerical evaluation. After fine-tuning the Qwen2.5-VL model using the constructed dataset, experimental results demonstrate that the proposed method significantly improves the model's accuracy and consistency in the VQA task, ranking 3rd in VQualA 2025 GenAI-Bench AIGC Video Quality Assessment Challenge -- Track I. Our work highlights the effectiveness of merely leaving integer labels during fine-tuning, providing an effective idea for optimizing VLMs in quantitative evaluation scenarios.

Ссылки и действия