Mitigating Easy Option Bias in Multiple-Choice Question Answering

2508.13428v1 cs.CV, cs.AI, cs.MM 2025-08-21
Авторы:

Hao Zhang, Chen Li, Basura Fernando

Резюме на русском

## Контекст Основной фокус исследования --- изучение проблемы **Easy Option Bias (EOB)** в множественном выборе визуальных вопросов-ответов (VQA). Этот биас затрагивает такие бенчмарки, как MMStar, RealWorldQA, SEED-Bench, Next-QA и STAR benchmark. Такой эффект возникает из-за того, что модели визуально-языковых моделей (VLMs) могут корректно отвечать на вопросы, используя только визуальную информацию (V) и возможные ответы (O), становится необязательным учитывать вопрос (Q). Эта проблема связана с неравномерным весом визуальных признаков: корректный ответ часто более визуально релевантен, чем неверные варианты, что служит моделям готовым "шорткатом" для выбора решения. Исследование подходит к данной проблеме как необходимость создания более сбалансированных условий для эффективного оценивания моделей VQA. ## Метод Методология исследования основывается на разработке и применении инструмента **GroundAttack**, который автоматически генерирует **hard negative options**, которые визуально аналогичны корректным ответам. Это позволяет создавать более сбалансированные наборы данных, снижая EOB в бенчмарках. Использованы данные из области VQA, включая NExT-QA и MMStar. Метод строится на автоматизированном поиске неверных ответов, которые оказываются визуально релевантными, но не соответствуют логике вопроса. Это позволяет структурировать новые данные, на которых VLMs будут оцениваться на более высоком уровне. ## Результаты Применение GroundAttack привело к созданию EOB-free версий данных для NExT-QA и MMStar. Эксперименты показали, что при использовании только визуальных и возможных ответов (V+O), съемки моделей VLMs становится сопоставимой с случайным угадыванием. При добавлении вопроса (V+Q+O) результаты улучшаются, но не достигают явного спада, что свидетельствует о необходимости более сбалансированных тестовых наборов. Удаленный EOB позволил оценить VLMs с более реалистичными условиями, выявив слабые места и направляя направления дальнейших исследований. ## Значимость Результаты исследования имеют важное значение для повышения качества тестирования моделей VQA. Устранение EOB позволяет создавать более сбалансированные данные, что приводит к более реалистичным оценкам моделей QA. Это имеет потенциал для: - Улучшения QA моделей, учитывающих визуальные признаки и логику вопроса. - Разработки более устойчивых к биазу моделей для применения в реальном мире, где бизнес-задачи часто требуют решения с более высоким уровнем целостности. - Включение новых направлений в исследованиях, связанных с созданием более честных тестов для VLMs. ## Выводы В результате работы была выявлена и мощ

Abstract

In this early study, we observe an Easy-Options Bias (EOB) issue in some multiple-choice Visual Question Answering (VQA) benchmarks such as MMStar, RealWorldQA, SEED-Bench, Next-QA, STAR benchmark and Video-MME. This bias allows vision-language models (VLMs) to select the correct answer using only the vision (V) and options (O) as inputs, without the need for the question (Q). Through grounding experiments, we attribute the bias to an imbalance in visual relevance: the correct answer typically aligns more closely with the visual contents than the negative options in feature space, creating a shortcut for VLMs to infer the answer via simply vision-option similarity matching. To fix this, we introduce GroundAttack, a toolkit that automatically generates hard negative options as visually plausible as the correct answer. We apply it to the NExT-QA and MMStar datasets, creating new EOB-free annotations. On these EOB-free annotations, current VLMs approach to random accuracies under (V+O) settings, and drop to non-saturated accuracies under (V+Q+O) settings, providing a more realistic evaluation of VLMs' QA ability. Codes and new annotations will be released soon.

Ссылки и действия