ChartGaze: Enhancing Chart Understanding in LVLMs with Eye-Tracking Guided Attention Refinement

2509.13282v1 cs.CL, cs.CV, cs.LG 2025-09-18

Авторы:

Ali Salamatian, Amirhossein Abaskohi, Wan-Cyuan Fan, Mir Rayat Imtiaz Hossain, Leonid Sigal, Giuseppe Carenini

Резюме на русском

#### Контекст Картинки являются важной визуальной формой представления информации, играя ключевую роль в обмене информацией и принятии решений. Несмотря на то, что Large Vision-Language Models (LVLMs) демонстрируют последовательные улучшения во взаимодействии с картинками, при работе с задачами картиночного обращения (CQA) возникают проблемы. Одним из главных критериев является внимание моделей: часто они следят за незначимыми или некорректными областями картинки, что снижает точность и читаемость. Это говорит об ограничениях в текущих моделях и показывает необходимость усовершенствований. Наша мотивация заключается в создании новых технологий, которые позволят LVLMs более точно следовать человеческим газовым паттернам, улучшая качество решения задач. #### Метод Для изучения этой проблемы мы разрабатываем методологию ChartGaze, которая включает в себя сбор данных о газах человека во время выполнения задач по разбору картинок. Мы используем техники газового слежения (eye-tracking), чтобы регистрировать и анализировать точки внимания людей во время работы с картинкой. Для сравнения мы проводим эксперименты с LVLMs, которые применяются к той же задаче. Основным техническим решением является гибкое рефининиг привязки внимания моделей к значимым областям, основываясь на газах человека. Эта гибкость позволяет выравнивать модельное внимание с газами, увеличивая точность и понятность. #### Результаты Мы провели эксперименты с несколькими моделями LVLMs на данных ChartGaze. Наши результаты показывают, что применение газового рефининига приводит к существенным улучшениям. В частности, LVLMs показывают улучшение точности ответов на вопросы (CQA) до 2.56%, сравниваясь с базовыми версиями, не использующими газовую рефининигацию. Мы также провели сравнение субъективных результатов между гуманными и модельными газами, которое подтвердило, что модели, использующие ChartGaze, более точно следуют человеческим газам и, следовательно, демонстрируют более высокий уровень точности и читаемости. #### Значимость Наша работа имеет большой потенциал в различных областях, где качество интеракции с картинками играет ключевую роль. Например, в области медицины, управления проектами, финансов и образования модели, улучшенные с помощью ChartGaze, могут дать более точные и понятные ответы. Основные преимущества заключаются в увеличении точности, более естественных и понятных ответов, а также снижении возможности человеческого вмешательства для исправления модели. Эти достижения открывают новые пути к улучшению технологий работы с картинками, увеличивая их ценность в реаль

Abstract

Charts are a crucial visual medium for communicating and representing information. While Large Vision-Language Models (LVLMs) have made progress on chart question answering (CQA), the task remains challenging, particularly when models attend to irrelevant regions of the chart. In this work, we present ChartGaze, a new eye-tracking dataset that captures human gaze patterns during chart reasoning tasks. Through a systematic comparison of human and model attention, we find that LVLMs often diverge from human gaze, leading to reduced interpretability and accuracy. To address this, we propose a gaze-guided attention refinement that aligns image-text attention with human fixations. Our approach improves both answer accuracy and attention alignment, yielding gains of up to 2.56 percentage points across multiple models. These results demonstrate the promise of incorporating human gaze to enhance both the reasoning quality and interpretability of chart-focused LVLMs.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ChartGaze: Enhancing Chart Understanding in LVLMs with Eye-Tracking Guided Attention Refinement

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

TWEO: Transformers Without Extreme Outliers Enables FP8 Training And Quantizatio...

DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generati...

Words That Make Language Models Perceive

FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on ...

11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspi...

Навигация