ChartGaze: Enhancing Chart Understanding in LVLMs with Eye-Tracking Guided Attention Refinement
2509.13282v1
cs.CL, cs.CV, cs.LG
2025-09-18
Авторы:
Ali Salamatian, Amirhossein Abaskohi, Wan-Cyuan Fan, Mir Rayat Imtiaz Hossain, Leonid Sigal, Giuseppe Carenini
Резюме на русском
#### Контекст
Картинки являются важной визуальной формой представления информации, играя ключевую роль в обмене информацией и принятии решений. Несмотря на то, что Large Vision-Language Models (LVLMs) демонстрируют последовательные улучшения во взаимодействии с картинками, при работе с задачами картиночного обращения (CQA) возникают проблемы. Одним из главных критериев является внимание моделей: часто они следят за незначимыми или некорректными областями картинки, что снижает точность и читаемость. Это говорит об ограничениях в текущих моделях и показывает необходимость усовершенствований. Наша мотивация заключается в создании новых технологий, которые позволят LVLMs более точно следовать человеческим газовым паттернам, улучшая качество решения задач.
#### Метод
Для изучения этой проблемы мы разрабатываем методологию ChartGaze, которая включает в себя сбор данных о газах человека во время выполнения задач по разбору картинок. Мы используем техники газового слежения (eye-tracking), чтобы регистрировать и анализировать точки внимания людей во время работы с картинкой. Для сравнения мы проводим эксперименты с LVLMs, которые применяются к той же задаче. Основным техническим решением является гибкое рефининиг привязки внимания моделей к значимым областям, основываясь на газах человека. Эта гибкость позволяет выравнивать модельное внимание с газами, увеличивая точность и понятность.
#### Результаты
Мы провели эксперименты с несколькими моделями LVLMs на данных ChartGaze. Наши результаты показывают, что применение газового рефининига приводит к существенным улучшениям. В частности, LVLMs показывают улучшение точности ответов на вопросы (CQA) до 2.56%, сравниваясь с базовыми версиями, не использующими газовую рефининигацию. Мы также провели сравнение субъективных результатов между гуманными и модельными газами, которое подтвердило, что модели, использующие ChartGaze, более точно следуют человеческим газам и, следовательно, демонстрируют более высокий уровень точности и читаемости.
#### Значимость
Наша работа имеет большой потенциал в различных областях, где качество интеракции с картинками играет ключевую роль. Например, в области медицины, управления проектами, финансов и образования модели, улучшенные с помощью ChartGaze, могут дать более точные и понятные ответы. Основные преимущества заключаются в увеличении точности, более естественных и понятных ответов, а также снижении возможности человеческого вмешательства для исправления модели. Эти достижения открывают новые пути к улучшению технологий работы с картинками, увеличивая их ценность в реаль
Abstract
Charts are a crucial visual medium for communicating and representing
information. While Large Vision-Language Models (LVLMs) have made progress on
chart question answering (CQA), the task remains challenging, particularly when
models attend to irrelevant regions of the chart. In this work, we present
ChartGaze, a new eye-tracking dataset that captures human gaze patterns during
chart reasoning tasks. Through a systematic comparison of human and model
attention, we find that LVLMs often diverge from human gaze, leading to reduced
interpretability and accuracy. To address this, we propose a gaze-guided
attention refinement that aligns image-text attention with human fixations. Our
approach improves both answer accuracy and attention alignment, yielding gains
of up to 2.56 percentage points across multiple models. These results
demonstrate the promise of incorporating human gaze to enhance both the
reasoning quality and interpretability of chart-focused LVLMs.
Ссылки и действия
Дополнительные ресурсы: