📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Anirudh Iyengar Kaniyar Narayana Iyengar, Srija Mukhopadhyay, Adnan Qidwai, Shubhankar Singh, Dan Roth, Vivek Gupta

## Контекст В сфере обработки естественного языка и визуального распознавания существует значительный интерес к возможностям визуального логического мышления, которое заключается в том, чтобы выводить выводы на основе информации, представленной в виде графических данных, таких как графики и диаграммы. Одна из самых сложных задач в этой области заключается в том, чтобы оценить модели визуального логического мышления, которые могут работать с несколькими связанными графиками, которые встречаются в реальной жизни, например, в отчетах о научных исследованиях, финансовых анализах или панелях управления. Несмотря на то, что существуют бенчмарки, оценивающие модели визуального распознавания в отношении отдельных графиков, нет ни одного бенчмарка, который бы позволял оценивать их качество, работая с несколькими связанными графиками, которые требуют визуального и текстового понимания. Мы предлагаем **InterChart**, новый диагностический бенчмарк, который оценивает эти возможности, позволяя моделям работать с графиками, которые требуют не только интерпретации визуальных данных, но и интеграции информации из нескольких графиков. ## Метод **InterChart** состоит из трех типов задач, которые требуют визуального и текстового понимания, а также возможности работы с несколькими графиками. В первой задаче, **factual reasoning**, модели должны выполнять вывод на основе изображений отдельных графиков. Во второй задаче, **integrative analysis**, модели должны выполнять анализ, интегрируя информацию из нескольких синтетически связанных графиков. В третьей задаче, **semantic inference**, модели должны выполнять семантические выводы на основе визуально сложных графиков, которые требуют не только визуального, но и текстового понимания. Мы создали три уровня сложности, начиная с простых задач, которые требуют только визуального распознавания, и заканчивая сложными задачами, которые требуют визуального и текстового понимания, а также выполнения нескольких шагов логического мышления. Мы использовали данные, собранные из реальных графических данных, чтобы создать бенчмарк, который сильно отличается от предыдущих бенчмарков, ориентированных на отдельные графики. ## Результаты Мы проверили **InterChart** на нескольких существующих визуально-лингвистических моделях, включая те, которые считаются лидирующими в области. Мы обнаружили, что даже лучшие модели показывают существенную ухудшение качества, когда требуется интеграция информации из нескольких графиков. Мы также обнаружили, что модели показывают лучшие результаты, когда мы декомпозируем гра
Annotation:
We introduce InterChart, a diagnostic benchmark that evaluates how well vision-language models (VLMs) reason across multiple related charts, a task central to real-world applications such as scientific reporting, financial analysis, and public policy dashboards. Unlike prior benchmarks focusing on isolated, visually uniform charts, InterChart challenges models with diverse question types ranging from entity inference and trend correlation to numerical estimation and abstract multi-step reasoning...
ID: 2508.07630v1 cs.CL, cs.AI, cs.CV, I.2.7; I.2.10; I.4.10; I.7.5