📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Pinyuan Feng, Hossein Adeli, Wenxuan Guo, Fan Cheng, Ethan Hwang, Nikolaus Kriegeskorte
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Recent work has demonstrated that complex visual stimuli can be decoded from
human brain activity using deep generative models, helping brain science
researchers interpret how the brain represents real-world scenes. However, most
current approaches leverage mapping brain signals into intermediate image or
text feature spaces before guiding the generative process, masking the effect
of contributions from different brain areas on the final reconstruction output.
In this work, we propose NeuroAdapt...
Авторы:
Kushin Mukherjee, Donghao Ren, Dominik Moritz, Yannick Assogba
Ключевые слова: **визуальная разметка, визуально-языковые модели, анализ данных, визуальные модели, EncQA бенчмарк**
**Резюме:**
В статье представлен **EncQA**, новый бенчмарк для оценки визуально-языковых моделей (VLMs), спроектированный на основе литературы по визуальной разметке. Он охватывает шесть каналов визуальных представлений (положение, длина, площадь, количественный цвет, номинальный цвет, форма) и восемь задач (нахождение экстремумов, получение значения, выявление аномалий, фильтрация, вычисление действительного и относительного преобразований, корреляция). Исследование проведено на 9 современных VLMs, включая модели с различными размерами. Оказалось, что модели показывают различия в производительности в зависимости от визуальных представлений и задач. Также не было обнаружено улучшения производительности при увеличении размера моделей для многих пар "задача-канал визуального представления". Эти результаты показывают, что для улучшения понимания данных в виде картинок требуются конкретные стратегии, а не просто увеличение моделей и данных.
Annotation:
Multimodal vision-language models (VLMs) continue to achieve ever-improving
scores on chart understanding benchmarks. Yet, we find that this progress does
not fully capture the breadth of visual reasoning capabilities essential for
interpreting charts. We introduce EncQA, a novel benchmark informed by the
visualization literature, designed to provide systematic coverage of visual
encodings and analytic tasks that are crucial for chart understanding. EncQA
provides 2,076 synthetic question-answer...