📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Alberto Compagnoni, Davide Caffagni, Nicholas Moratelli, Lorenzo Baraldi, Marcella Cornia, Rita Cucchiara
## Контекст
Multimodal Large Language Models (MLLMs) являются мощным инструментом, объединяющим в себе возможности обработки естественного языка и компьютерного зрения. Они доказали свою эффективность в решении различных задач, но имеют значительную проблему — тенденцию к генерированию ответов, которые не имеют отражения в визуальном вводе. Это проблема, известная как "галлюцинации", значительно ослабляет доверие пользователей к MLLMs. Наличие такого явления говорит о несоответствии данных, использованных моделью во время обучения, и реальности, в которой она применяется. Этот факт требует внедрения эффективных методов, способных уменьшить частоту галлюцинаций.
## Метод
Метод, предложенный в работе, основывается на использовании CHAIR (Combined Hallucination Assessment Index for Ranking), метрики, которая позволяет оценивать степень галлюцинаций в ответах модели. Модель CHAIR сравнивает два ответа на одну задачу: один галлюцинацией пораженный, другой — нет. Оценка производится на основе различных критериев, например, точности деталей и соответствия изображения. Это позволяет сформировать предпочтение к негаллюцинационным ответам. Далее, эти предпочтения используются для тренировки модели с помощью Direct Preference Optimization (DPO), методики, которая направляет модель на максимизацию выбранного показателя. Такой подход значительно упрощает процесс, так как не требует специальных предварительных шагов, таких как синтез синтетических данных.
## Результаты
Метод был проверен на нескольких тестах, основанных на различных базах данных. Эксперименты показали, что применение CHAIR-DPO значительно уменьшает частоту галлюцинаций в ответах модели. Метрики, полученные в этих экспериментах, сравнивались с другими подходами, и результаты CHAIR-DPO показали значительное преимущество в сокращении галлюцинаций. Это доказывает эффективность методики в повышении точности и достоверности ответов в сценариях, требующих интеграции текстов и изображений.
## Значимость
Эффективность CHAIR-DPO продемонстрирована на различных задачах, включая обработку изображений и текстов для вывода понятных ответов. Метод может быть применен в различных областях, связанных с компьютерным зрением и естественным языком, таких как распознавание объектов, генерация текстов, анализ изображений. Основное преимущество CHAIR-DPO заключается в его гибкости и простоте — он может быть настроен для различных моделей без необходимости дополнительных синтетических данных. Это может привести к более достоверным и надежным решениям в технологиях, основанных на multimodal LLM.
## Выводы
В ходе исследования был пред
Annotation:
Multimodal Large Language Models (MLLMs) emerge as a unified interface to
address a multitude of tasks, ranging from NLP to computer vision. Despite
showcasing state-of-the-art results in many benchmarks, a long-standing issue
is the tendency of MLLMs to hallucinate, that is to generate answers to the
user's query that are not reflected in the visual input. In this paper, we
address the problem of hallucinations as an alignment problem, seeking to steer
the MLLM so that it prefers generating con...
Авторы:
Phu-Vinh Nguyen, Tan-Hanh Pham, Chris Ngo, Truong Son Hy
## Контекст
Современные визуальные модели, такие как обнаруживающие и классифицирующие модели, стремятся к улучшению производительности с помощью метрик, таких как точность, IoU и mAP. Однако меньше внимания уделяется их объяснению, из-за сложности применения методов значимых объяснений (explainable AI, xAI) в сфере визуальных моделей. Хотя на сегодняшний день существуют методы, объясняющие поведение моделей на отдельных примерах, менее распространенны те, которые могут объяснить общий закономерности моделей, наблюдаемые после их применения к большим данным. Это является важной проблемой, так как понимание общих трендов моделей важно для идентификации биаз и раскрытия их вкрапленных предрассудков. Используя модели Vision-Language, предлагается новая архитектура, позволяющая объяснять модели визуального анализа как на уровне отдельных примеров, так и на уровне целых данных. Это расширяет потенциал визуальных моделей, превращая их в более транспарентные и надежные инструменты для анализа изображений.
## Метод
Предлагаемая пайплайн-архитектура включает в себя несколько этапов:
1. **Предобучение модели Vision-Language**: Используется предобученная модель, которая умеет понимать общие связи между текстом и изображениями.
2. **Построение генеративного моделирования**: Генеративная модель строит вероятностные распределения слов и изображений, позволяя модели визуального анализа увидеть соответствия в разных контекстах.
3. **Объяснение на уровне отдельных примеров**: Для каждого отдельного изображения используется модель Vision-Language для сгенерированного текста, объясняющего причины, по которым модель пришла к определенному выводу.
4. **Объяснение на уровне данных**: Модель также может объяснять глобальные тренды в данных, найдя общие шаблоны и направления в тех или иных выводах модели.
5. **Интеграция с xAI**: Методы xAI используются для дополнительного разъяснения и выявления тонкостей, которые могут быть пропущены в простых объяснениях.
## Результаты
Результаты получены на данных из широко известных баз данных, таких как ImageNet и PASCAL VOC. Метод был применен для объяснения различных визуальных моделей, включая модели обнаружения объектов и классификаторов. На уровне отдельных примеров показаны случаи, где модель делает неверные выводы, и предоставлены текстовые объяснения, помогающие понимать причины такого поведения. На уровне целых данных были выявлены глобальные шаблоны, включая сильные и слабые стороны моделей. Это позволило проверить полученные результаты и подтвердить, что модель не испытывает значительных биаз, кроме тех, которые были заложены при раз
Annotation:
The development of many vision models mainly focuses on improving their
performance using metrics such as accuracy, IoU, and mAP, with less attention
to explainability due to the complexity of applying xAI methods to provide a
meaningful explanation of trained models. Although many existing xAI methods
aim to explain vision models sample-by-sample, methods explaining the general
behavior of vision models, which can only be captured after running on a large
dataset, are still underexplored. Furth...
Авторы:
Zhuoran Yu, Yong Jae Lee
## Контекст
Многомодальные большие языковые модели (MLLMs) показали выдающиеся результаты при решении задач смешанных визуальных и текстовых признаков. Однако их внутренние механизмы обработки данных и разделение функциональных ролей между слоями остаются нередко затруднительными для анализа. Это приводит к широкой мотивации изучить, как MLLMs обрабатывают визуальные и текстовые сигналы при решении задач, и какие роли выполняют различные слои модели в этом процессе.
## Метод
Мы предлагаем пробинг-фреймворк для изучения процессов внутри MLLMs. Для этого мы обучаем линейные классификаторы, которые прогнозируют тонко уточненные визуальные классы (например, различные породы собак) из визуальных токенов, извлеченных на каждом слое. Мы используем стандартизированный вопрос-анкер, который помогает сравнить результаты в разных условиях. Для понимания ролей слоев, мы строим эксперименты под вариациями управляемых запросов: (1) **lexical variants**, тестирующих чувствительность к лексическим изменениям; (2) **semantic negation variants**, демонстрирующие изменения ответа при изменении визуального концепта в запросе; и (3) **output format variants**, которые меняют формат ответа, но сохраняют логику рассуждения. Мы применяем наш фреймворк к моделям LLaVA-1.5, LLaVA-Next-LLaMA-3 и Qwen2-VL.
## Результаты
Наши результаты показывают, что MLLMs состоят из трех основных слоев-этапов, каждый из которых выполняет специфическую функцию:
- **Early layers (visual grounding)**: эти слои активно участвуют в понимании и описании визуальных объектов, например, их цвета, формы и расположения.
- **Middle layers (lexical integration and semantic reasoning)**: эти слои объединяют визуальные с признаками языка, выполняя семантическую интеграцию и некоторые базовые задачи логического моделирования.
- **Final layers (task-specific output decoding)**: эти слои отвечают за формирование завершенного ответа, отталкиваясь от результатов работы предыдущих слоев.
Мы также обнаружили, что, несмотря на вариации визуальной токенизации, данных для инструктивного тюнинга и разных предварительных тренировок, основная структура слоев остается стабильной, но их функциональное распределение между этапами может изменяться в зависимости от базового архитектурного дизайна модели.
## Значимость
Наша работа дает полное понимание, как MLLMs работают на задачах, включающих обработку визуальных и текстовых данных. Она показывает, что каждый слой модели имеет свою специфическую роль, и что эти роли могут меняться в зависимости от архитектуры. Наши результаты могут быть удобны для внедрения в системы-анализаторы, а также могут помочь улучшить проектирование новых MLL
Annotation:
Multimodal Large Language Models (MLLMs) have demonstrated strong performance
across a wide range of vision-language tasks, yet their internal processing
dynamics remain underexplored. In this work, we introduce a probing framework
to systematically analyze how MLLMs process visual and textual inputs across
layers. We train linear classifiers to predict fine-grained visual categories
(e.g., dog breeds) from token embeddings extracted at each layer, using a
standardized anchor question. To uncove...
Авторы:
Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, Vaishaal Shankar, Alexander Toshev, Oncel Tuzel, Hadi Pouransari
## Контекст
MobileCLIP — это семейство моделей для работы с изображениями и текстом с низкой задержкой и низким потреблением памяти, которые достигают высокой точности в сценариях zero-shot. Они основываются на фундаментальных моделях изображений и текста, таких как CLIP, и расширяют их возможности, используя мультимодальный усиленный тренировочный подход. Этот подход позволяет эффективно использовать множество генераторов текстовых описаний и моделей CLIP в качестве учителей для знаний. Тем не менее, существуют проблемы, связанные с оптимальным использованием этих моделей, выбором параметров тренировки и достижением того, чтобы модели были одновременно эффективными, скоростными и универсальными в разных сценариях. MobileCLIP2 построена для решения этих проблем, улучшая технологии усиления и знаний в рамках мультимодального развития моделей.
## Метод
MobileCLIP2 строится на предыдущей модели MobileCLIP, но добавляет дополнительные усовершенствования в области усиления знаний. Мы улучшили CLIP-учителей, обучая их на DFN-датасете, и также улучшили капшн-генераторы, которые были применены в мультимодальном усилении. Мы вводим новую аббревиатуру DFN, которая оптимизирует синтез данных и применяет высококачественные капшн-генераторы. Также, мы использовали новую технику для улучшения обучения с помощью создания синтетических данных, которые могут быть использованы вместе с оригинальными текстовыми описаниями, что приводит к более широкому спектру возможностей. Мы также добавили температурное тюнинг в процессе контрастного знаний, что помогает модели быть более точной в своих оценках.
## Результаты
Мы провели эксперименты, используя MobileCLIP2-B и MobileCLIP2-S4, которые улучшили ImageNet-1k zero-shot-точность на 2.2% и 3.5% соответственно. Мы также сравнили результаты с SigLIP-SO400M/14, установив, что MobileCLIP2-S4 превосходит его в ImageNet-1k zero-shot-точности на 2.5 раз при уменьшенной емкости на 2 раза. Мы также провели анализ абляции, в котором обнаружили значительную эффективность температурного тюнинга в контрастном знании, как один из ключевых факторов улучшения точности. Кроме того, мы обнаружили, что генераторы капшнов, которые были применены в тренировке, способствуют более высокой разнообразию текстовых описаний.
## Значимость
Модели MobileCLIP2 имеют широкие возможности для применения в различных областях, включая компьютерное зрение, NLP и мультимодальные приложения. Улучшенная точность zero-shot и низкая задержка делают их удобными для использования в мобильных устройствах и реальном времени. Более того, наш подход к созданию новых му
Annotation:
Foundation image-text models such as CLIP with zero-shot capabilities enable
a wide array of applications. MobileCLIP is a recent family of image-text
models at 3-15ms latency and 50-150M parameters with state-of-the-art zero-shot
accuracy. The main ingredients in MobileCLIP were its low-latency and light
architectures and a novel multi-modal reinforced training that made knowledge
distillation from multiple caption-generators and CLIP teachers efficient,
scalable, and reproducible. In this pape...
Авторы:
Paritosh Parmar, Eric Peh, Basura Fernando
#### Контекст
Видео-вопросание (VideoQA) является ключевым заданием в области обработки видео, которое призвано извлечь обоснованные ответы на вопросы, основанные на видеоконтенте. Несмотря на существующие модели, они часто сталкиваются с проблемами в высоком рассуждении и логическом обосновании ответов. Это возникает из-за скрытого характера моделей, которые используют опасные, монолитные трубы, соединяющие интерпретацию видео, казуальное выводение и генерацию ответов. Такие подходы отличаются неэффективностью и непрозрачностью, что вносит существенные ограничения на интерпретируемость и надежность моделей. Мы предлагаем новый модульный подход, который разделяет работу на казуальные цепочки в качестве интерпретируемых посредников. Этот подход вдохновлен моделями человеческого рассудка и позволяет создавать логически корректные и понятные ответы.
#### Метод
Предлагаемая модель, ChainReaction!, состоит из двух стадий: **Causal Chain Extractor (CCE)** и **Causal Chain-Driven Answerer (CCDA)**. CCE является модулем, который извлекает упрощенные и логически точные цепочки причин-следствий из пар видео и вопроса. Эти цепочки используются в качестве посредников для обоснованного вывода. CCDA, в свою очередь, генерирует ответы, ориентируясь на цепочки. Мы также предлагаем новую методику генерации качественных причинно-следственных цепочек с использованием бо LLM. Это позволяет улучшить качество данных для обучения моделей, которым недостаточно естественно-языковых причинных цепочек в существующих коллекциях. Мы также предлагаем новый показатель CauCo для оценки качества ответов на видеозадачу в свете причинных отношений.
#### Результаты
Мы провели эксперименты на трех крупных бенчмарках в области VideoQA, включая ShARC, SocialVideoQA и VQA-HIC. Наш подход показал значительные улучшения по сравнению с состоянием искусства в трех областях: точность ответов, вывод и интерпретируемость. Модель ChainReaction! обеспечила дополнительные выигрыши в понимании и логическом обосновании ответов. Также, модель демонстрирует повышенный уровень повторного использования в разных сценариях, таких как урокные видео, социальные ролики и трансляции спортивных событий. Эта гибкость указывает на перспективу CCE в качестве модуля для причинного вывода в разных областях.
#### Значимость
Наш подход имеет относительную значимость в нескольких областях. Во-первых, он предлагает передовые результаты в VideoQA, особенно в задачах, требующих высокого уровня анализа и обоснования. Во-вторых, он позволяет создавать ответы, имеющие теоретический языковой формат, что увеличивает надежность и
Annotation:
Existing Causal-Why Video Question Answering (VideoQA) models often struggle
with higher-order reasoning, relying on opaque, monolithic pipelines that
entangle video understanding, causal inference, and answer generation. These
black-box approaches offer limited interpretability and tend to depend on
shallow heuristics. We propose a novel, modular framework that explicitly
decouples causal reasoning from answer generation, introducing natural language
causal chains as interpretable intermediate ...
Авторы:
Ranjan Sapkota, Manoj Karkee
#### Контекст
Современные глубокие узлы для обнаружения объектов в области искусственного интеллекта развиваются на фундаменте богатого сочетания технологий в области компьютерного зрения и естественного языкового процессинга. Однако существуют значительные проблемы, связанные с нехваткой универсальных решений, которые могут обрабатывать данные, сочетающие текст и изображение. Традиционные системы часто сталкиваются с ограничениями в области контекстной логики, адаптивности и общей универсальности. Это создает мотивацию для развития более мощных и гибких систем, которые могут обеспечивать более точное и контекстуально обоснованное обнаружение объектов. Эти проблемы дают основание для исследования области визуально-языковых моделей (VLMs), использующихся в обнаружении объектов.
#### Метод
Разработка подходов к обнаружению объектов с использованием VLMs включает сложную архитектуру, которая объединяет мощные модели машинного перевода и компьютерного зрения. Методология включает в себя несколько этапов:
1. **Интеграция визуальных и текстовых данных**: Функционирование VLMs основывается на обучении моделей, которые могут понимать и объединять текст и изображение. Это достигается с помощью многомодальных сетей, обеспечивающих обработку совместного контекста.
2. **Архитектурные новинки**: Например, модели с использованием трансформеров, которые обеспечивают эффективное обработку входных данных и выравнивание визуальных и языковых контекстов.
3. **Обучение моделей**: Обучение VLMs включает в себя многоуровневые слои, регулирующие всё от обработки изображений до генерации языковых описаний.
4. **Отзывчивость и универсальность**: Эти модели развиваются для обеспечения высокой универсальности и реагирования на различные сценарии.
#### Результаты
Эксперименты показывают, что VLMs обеспечивают высокую точность и квалитиативную смену в области обнаружения объектов. Особенно значимы результаты в области локализации и сегментации объектов, где VLMs достигают значительного прогресса по сравнению с традиционными методами. Используемые данные включают выборки образов с текстовыми описаниями, охватывающие различные сценарии. Результаты показывают, что VLMs обеспечивают более высокую точность и гибкость в сложных сценариях, таких как неоднородные среды и разнообразные объекты.
#### Значимость
Появление VLMs на рынке имеет широкую значимость в сферах, где необходима точность и контекстуальная логика в обнаружении объектов. Эти модели могут быть применены в таких областях, как ав
Annotation:
The fusion of language and vision in large vision-language models (LVLMs) has
revolutionized deep learning-based object detection by enhancing adaptability,
contextual reasoning, and generalization beyond traditional architectures. This
in-depth review presents a structured exploration of the state-of-the-art in
LVLMs, systematically organized through a three-step research review process.
First, we discuss the functioning of vision language models (VLMs) for object
detection, describing how thes...
Авторы:
Seongheon Park, Yixuan Li
## Контекст
Объектная маскировка (object hallucination) в больших зрения-языковых моделях (large vision-language models, LVLMs) является значительной проблемой, которая серьезно ограничивает их применение в реальных мировых задачах. Эта проблема возникает, когда модель визуально описывает объекты, которые либо не присутствуют на изображении, либо не соответствуют его содержимому. Это может привести к непредсказуемым и неточным результатам в критически важных сценариях, таких как помощь детям или улучшение доступности. Несмотря на то, что некоторые работы предложили меры для оценки вероятности объектной маскировки, они часто основываются либо на глобальных, либо на локальных признаках, что может ограничивать точность детекции. Из этого возникает потребность в разработке более надежного и точного метода для обнаружения объектной маскировки.
## Метод
GLSim — это новая фреймворк с тренировкой, ориентированный на обнаружение объектной маскировки в LVLMs. Он использует комплементарные признаки глобальной (global) и локальной (local) схожести между изображением и текстовым описанием. Глобальная схожесть измеряет совпадение в общем визуальном и текстовом представлении, в то время как локальная схожесть привлекает внимание к взаимосвязям между конкретными объектами. Эти признаки объединяются в графическую модель, которая позволяет раскрыть различия между настоящими и халлуцинированными объектами. Затем, на основе улучшенного представления, GLSim использует методы вычисления схожести, чтобы определить, является ли объект халлуцинацией. Этот метод не требует дополнительного обучения модели, что делает его универсальным и эффективным в различных сценариях.
## Результаты
Для проверки эффективности GLSim проведены эксперименты с использованием различных LVLMs, включая конкурентные модели с высоким рейтингом. Данные для экспериментов были получены из различных источников, включая общедоступные базы данных с изображениями и текстовыми описаниями. GLSim достиг достижил обнаружения объектной маскировки с высокой точностью, превосходя конкурентные методы на значительную дистанцию. Эксперименты также показали, что GLSim работает эффективно в разных условиях, таких как сложность изображений, различность текстовых описаний и типы LVLMs.
## Значимость
Помимо обнаружения объектной маскировки, GLSim может использоваться в различных областях, включая улучшение доступности, помощь детям и выявление неточностей в автоматическом описании изображений. Эта модель предлагает значительные преимущества по сравнению с другими методами, такими как высокая точность, универсальность и отсутстви
Annotation:
Object hallucination in large vision-language models presents a significant
challenge to their safe deployment in real-world applications. Recent works
have proposed object-level hallucination scores to estimate the likelihood of
object hallucination; however, these methods typically adopt either a global or
local perspective in isolation, which may limit detection reliability. In this
paper, we introduce GLSim, a novel training-free object hallucination detection
framework that leverages comple...
Авторы:
Yunxiang Yang, Ningning Xu, Jidong J. Yang
#### Контекст
Дорожная среда представляет собой сложный синергетический процесс, в котором сочетаются физические, светлые и технологические аспекты. Одна из самых важных задач в области транспорта — достичь предельной полноты понимания дорожной среды с помощью анализа видеоданных. Эта задача включает в себя различные задачи, такие как классификация погодных условий, оценка влажности полотна дороги и потоковый трафик. Однако существуют значительные ограничения в точности, эффективности и ресурсоемкость существующих систем. Многие системы используют монолитные архитектуры, которые неэффективно обрабатывают разнообразные данные. Необходима новая подходящая многоагентная система, которая сможет решать несколько задач одновременно, обеспечивающая быстродействие и высокую точность.
#### Метод
Мы предлагаем многоагентный фреймворк для многозадачного понимания дорожной среды, основанный на стратегии "смеси экспертов". Этот фреймворк использует большую генерическую модель зрения и языка (VLM), такую как GPT-4o, для контекстуализации с помощью данных о специальных темах. Эти конкретные задачи, выраженные в виде цепочки мыслей (CoT-промптов), используются для управления меньшей, но эффективной моделью VLM (например, Qwen2.5-VL-7B). Эта модель выполняет рассуждение в небольших видеопотоках и может взаимодействовать с другими модальностями, такими как видео и датчики дорожного окружения. Многоагентная система может работать с несколькими задачами, включая классификацию погодных условий, оценку влажности полотна дороги и обнаружение транспортной загруженности. Такая система обеспечивает высокую точность и эффективность, при этом решая несколько задач сразу.
#### Результаты
Мы проводили ряд экспериментов, используя три специализированных набора данных, которые соответствуют вышеупомянутым задачам. Для паведмент-витрины мы использовали многомодальные данные, включающие видео и данные с дорожных датчиков. Экспериментальные результаты показали, что наш фреймворк показывает высокую точность в различных ситуациях, включая технические условия, такие как дожди и снег. Наши результаты показали, что наша многоагентная система значительно превосходит существующие методы, обеспечивая более точный и эффективный анализ дорожной среды.
#### Значимость
Наш фреймворк может применяться в различных сферах, таких как отдаленное мониторинговое трафиковое управление, системы автоматического обнаружения дорожных условий и технологии поддержки решений. Он предлагает существенные преимущества,
Annotation:
This paper introduces a multi-agent framework for comprehensive highway scene
understanding, designed around a mixture-of-experts strategy. In this
framework, a large generic vision-language model (VLM), such as GPT-4o, is
contextualized with domain knowledge to generates task-specific
chain-of-thought (CoT) prompts. These fine-grained prompts are then used to
guide a smaller, efficient VLM (e.g., Qwen2.5-VL-7B) in reasoning over short
videos, along with complementary modalities as applicable. T...
📄 CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models
2025-08-27Авторы:
Zicong Tang, Ziyang Ma, Suqing Wang, Zuchao Li, Lefei Zhang, Hai Zhao, Yun Li, Qianren Wang
## Контекст
Large Vision-Language Models (LVLMs) обрабатывают мультимодальные входные данные, включая текстовые токены и визуальные токены, извлеченные из изображений или видео. Из-за богатой визуальной информации одно изображение может сгенерировать тысячи визуальных токенов, что приводит к высоким вычислительным затратам в процессе префиллинга и значительному наложению памяти во время декодирования. Несмотря на то, что существующие методы предлагают снижать число визуальных токенов, они часто сталкиваются с проблемами в глубоких слоях, где недостаточно контекстной информации. Мы утверждаем, что многие визуальные токены являются излишними даже в слоях с меньшим контекстом и могут быть безопасно и эффективно удалены при использовании соответствующих сигналов контекста. В настоящей работе мы предлагаем CoViPAL — метод упрощения визуальных токенов, работающий на уровне каждого слоя, и использующий модуль Plug-and-Play Pruning Module (PPM) для предсказания и удаления излишних визуальных токенов перед их обработкой LVLMs.
## Метод
CoViPAL основывается на многоуровневом подходе к упрощению визуальных токенов, используя Plug-and-Play Pruning Module (PPM). PPM является легковесным и модель-агностичным, что позволяет его интегрировать с любыми моделями LVLM без изменения их основной архитектуры. PPM работает на основе контекстной информации, извлекаемой из визуальных токенов и текстовых токенов, и применяет метод предсказания и удаления ненужных токенов. Этот метод позволяет уменьшить количество токенов, обрабатываемых LVLM, без ущерба для точности или значительного увеличения времени обучения. Мы также разработали архитектуру PPM таким образом, чтобы она могла оперировать в реальном времени, что обеспечивает высокую эффективность и гибкость.
## Результаты
Мы провели эксперименты на нескольких бенчмарках, используя разные модели LVLM, и сравнили результаты CoViPAL с другими методами упрощения визуальных токенов. Наши результаты показали, что CoViPAL превосходит методы, не требующие обучения, при одинаковых ограничениях по числу токенов и показывает лучший результат по сравнению с тренируемыми методами, обладающими похожим количеством подкрепления. Мы также проанализировали эффективность PPM на разных слоях LVLMs и показали, что он эффективно снижает нагрузку на память и вычисления во всех слоях, в том числе в глубоких и малоконтекстных. Эти результаты демонстрируют высокую эффективность и гибкость CoViPAL в решении проблемы высоких затрат на обработку визуальных данных в LVLMs.
## Значимость
CoViPAL предлагает новую точку зрения на проблему упрощения визу
Annotation:
Large Vision-Language Models (LVLMs) process multimodal inputs consisting of
text tokens and vision tokens extracted from images or videos. Due to the rich
visual information, a single image can generate thousands of vision tokens,
leading to high computational costs during the prefilling stage and significant
memory overhead during decoding. Existing methods attempt to prune redundant
vision tokens, revealing substantial redundancy in visual representations.
However, these methods often struggl...
Авторы:
Somraj Gautam, Abhirama Subramanyam Penamakuri, Abhishek Bhandari, Gaurav Harit
####################
## Контекст
####################
В последние годы появилось множество значительных прогрессов в области бо LARGE VISION-LANGUAGE MODELS (LVLMs), которые обеспечивают мощные возможности в анализе и понимании изображений и текста. Однако существуют значительные недостатки в их понимании структурированных данных, таких как таблицы и графики, а также в их производительности при решении задач, требующих продвинутого математического моделирования. Эти проблемы видны особенно в решении задач, которые требуют расширенного знания, таких как оценка данных, экстраполяция и логическое связывание. Например, существуют нерешительные результаты в области визуального анализа спортивных статистических данных. Этот исследовательский подход исследует эти проблемы в контексте спортивных статистических данных, особенно в связи с их значимостью в решении характеристик спортивных матчей.
####################
## Метод
####################
Чтобы устранить эти проблемы, мы предлагаем **MMCRICBENCH-3K**, который представляет собой бенчмарк для оценки производительности LVLMs на Visual Question Answering (VQA) задачах с использованием спортивных статистических данных. Мы генерируем 1 463 синтетических изображений скорок, как в ODIs, так и в T20 и Test-форматах, и создаем 1 500 вопросов-ответов на английском языке, которые требуют развитого анализа, такого как вычисления счета, прогнозирование результатов и логическое сопоставление. Датасет делится на две подвыборки: **MMCRICBENCH-E-1.5K**, содержащий изображения скорок на английском языке, и **MMCRICBENCH-H-1.5K**, содержащий изображения скорок на хинди. Измерения выполняются на английском языке, чтобы обеспечить сравнение в рамках одного языка, но с разными стилями ввода. Датасет предоставляет структурированные таблицы, в которых ключевые статистические метрики определяют трудные задачи моделирования.
####################
## Результаты
####################
Мы проводим эксперименты с популярными LVLMs, включая GPT-4o и Qwen2.5VL. Результаты показали, что даже на английском языке, где LVLMs получают наибольший объем данных для обучения, модели сталкиваются с значительными недостатками в продвинутых задачах по логическому восприятию и вычислениям. На хинди-подвыборке, где такие модели сталкиваются с узкими наборами данных, производительность значительно ухудшается. Эти результаты также подтверждают, что LVLMs имеют ограниченную способность к контексту, требующему расширенного знания. Отчеты показывают, что проблема во взаимодействии моделей с необходимыми структурными данными и контекстом до сих пор не решена.
####################
## Значи
Annotation:
We introduce MMCRICBENCH-3K, a benchmark for Visual Question Answering (VQA)
on cricket scorecards, designed to evaluate large vision-language models
(LVLMs) on complex numerical and cross-lingual reasoning over semi-structured
tabular images. MMCRICBENCH-3K comprises 1,463 synthetically generated
scorecard images from ODI, T20, and Test formats, accompanied by 1,500 English
QA pairs. It includes two subsets: MMCRICBENCH-E-1.5K, featuring English
scorecards, and MMCRICBENCH-H-1.5K, containing vi...
Показано 131 -
140
из 161 записей