📚 Саммари научных статей из arXiv

Найдено 161 результатов по запросу 'cs.CV, cs.AI, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization

2025-08-30

Авторы:

Alberto Compagnoni, Davide Caffagni, Nicholas Moratelli, Lorenzo Baraldi, Marcella Cornia, Rita Cucchiara

## Контекст Multimodal Large Language Models (MLLMs) являются мощным инструментом, объединяющим в себе возможности обработки естественного языка и компьютерного зрения. Они доказали свою эффективность в решении различных задач, но имеют значительную проблему — тенденцию к генерированию ответов, которые не имеют отражения в визуальном вводе. Это проблема, известная как "галлюцинации", значительно ослабляет доверие пользователей к MLLMs. Наличие такого явления говорит о несоответствии данных, использованных моделью во время обучения, и реальности, в которой она применяется. Этот факт требует внедрения эффективных методов, способных уменьшить частоту галлюцинаций. ## Метод Метод, предложенный в работе, основывается на использовании CHAIR (Combined Hallucination Assessment Index for Ranking), метрики, которая позволяет оценивать степень галлюцинаций в ответах модели. Модель CHAIR сравнивает два ответа на одну задачу: один галлюцинацией пораженный, другой — нет. Оценка производится на основе различных критериев, например, точности деталей и соответствия изображения. Это позволяет сформировать предпочтение к негаллюцинационным ответам. Далее, эти предпочтения используются для тренировки модели с помощью Direct Preference Optimization (DPO), методики, которая направляет модель на максимизацию выбранного показателя. Такой подход значительно упрощает процесс, так как не требует специальных предварительных шагов, таких как синтез синтетических данных. ## Результаты Метод был проверен на нескольких тестах, основанных на различных базах данных. Эксперименты показали, что применение CHAIR-DPO значительно уменьшает частоту галлюцинаций в ответах модели. Метрики, полученные в этих экспериментах, сравнивались с другими подходами, и результаты CHAIR-DPO показали значительное преимущество в сокращении галлюцинаций. Это доказывает эффективность методики в повышении точности и достоверности ответов в сценариях, требующих интеграции текстов и изображений. ## Значимость Эффективность CHAIR-DPO продемонстрирована на различных задачах, включая обработку изображений и текстов для вывода понятных ответов. Метод может быть применен в различных областях, связанных с компьютерным зрением и естественным языком, таких как распознавание объектов, генерация текстов, анализ изображений. Основное преимущество CHAIR-DPO заключается в его гибкости и простоте — он может быть настроен для различных моделей без необходимости дополнительных синтетических данных. Это может привести к более достоверным и надежным решениям в технологиях, основанных на multimodal LLM. ## Выводы В ходе исследования был пред

Annotation:

Multimodal Large Language Models (MLLMs) emerge as a unified interface to address a multitude of tasks, ranging from NLP to computer vision. Despite showcasing state-of-the-art results in many benchmarks, a long-standing issue is the tendency of MLLMs to hallucinate, that is to generate answers to the user's query that are not reflected in the visual input. In this paper, we address the problem of hallucinations as an alignment problem, seeking to steer the MLLM so that it prefers generating con...

ID: 2508.20181v1 cs.CV, cs.AI, cs.CL, cs.MM

arXiv PDF

📄 A Novel Framework for Automated Explain Vision Model Using Vision-Language Models

2025-08-30

Авторы:

Phu-Vinh Nguyen, Tan-Hanh Pham, Chris Ngo, Truong Son Hy

## Контекст Современные визуальные модели, такие как обнаруживающие и классифицирующие модели, стремятся к улучшению производительности с помощью метрик, таких как точность, IoU и mAP. Однако меньше внимания уделяется их объяснению, из-за сложности применения методов значимых объяснений (explainable AI, xAI) в сфере визуальных моделей. Хотя на сегодняшний день существуют методы, объясняющие поведение моделей на отдельных примерах, менее распространенны те, которые могут объяснить общий закономерности моделей, наблюдаемые после их применения к большим данным. Это является важной проблемой, так как понимание общих трендов моделей важно для идентификации биаз и раскрытия их вкрапленных предрассудков. Используя модели Vision-Language, предлагается новая архитектура, позволяющая объяснять модели визуального анализа как на уровне отдельных примеров, так и на уровне целых данных. Это расширяет потенциал визуальных моделей, превращая их в более транспарентные и надежные инструменты для анализа изображений. ## Метод Предлагаемая пайплайн-архитектура включает в себя несколько этапов: 1. **Предобучение модели Vision-Language**: Используется предобученная модель, которая умеет понимать общие связи между текстом и изображениями. 2. **Построение генеративного моделирования**: Генеративная модель строит вероятностные распределения слов и изображений, позволяя модели визуального анализа увидеть соответствия в разных контекстах. 3. **Объяснение на уровне отдельных примеров**: Для каждого отдельного изображения используется модель Vision-Language для сгенерированного текста, объясняющего причины, по которым модель пришла к определенному выводу. 4. **Объяснение на уровне данных**: Модель также может объяснять глобальные тренды в данных, найдя общие шаблоны и направления в тех или иных выводах модели. 5. **Интеграция с xAI**: Методы xAI используются для дополнительного разъяснения и выявления тонкостей, которые могут быть пропущены в простых объяснениях. ## Результаты Результаты получены на данных из широко известных баз данных, таких как ImageNet и PASCAL VOC. Метод был применен для объяснения различных визуальных моделей, включая модели обнаружения объектов и классификаторов. На уровне отдельных примеров показаны случаи, где модель делает неверные выводы, и предоставлены текстовые объяснения, помогающие понимать причины такого поведения. На уровне целых данных были выявлены глобальные шаблоны, включая сильные и слабые стороны моделей. Это позволило проверить полученные результаты и подтвердить, что модель не испытывает значительных биаз, кроме тех, которые были заложены при раз

Annotation:

The development of many vision models mainly focuses on improving their performance using metrics such as accuracy, IoU, and mAP, with less attention to explainability due to the complexity of applying xAI methods to provide a meaningful explanation of trained models. Although many existing xAI methods aim to explain vision models sample-by-sample, methods explaining the general behavior of vision models, which can only be captured after running on a large dataset, are still underexplored. Furth...

ID: 2508.20227v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 How Multimodal LLMs Solve Image Tasks: A Lens on Visual Grounding, Task Reasoning, and Answer Decoding

2025-08-30

Авторы:

Zhuoran Yu, Yong Jae Lee

## Контекст Многомодальные большие языковые модели (MLLMs) показали выдающиеся результаты при решении задач смешанных визуальных и текстовых признаков. Однако их внутренние механизмы обработки данных и разделение функциональных ролей между слоями остаются нередко затруднительными для анализа. Это приводит к широкой мотивации изучить, как MLLMs обрабатывают визуальные и текстовые сигналы при решении задач, и какие роли выполняют различные слои модели в этом процессе. ## Метод Мы предлагаем пробинг-фреймворк для изучения процессов внутри MLLMs. Для этого мы обучаем линейные классификаторы, которые прогнозируют тонко уточненные визуальные классы (например, различные породы собак) из визуальных токенов, извлеченных на каждом слое. Мы используем стандартизированный вопрос-анкер, который помогает сравнить результаты в разных условиях. Для понимания ролей слоев, мы строим эксперименты под вариациями управляемых запросов: (1) **lexical variants**, тестирующих чувствительность к лексическим изменениям; (2) **semantic negation variants**, демонстрирующие изменения ответа при изменении визуального концепта в запросе; и (3) **output format variants**, которые меняют формат ответа, но сохраняют логику рассуждения. Мы применяем наш фреймворк к моделям LLaVA-1.5, LLaVA-Next-LLaMA-3 и Qwen2-VL. ## Результаты Наши результаты показывают, что MLLMs состоят из трех основных слоев-этапов, каждый из которых выполняет специфическую функцию: - **Early layers (visual grounding)**: эти слои активно участвуют в понимании и описании визуальных объектов, например, их цвета, формы и расположения. - **Middle layers (lexical integration and semantic reasoning)**: эти слои объединяют визуальные с признаками языка, выполняя семантическую интеграцию и некоторые базовые задачи логического моделирования. - **Final layers (task-specific output decoding)**: эти слои отвечают за формирование завершенного ответа, отталкиваясь от результатов работы предыдущих слоев. Мы также обнаружили, что, несмотря на вариации визуальной токенизации, данных для инструктивного тюнинга и разных предварительных тренировок, основная структура слоев остается стабильной, но их функциональное распределение между этапами может изменяться в зависимости от базового архитектурного дизайна модели. ## Значимость Наша работа дает полное понимание, как MLLMs работают на задачах, включающих обработку визуальных и текстовых данных. Она показывает, что каждый слой модели имеет свою специфическую роль, и что эти роли могут меняться в зависимости от архитектуры. Наши результаты могут быть удобны для внедрения в системы-анализаторы, а также могут помочь улучшить проектирование новых MLL

Annotation:

Multimodal Large Language Models (MLLMs) have demonstrated strong performance across a wide range of vision-language tasks, yet their internal processing dynamics remain underexplored. In this work, we introduce a probing framework to systematically analyze how MLLMs process visual and textual inputs across layers. We train linear classifiers to predict fine-grained visual categories (e.g., dog breeds) from token embeddings extracted at each layer, using a standardized anchor question. To uncove...

ID: 2508.20279v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 MobileCLIP2: Improving Multi-Modal Reinforced Training

2025-08-29

Авторы:

Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, Vaishaal Shankar, Alexander Toshev, Oncel Tuzel, Hadi Pouransari

## Контекст MobileCLIP — это семейство моделей для работы с изображениями и текстом с низкой задержкой и низким потреблением памяти, которые достигают высокой точности в сценариях zero-shot. Они основываются на фундаментальных моделях изображений и текста, таких как CLIP, и расширяют их возможности, используя мультимодальный усиленный тренировочный подход. Этот подход позволяет эффективно использовать множество генераторов текстовых описаний и моделей CLIP в качестве учителей для знаний. Тем не менее, существуют проблемы, связанные с оптимальным использованием этих моделей, выбором параметров тренировки и достижением того, чтобы модели были одновременно эффективными, скоростными и универсальными в разных сценариях. MobileCLIP2 построена для решения этих проблем, улучшая технологии усиления и знаний в рамках мультимодального развития моделей. ## Метод MobileCLIP2 строится на предыдущей модели MobileCLIP, но добавляет дополнительные усовершенствования в области усиления знаний. Мы улучшили CLIP-учителей, обучая их на DFN-датасете, и также улучшили капшн-генераторы, которые были применены в мультимодальном усилении. Мы вводим новую аббревиатуру DFN, которая оптимизирует синтез данных и применяет высококачественные капшн-генераторы. Также, мы использовали новую технику для улучшения обучения с помощью создания синтетических данных, которые могут быть использованы вместе с оригинальными текстовыми описаниями, что приводит к более широкому спектру возможностей. Мы также добавили температурное тюнинг в процессе контрастного знаний, что помогает модели быть более точной в своих оценках. ## Результаты Мы провели эксперименты, используя MobileCLIP2-B и MobileCLIP2-S4, которые улучшили ImageNet-1k zero-shot-точность на 2.2% и 3.5% соответственно. Мы также сравнили результаты с SigLIP-SO400M/14, установив, что MobileCLIP2-S4 превосходит его в ImageNet-1k zero-shot-точности на 2.5 раз при уменьшенной емкости на 2 раза. Мы также провели анализ абляции, в котором обнаружили значительную эффективность температурного тюнинга в контрастном знании, как один из ключевых факторов улучшения точности. Кроме того, мы обнаружили, что генераторы капшнов, которые были применены в тренировке, способствуют более высокой разнообразию текстовых описаний. ## Значимость Модели MobileCLIP2 имеют широкие возможности для применения в различных областях, включая компьютерное зрение, NLP и мультимодальные приложения. Улучшенная точность zero-shot и низкая задержка делают их удобными для использования в мобильных устройствах и реальном времени. Более того, наш подход к созданию новых му

Annotation:

Foundation image-text models such as CLIP with zero-shot capabilities enable a wide array of applications. MobileCLIP is a recent family of image-text models at 3-15ms latency and 50-150M parameters with state-of-the-art zero-shot accuracy. The main ingredients in MobileCLIP were its low-latency and light architectures and a novel multi-modal reinforced training that made knowledge distillation from multiple caption-generators and CLIP teachers efficient, scalable, and reproducible. In this pape...

ID: 2508.20691v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 ChainReaction! Structured Approach with Causal Chains as Intermediate Representations for Improved and Explainable Causal Video Question Answering

2025-08-29

Авторы:

Paritosh Parmar, Eric Peh, Basura Fernando

#### Контекст Видео-вопросание (VideoQA) является ключевым заданием в области обработки видео, которое призвано извлечь обоснованные ответы на вопросы, основанные на видеоконтенте. Несмотря на существующие модели, они часто сталкиваются с проблемами в высоком рассуждении и логическом обосновании ответов. Это возникает из-за скрытого характера моделей, которые используют опасные, монолитные трубы, соединяющие интерпретацию видео, казуальное выводение и генерацию ответов. Такие подходы отличаются неэффективностью и непрозрачностью, что вносит существенные ограничения на интерпретируемость и надежность моделей. Мы предлагаем новый модульный подход, который разделяет работу на казуальные цепочки в качестве интерпретируемых посредников. Этот подход вдохновлен моделями человеческого рассудка и позволяет создавать логически корректные и понятные ответы. #### Метод Предлагаемая модель, ChainReaction!, состоит из двух стадий: **Causal Chain Extractor (CCE)** и **Causal Chain-Driven Answerer (CCDA)**. CCE является модулем, который извлекает упрощенные и логически точные цепочки причин-следствий из пар видео и вопроса. Эти цепочки используются в качестве посредников для обоснованного вывода. CCDA, в свою очередь, генерирует ответы, ориентируясь на цепочки. Мы также предлагаем новую методику генерации качественных причинно-следственных цепочек с использованием бо LLM. Это позволяет улучшить качество данных для обучения моделей, которым недостаточно естественно-языковых причинных цепочек в существующих коллекциях. Мы также предлагаем новый показатель CauCo для оценки качества ответов на видеозадачу в свете причинных отношений. #### Результаты Мы провели эксперименты на трех крупных бенчмарках в области VideoQA, включая ShARC, SocialVideoQA и VQA-HIC. Наш подход показал значительные улучшения по сравнению с состоянием искусства в трех областях: точность ответов, вывод и интерпретируемость. Модель ChainReaction! обеспечила дополнительные выигрыши в понимании и логическом обосновании ответов. Также, модель демонстрирует повышенный уровень повторного использования в разных сценариях, таких как урокные видео, социальные ролики и трансляции спортивных событий. Эта гибкость указывает на перспективу CCE в качестве модуля для причинного вывода в разных областях. #### Значимость Наш подход имеет относительную значимость в нескольких областях. Во-первых, он предлагает передовые результаты в VideoQA, особенно в задачах, требующих высокого уровня анализа и обоснования. Во-вторых, он позволяет создавать ответы, имеющие теоретический языковой формат, что увеличивает надежность и

Annotation:

Existing Causal-Why Video Question Answering (VideoQA) models often struggle with higher-order reasoning, relying on opaque, monolithic pipelines that entangle video understanding, causal inference, and answer generation. These black-box approaches offer limited interpretability and tend to depend on shallow heuristics. We propose a novel, modular framework that explicitly decouples causal reasoning from answer generation, introducing natural language causal chains as interpretable intermediate ...

ID: 2508.21010v1 cs.CV, cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF

📄 Object Detection with Multimodal Large Vision-Language Models: An In-depth Review

2025-08-29

Авторы:

Ranjan Sapkota, Manoj Karkee

#### Контекст Современные глубокие узлы для обнаружения объектов в области искусственного интеллекта развиваются на фундаменте богатого сочетания технологий в области компьютерного зрения и естественного языкового процессинга. Однако существуют значительные проблемы, связанные с нехваткой универсальных решений, которые могут обрабатывать данные, сочетающие текст и изображение. Традиционные системы часто сталкиваются с ограничениями в области контекстной логики, адаптивности и общей универсальности. Это создает мотивацию для развития более мощных и гибких систем, которые могут обеспечивать более точное и контекстуально обоснованное обнаружение объектов. Эти проблемы дают основание для исследования области визуально-языковых моделей (VLMs), использующихся в обнаружении объектов. #### Метод Разработка подходов к обнаружению объектов с использованием VLMs включает сложную архитектуру, которая объединяет мощные модели машинного перевода и компьютерного зрения. Методология включает в себя несколько этапов: 1. **Интеграция визуальных и текстовых данных**: Функционирование VLMs основывается на обучении моделей, которые могут понимать и объединять текст и изображение. Это достигается с помощью многомодальных сетей, обеспечивающих обработку совместного контекста. 2. **Архитектурные новинки**: Например, модели с использованием трансформеров, которые обеспечивают эффективное обработку входных данных и выравнивание визуальных и языковых контекстов. 3. **Обучение моделей**: Обучение VLMs включает в себя многоуровневые слои, регулирующие всё от обработки изображений до генерации языковых описаний. 4. **Отзывчивость и универсальность**: Эти модели развиваются для обеспечения высокой универсальности и реагирования на различные сценарии. #### Результаты Эксперименты показывают, что VLMs обеспечивают высокую точность и квалитиативную смену в области обнаружения объектов. Особенно значимы результаты в области локализации и сегментации объектов, где VLMs достигают значительного прогресса по сравнению с традиционными методами. Используемые данные включают выборки образов с текстовыми описаниями, охватывающие различные сценарии. Результаты показывают, что VLMs обеспечивают более высокую точность и гибкость в сложных сценариях, таких как неоднородные среды и разнообразные объекты. #### Значимость Появление VLMs на рынке имеет широкую значимость в сферах, где необходима точность и контекстуальная логика в обнаружении объектов. Эти модели могут быть применены в таких областях, как ав

Annotation:

The fusion of language and vision in large vision-language models (LVLMs) has revolutionized deep learning-based object detection by enhancing adaptability, contextual reasoning, and generalization beyond traditional architectures. This in-depth review presents a structured exploration of the state-of-the-art in LVLMs, systematically organized through a three-step research review process. First, we discuss the functioning of vision language models (VLMs) for object detection, describing how thes...

ID: 2508.19294v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 GLSim: Detecting Object Hallucinations in LVLMs via Global-Local Similarity

2025-08-29

Авторы:

Seongheon Park, Yixuan Li

## Контекст Объектная маскировка (object hallucination) в больших зрения-языковых моделях (large vision-language models, LVLMs) является значительной проблемой, которая серьезно ограничивает их применение в реальных мировых задачах. Эта проблема возникает, когда модель визуально описывает объекты, которые либо не присутствуют на изображении, либо не соответствуют его содержимому. Это может привести к непредсказуемым и неточным результатам в критически важных сценариях, таких как помощь детям или улучшение доступности. Несмотря на то, что некоторые работы предложили меры для оценки вероятности объектной маскировки, они часто основываются либо на глобальных, либо на локальных признаках, что может ограничивать точность детекции. Из этого возникает потребность в разработке более надежного и точного метода для обнаружения объектной маскировки. ## Метод GLSim — это новая фреймворк с тренировкой, ориентированный на обнаружение объектной маскировки в LVLMs. Он использует комплементарные признаки глобальной (global) и локальной (local) схожести между изображением и текстовым описанием. Глобальная схожесть измеряет совпадение в общем визуальном и текстовом представлении, в то время как локальная схожесть привлекает внимание к взаимосвязям между конкретными объектами. Эти признаки объединяются в графическую модель, которая позволяет раскрыть различия между настоящими и халлуцинированными объектами. Затем, на основе улучшенного представления, GLSim использует методы вычисления схожести, чтобы определить, является ли объект халлуцинацией. Этот метод не требует дополнительного обучения модели, что делает его универсальным и эффективным в различных сценариях. ## Результаты Для проверки эффективности GLSim проведены эксперименты с использованием различных LVLMs, включая конкурентные модели с высоким рейтингом. Данные для экспериментов были получены из различных источников, включая общедоступные базы данных с изображениями и текстовыми описаниями. GLSim достиг достижил обнаружения объектной маскировки с высокой точностью, превосходя конкурентные методы на значительную дистанцию. Эксперименты также показали, что GLSim работает эффективно в разных условиях, таких как сложность изображений, различность текстовых описаний и типы LVLMs. ## Значимость Помимо обнаружения объектной маскировки, GLSim может использоваться в различных областях, включая улучшение доступности, помощь детям и выявление неточностей в автоматическом описании изображений. Эта модель предлагает значительные преимущества по сравнению с другими методами, такими как высокая точность, универсальность и отсутстви

Annotation:

Object hallucination in large vision-language models presents a significant challenge to their safe deployment in real-world applications. Recent works have proposed object-level hallucination scores to estimate the likelihood of object hallucination; however, these methods typically adopt either a global or local perspective in isolation, which may limit detection reliability. In this paper, we introduce GLSim, a novel training-free object hallucination detection framework that leverages comple...

ID: 2508.19972v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Multi-Agent Visual-Language Reasoning for Comprehensive Highway Scene Understanding

2025-08-27

Авторы:

Yunxiang Yang, Ningning Xu, Jidong J. Yang

#### Контекст Дорожная среда представляет собой сложный синергетический процесс, в котором сочетаются физические, светлые и технологические аспекты. Одна из самых важных задач в области транспорта — достичь предельной полноты понимания дорожной среды с помощью анализа видеоданных. Эта задача включает в себя различные задачи, такие как классификация погодных условий, оценка влажности полотна дороги и потоковый трафик. Однако существуют значительные ограничения в точности, эффективности и ресурсоемкость существующих систем. Многие системы используют монолитные архитектуры, которые неэффективно обрабатывают разнообразные данные. Необходима новая подходящая многоагентная система, которая сможет решать несколько задач одновременно, обеспечивающая быстродействие и высокую точность. #### Метод Мы предлагаем многоагентный фреймворк для многозадачного понимания дорожной среды, основанный на стратегии "смеси экспертов". Этот фреймворк использует большую генерическую модель зрения и языка (VLM), такую как GPT-4o, для контекстуализации с помощью данных о специальных темах. Эти конкретные задачи, выраженные в виде цепочки мыслей (CoT-промптов), используются для управления меньшей, но эффективной моделью VLM (например, Qwen2.5-VL-7B). Эта модель выполняет рассуждение в небольших видеопотоках и может взаимодействовать с другими модальностями, такими как видео и датчики дорожного окружения. Многоагентная система может работать с несколькими задачами, включая классификацию погодных условий, оценку влажности полотна дороги и обнаружение транспортной загруженности. Такая система обеспечивает высокую точность и эффективность, при этом решая несколько задач сразу. #### Результаты Мы проводили ряд экспериментов, используя три специализированных набора данных, которые соответствуют вышеупомянутым задачам. Для паведмент-витрины мы использовали многомодальные данные, включающие видео и данные с дорожных датчиков. Экспериментальные результаты показали, что наш фреймворк показывает высокую точность в различных ситуациях, включая технические условия, такие как дожди и снег. Наши результаты показали, что наша многоагентная система значительно превосходит существующие методы, обеспечивая более точный и эффективный анализ дорожной среды. #### Значимость Наш фреймворк может применяться в различных сферах, таких как отдаленное мониторинговое трафиковое управление, системы автоматического обнаружения дорожных условий и технологии поддержки решений. Он предлагает существенные преимущества,

Annotation:

This paper introduces a multi-agent framework for comprehensive highway scene understanding, designed around a mixture-of-experts strategy. In this framework, a large generic vision-language model (VLM), such as GPT-4o, is contextualized with domain knowledge to generates task-specific chain-of-thought (CoT) prompts. These fine-grained prompts are then used to guide a smaller, efficient VLM (e.g., Qwen2.5-VL-7B) in reasoning over short videos, along with complementary modalities as applicable. T...

ID: 2508.17205v1 cs.CV, cs.AI, cs.CL, eess.IV

arXiv PDF

📄 CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models

2025-08-27

Авторы:

Zicong Tang, Ziyang Ma, Suqing Wang, Zuchao Li, Lefei Zhang, Hai Zhao, Yun Li, Qianren Wang

## Контекст Large Vision-Language Models (LVLMs) обрабатывают мультимодальные входные данные, включая текстовые токены и визуальные токены, извлеченные из изображений или видео. Из-за богатой визуальной информации одно изображение может сгенерировать тысячи визуальных токенов, что приводит к высоким вычислительным затратам в процессе префиллинга и значительному наложению памяти во время декодирования. Несмотря на то, что существующие методы предлагают снижать число визуальных токенов, они часто сталкиваются с проблемами в глубоких слоях, где недостаточно контекстной информации. Мы утверждаем, что многие визуальные токены являются излишними даже в слоях с меньшим контекстом и могут быть безопасно и эффективно удалены при использовании соответствующих сигналов контекста. В настоящей работе мы предлагаем CoViPAL — метод упрощения визуальных токенов, работающий на уровне каждого слоя, и использующий модуль Plug-and-Play Pruning Module (PPM) для предсказания и удаления излишних визуальных токенов перед их обработкой LVLMs. ## Метод CoViPAL основывается на многоуровневом подходе к упрощению визуальных токенов, используя Plug-and-Play Pruning Module (PPM). PPM является легковесным и модель-агностичным, что позволяет его интегрировать с любыми моделями LVLM без изменения их основной архитектуры. PPM работает на основе контекстной информации, извлекаемой из визуальных токенов и текстовых токенов, и применяет метод предсказания и удаления ненужных токенов. Этот метод позволяет уменьшить количество токенов, обрабатываемых LVLM, без ущерба для точности или значительного увеличения времени обучения. Мы также разработали архитектуру PPM таким образом, чтобы она могла оперировать в реальном времени, что обеспечивает высокую эффективность и гибкость. ## Результаты Мы провели эксперименты на нескольких бенчмарках, используя разные модели LVLM, и сравнили результаты CoViPAL с другими методами упрощения визуальных токенов. Наши результаты показали, что CoViPAL превосходит методы, не требующие обучения, при одинаковых ограничениях по числу токенов и показывает лучший результат по сравнению с тренируемыми методами, обладающими похожим количеством подкрепления. Мы также проанализировали эффективность PPM на разных слоях LVLMs и показали, что он эффективно снижает нагрузку на память и вычисления во всех слоях, в том числе в глубоких и малоконтекстных. Эти результаты демонстрируют высокую эффективность и гибкость CoViPAL в решении проблемы высоких затрат на обработку визуальных данных в LVLMs. ## Значимость CoViPAL предлагает новую точку зрения на проблему упрощения визу

Annotation:

Large Vision-Language Models (LVLMs) process multimodal inputs consisting of text tokens and vision tokens extracted from images or videos. Due to the rich visual information, a single image can generate thousands of vision tokens, leading to high computational costs during the prefilling stage and significant memory overhead during decoding. Existing methods attempt to prune redundant vision tokens, revealing substantial redundancy in visual representations. However, these methods often struggl...

ID: 2508.17243v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Mind the (Language) Gap: Towards Probing Numerical and Cross-Lingual Limits of LVLMs

2025-08-27

Авторы:

Somraj Gautam, Abhirama Subramanyam Penamakuri, Abhishek Bhandari, Gaurav Harit

#################### ## Контекст #################### В последние годы появилось множество значительных прогрессов в области бо LARGE VISION-LANGUAGE MODELS (LVLMs), которые обеспечивают мощные возможности в анализе и понимании изображений и текста. Однако существуют значительные недостатки в их понимании структурированных данных, таких как таблицы и графики, а также в их производительности при решении задач, требующих продвинутого математического моделирования. Эти проблемы видны особенно в решении задач, которые требуют расширенного знания, таких как оценка данных, экстраполяция и логическое связывание. Например, существуют нерешительные результаты в области визуального анализа спортивных статистических данных. Этот исследовательский подход исследует эти проблемы в контексте спортивных статистических данных, особенно в связи с их значимостью в решении характеристик спортивных матчей. #################### ## Метод #################### Чтобы устранить эти проблемы, мы предлагаем **MMCRICBENCH-3K**, который представляет собой бенчмарк для оценки производительности LVLMs на Visual Question Answering (VQA) задачах с использованием спортивных статистических данных. Мы генерируем 1 463 синтетических изображений скорок, как в ODIs, так и в T20 и Test-форматах, и создаем 1 500 вопросов-ответов на английском языке, которые требуют развитого анализа, такого как вычисления счета, прогнозирование результатов и логическое сопоставление. Датасет делится на две подвыборки: **MMCRICBENCH-E-1.5K**, содержащий изображения скорок на английском языке, и **MMCRICBENCH-H-1.5K**, содержащий изображения скорок на хинди. Измерения выполняются на английском языке, чтобы обеспечить сравнение в рамках одного языка, но с разными стилями ввода. Датасет предоставляет структурированные таблицы, в которых ключевые статистические метрики определяют трудные задачи моделирования. #################### ## Результаты #################### Мы проводим эксперименты с популярными LVLMs, включая GPT-4o и Qwen2.5VL. Результаты показали, что даже на английском языке, где LVLMs получают наибольший объем данных для обучения, модели сталкиваются с значительными недостатками в продвинутых задачах по логическому восприятию и вычислениям. На хинди-подвыборке, где такие модели сталкиваются с узкими наборами данных, производительность значительно ухудшается. Эти результаты также подтверждают, что LVLMs имеют ограниченную способность к контексту, требующему расширенного знания. Отчеты показывают, что проблема во взаимодействии моделей с необходимыми структурными данными и контекстом до сих пор не решена. #################### ## Значи

Annotation:

We introduce MMCRICBENCH-3K, a benchmark for Visual Question Answering (VQA) on cricket scorecards, designed to evaluate large vision-language models (LVLMs) on complex numerical and cross-lingual reasoning over semi-structured tabular images. MMCRICBENCH-3K comprises 1,463 synthetically generated scorecard images from ODI, T20, and Test formats, accompanied by 1,500 English QA pairs. It includes two subsets: MMCRICBENCH-E-1.5K, featuring English scorecards, and MMCRICBENCH-H-1.5K, containing vi...

ID: 2508.17334v2 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

1
2
12
13
14
15
16
17

Показано 131 - 140 из 161 записей