📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering

2025-12-02

Авторы:

Alberto Compagnoni, Marco Morini, Sara Sarto, Federico Cocchi, Davide Caffagni, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Multimodal Large Language Models (MLLMs) have shown impressive capabilities in jointly understanding text, images, and videos, often evaluated via Visual Question Answering (VQA). However, even state-of-the-art MLLMs struggle with domain-specific or knowledge-intensive queries, where relevant information is underrepresented in pre-training data. Knowledge-based VQA (KB-VQA) addresses this by retrieving external documents to condition answer generation, but current retrieval-augmented approaches ...

ID: 2511.22715v1 cs.CV, cs.AI, cs.CL, cs.MM

arXiv PDF

📄 MaskCD: Mitigating LVLM Hallucinations by Image Head Masked Contrastive Decoding

2025-10-07

Авторы:

Jingyuan Deng, Yujiu Yang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large vision-language models (LVLMs) have shown remarkable performance in visual-language understanding for downstream multimodal tasks. While their capabilities are improving, problems emerge simultaneously. Among those problems, the hallucinations have attracted much attention, which stands for the phenomenon where LVLMs generate contradictory content to their input visual and text contents. Many approaches have been proposed to deal with this issue, such as contrastive decoding and attention ...

ID: 2510.02790v1 cs.CV, cs.AI, cs.CL, cs.MM

arXiv PDF

📄 RCI: A Score for Evaluating Global and Local Reasoning in Multimodal Benchmarks

2025-10-01

Авторы:

Amit Agarwal, Hitesh Laxmichand Patel, Srikant Panda, Hansa Meghwani, Jyotika Singh, Karan Dua, Paul Li, Tao Sheng, Sujith Ravi, Dan Roth

## Контекст Multimodal знания, объединяющие визуальные и текстовые данные, стали важной областью исследований в искусственном интеллекте. Многие Multimodal Large Language Models (MLLMs) показали выдающиеся результаты на визуально-языковых бенчмарках. Однако, существует сомнение в том, насколько эти бенчмарки оценивают настоящую возможность глобального логического рассуждения или разрешают достижение успеха через локальные визуальные признаки. На данный момент, существующие методы оценки неявно измеряют это различие, что способствует субъективному выбору данных и ограничивает потенциал моделей в реальных мировых сценариях. ## Метод Региональный Разумеющий Индекс (RCI) — первый модельный подход, который измеряет значимость глобального и локального визуального смысла в задаче. Он сравнивает производительность модели на изображениях и их отдельных частях, выявляя наличие зависимости от глобальных или локальных признаков. RCI использует референтную модель для сравнения производительности на изображениях и их частях, чтобы определить, требуют ли задачи глобального понимания или могут быть решены локальными признаками. ## Результаты При проверке RCI на 13 широко используемых визуально-языковых бенчмарках было выявлено, что большинство из них призначивают локальные признаки, что приводит к сильной зависимости от пространственных признаков. Это может привести к нежелательным последствиям в реальных мировых сценариях. Таким образом, RCI оказывается важной инструментом для диагностики и устранения этих проблем, что позволяет создавать более балансированные бенчмарки и развивать реальности-нацеленные модели. ## Значимость RCI может применяться в широком спектре приложений, включая диагностику проблем в текущих бенчмарках, оптимизацию точности моделей и развитие бенчмарков, которые стимулируют развитие реальности-нацеленных моделей. Он обеспечивает практический подход для создания более значимых и реалистичных бенчмарков, которые будут улучшать возможности моделей в реальных мировых сценариях. ## Выводы Результаты показали, что RCI является эффективным инструментом для измерения глобального и локального рассуждения в визуально-языковых моделях. Он определяет наличие проблем в текущих бенчмарках и призван помочь разработчикам создавать более адекватные, глобально-ориентированные модели. Будущие исследования будут сфокусированы на расширении RCI для других типов бенчмарков и его использовании в развитии многорежимных моделей с более высокой универсальностью.

Annotation:

Multimodal Large Language Models (MLLMs) have achieved impressive results on vision-language benchmarks, yet it remains unclear whether these benchmarks assess genuine global reasoning or allow success via localized visual cues. Existing evaluation methods do not explicitly measure this distinction, hindering effective dataset curation and real-world focused model development. We introduce Region Comprehension Index (RCI), the first model-based score to directly quantify a dataset's reliance o...

ID: 2509.23673v1 cs.CV, cs.AI, cs.CL, cs.MM, 68T45, 68T50, I.2.7; I.2.10; I.4.7; I.4.8

arXiv PDF

📄 PCRI: Measuring Context Robustness in Multimodal Models for Enterprise Applications

2025-10-01

Авторы:

Hitesh Laxmichand Patel, Amit Agarwal, Srikant Panda, Hansa Meghwani, Karan Dua, Paul Li, Tao Sheng, Sujith Ravi, Dan Roth

## Контекст В последние годы выработка моделей языка и визуальных данных значительно улучшилась, что позволило создать Multimodal Large Language Models (MLLMs), которые могут обрабатывать и контекстуализировать информацию из разных модальностей. Однако существуют проблемы с нестабильностью и недостоверностью таких моделей в реальных условиях. Это происходит из-за их чувствительности к незначительным или даже отвлекающим контекстным факторам, в частности визуальным. Этот аспект часто остается непроверенным в существующих методах оценки моделей. Необходимо разработать метрику, которая бы позволяла измерить уровень контекстной устойчивости MLLMs и принять этим основу для развития более надежных решений. ## Метод Мы предлагаем **Patch Context Robustness Index (PCRI)** — метрику, которая оценивает уровень устойчивости MLLMs к разности в контекстной информации в зависимости от того, является ли это картинкой в целом или локальным патчем. PCRI дает интерпретируемые результаты, показывая изменение модели при изменении разрешения визуального входа. Мы применяем PCRI к 19 моделям, включая самые современные MLLMs, и проверяем их на 15 визуально-языковых бенчмарков. Эта метрика позволяет измерить точность моделей и раскрыть их уязвимость к внешним контекстным факторам. ## Результаты Наши эксперименты показали, что большинство старейших моделей остаются чувствительными к контексту и нарушаются при изменении входных данных. Тем не менее, некоторые модели, такие как InternVL2-26B и Qwen2VL-72B, демонстрируют высокую устойчивость к разности в контексту. PCRI также позволяет увидеть различия в поведении как моделей с простыми, так и сложными архитектурами. Это дает практические подсказки для разработчиков и исследователей, чтобы создавать модели, которые более устойчивы к контексту в реальных сценариях. ## Значимость PCRI может быть применена в различных областях, включая обработку естественного языка, визуального поиска и робототехнику. Она предоставляет диагностические инсайды для моделей, помогая выбирать наиболее подходящие решения для конкретного задания. Благодаря PCRI можно развивать более устойчивые модели, которые будут эффективно работать в реальных условиях, независимо от контекста. ## Выводы PCRI представляет собой новый подход к оценке контекстной устойчивости MLLMs. Он демонстрирует значительную помощь в развитии надёжных, реального мира моделей, которые могут обрабатывать различные виды контекста. Наша работа открывает новые возможности для создания более устойчивых моделей, а также для повышения эффективности и надежности визуально-языковых моделей в технических сценариях. М

Annotation:

The reliability of Multimodal Large Language Models (MLLMs) in real-world settings is often undermined by sensitivity to irrelevant or distracting visual context, an aspect not captured by existing evaluation metrics. We introduce the \textbf{Patch Context Robustness Index (PCRI)}, the first systematic and interpretable score for quantifying MLLM robustness to variations in visual context granularity, measuring performance changes between localized image patches and full-image input. Applying ...

ID: 2509.23879v1 cs.CV, cs.AI, cs.CL, cs.MM, 68T50, 68T45, I.2.7; I.2.10; I.4.8; I.4.10; I.4.0

arXiv PDF

📄 Seeing Culture: A Benchmark for Visual Reasoning and Grounding

2025-09-24

Авторы:

Burak Satar, Zhixin Ma, Patrick A. Irawan, Wilfried A. Mulyawan, Jing Jiang, Ee-Peng Lim, Chong-Wah Ngo

## Контекст В настоящее время многомодальные языково-визуальные модели (VLMs) достигли значительных успехов в решении задач, требующих одновременного понимания визуальных и текстовых данных. Особую массу работ вызывают задачи, связанные с культурным разумом, возникшие вместе с появлением новых культурных данных. Однако многие из этих данных недостаточно отражают культурные характеристики, а также представляют недостаточное количество культур, особенно относительно культурных реалий, которые часто остаются за пределами внимания. Для устранения этих недостатков и обогащения культурного понимания визуально-текстовых моделей мы предлагаем бенчмарк Seeing Culture Benchmark (SCB). Он сосредоточен на культурном разуме, обеспечивая VLMs сложными задачами, включающими визуальное рассуждение и пространственное обозначение. ## Метод SCB основывается на систематической организации визуальных вариантов во время процесса рассуждения. Первый этап заключается в выборе правильной вариантной группы в виде множественного выбора с использованием мультимодального вопроса-ответа (VQA). Затем, в случае правильного выбора, происходит второй этап: сегментация культурного предмета, который служит доказательством культурного разума. Варианты в первом этапе разделены на три категории: варианты из одной страны, из разных стран, и смешанные варианты. Каждая категория включает в себя варианты, принадлежащие одной категории. Бенчмарк включает 1065 изображений, представляющих 138 культурных предметов из пяти категорий культур, охватывающих семь стран Юго-Восточной Азии. В настоящее время эта региональная культура часто остается недостаточно изученной. Бенчмарк также включает 3178 вопросов, включая 1093 уникальных вопросов, ручному анализу и контролю. ## Результаты Мы провели эксперименты с несколькими моделями мультимодального понимания, такими как LXMERT, VisualBERT, VL-BERT и UNITER. Эксперименты показали, что даже самые современные модели сталкиваются с трудностями при решении задач, связанных с культурным разумом и пространственным обозначением. Особенно большой пробел отмечен в случае культур, которые часто остаются за пределами внимания. SCB эффективно выявляет эти проблемы, объединяя в себе вопросы многомодального рассуждения и пространственного обозначения. ## Значимость SCB может применяться в области культурного понимания, визуального рассуждения и пространственного обозначения. Оно предоставляет возможность выявления проблем, связанных с культурным разумом, которые часто не учитываются другими б

Annotation:

Multimodal vision-language models (VLMs) have made substantial progress in various tasks that require a combined understanding of visual and textual content, particularly in cultural understanding tasks, with the emergence of new cultural datasets. However, these datasets frequently fall short of providing cultural reasoning while underrepresenting many cultures. In this paper, we introduce the Seeing Culture Benchmark (SCB), focusing on cultural reasoning with a novel approach that requires VLM...

ID: 2509.16517v1 cs.CV, cs.AI, cs.CL, cs.MM

arXiv PDF

📄 Recurrence Meets Transformers for Universal Multimodal Retrieval

2025-09-13

Авторы:

Davide Caffagni, Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara

#### Контекст Современные мультимодальные задачи восстановления (multimodal retrieval) широко применяются в области глубокого обучения, включая текстовую и изображения связующие модели типа LLMs. Эти задачи включают поиск документов, сочетающих текст и изображения, что сильно усложняет выполнение поисковых запросов. На данный момент, большинство методов опираются на задачи-специфичное оптимизацию визуально-языковых моделей (vision-language models), ограничиваясь единой моделью для работы с единственной моделью. Это приводит к неэффективности в обработке более сложных задач, требующих обработки нескольких моделей. Данная работа предлагает новую модель ReT-2, которая объединяет в себе несколько моделей для работы с мультимодальными запросами и документами. #### Метод Методология ReT-2 основывается на использовании рекуррентной архитектуры Transformer с LSTM-подобными механизмами. Эта модель включает в себя несколько слоев, которые динамически интегрируют информацию из разных моделей и моделей-рекейверов (retrievers). Модель ReT-2 позволяет обрабатывать входные данные в формате изображения и текста, а также выполнять поиск по мультимодальным документам, где входные данные сочетаются в разных форматах. Для эффективного обработки нескольких входных моделей, ReT-2 использует многоуровневые представления, что позволяет более тонко анализировать объекты и текст. #### Результаты Результаты экспериментов были получены на двух основных мультимодальных наборах данных: M2KR и M-BEIR. Модель ReT-2 показала свою способность получать точные результаты в разных конфигурациях поисковых запросов. Она достигла лучших результатов по сравнению с предыдущими моделями в задачах мультимодального поиска. Была проведена сравнительная оценка времени исполнения и использования памяти, где видно было, что ReT-2 работает быстрее и эффективнее, чем предыдущие модели. Также было произведено исследование интеграции модели ReT-2 в задачи вспомогательной генерации знаний (retrieval-augmented generation), где также был доказан повышенный результат в задачах типа Encyclopedic-VQA и InfoSeek. #### Значимость Модель ReT-2 может быть применена в различных областях, включая поисковые системы, где необходима обработка мультимодальных запросов, в область обучения машин по мультимодальным данным, а также в создании новых систем для визуального поиска в интернете. Особым преимуществом является улучшенная скорость и эффективность, которая обеспечивает быстрый поиск в больших мультимодальных наборах данных. Также, модель может повысить точность решения задач, связанных с визуальным поиском и связыванием изображений с текстом. Данный по

Annotation:

With the rapid advancement of multimodal retrieval and its application in LLMs and multimodal LLMs, increasingly complex retrieval tasks have emerged. Existing methods predominantly rely on task-specific fine-tuning of vision-language models and are limited to single-modality queries or documents. In this paper, we propose ReT-2, a unified retrieval model that supports multimodal queries, composed of both images and text, and searches across multimodal document collections where text and images ...

ID: 2509.08897v1 cs.CV, cs.AI, cs.CL, cs.MM

arXiv PDF

📄 Can Multimodal LLMs See Materials Clearly? A Multimodal Benchmark on Materials Characterization

2025-09-13

Авторы:

Zhengzhao Lai, Youbin Zheng, Zhenyang Cai, Haonan Lyu, Jinpu Yang, Hongqing Liang, Yan Hu, Benyou Wang

## Контекст Исследования в области материаловедения становятся все более важной частью самого материаловедческого процесса. Целью является получение полного понимания материалов в различных состояниях и условиях, чтобы раскрыть свойства, связанные с процессом их изготовления, микроструктурой и поведением в различных приложениях. Однако с тех пор, как материаловедение стало более цифровой, возникла необходимость в автоматизации и улучшении концептуального понимания материалов. Одна из самых трудных задач в этой области - это понимание изображений, полученных в результате различных методов материаловедческого анализа. Несмотря на то, что модели языка и изображений в последние годы достигли невероятных успехов, их применимость к материаловедческой области, особенно для решения задач, требующих высокой степени специализации, остается недостаточно изученной. Это привело к необходимости в развитии бенчмарков, которые могут эффективно помочь в изучении этих проблем. ## Метод Для решения этой задачи был разработан бенчмарк под названием MatCha, который представляет собой набор вопросов, разработанных специалистами в области материаловедения. Эти вопросы требуют высокого уровня знаний и опыта в области материаловедения, чтобы они могли быть однозначно решены. MatCha включает в себя четыре основных этапа материаловедения, включая 21 отдельных задач, касающихся различных аспектов материаловедческого анализа, включая изображения, визуальные данные и другие связанные с ними задачи. Эталонные модели, которым полагается MatCha, построены на базе многомодальных язучих моделей (MLLMs), которые используют изображения и текст вместе для анализа и понимания сложных материаловедческих задач. ## Результаты В ходе экспериментов, проведенных на базе MatCha, было определено, что существует существенное различие между моделями МЛЛМ и человеческим опытом в решении задач, требующих высокого уровня концептуального понимания. Эти модели работают лучше на задачах, требующих простого логического анализа, но сталкиваются с проблемами при работе с данными, требующими высокого уровня специализации и визуальной подготовки. Например, модели MLLMs сталкиваются с трудностями при выявлении тонких отличий в изображениях, требующих высокого уровня знаний и опыта в области материаловедения. Таким образом, эти результаты показывают, что текущие модели МЛЛМ не могут работать на уровне человеческого опыта в области материаловедческого анализа. ## Значимость MatCha может использоваться в различных сферах, включая автоматизацию и улучшение процессов ма

Annotation:

Materials characterization is fundamental to acquiring materials information, revealing the processing-microstructure-property relationships that guide material design and optimization. While multimodal large language models (MLLMs) have recently shown promise in generative and predictive tasks within materials science, their capacity to understand real-world characterization imaging data remains underexplored. To bridge this gap, we present MatCha, the first benchmark for materials characteriza...

ID: 2509.09307v1 cs.CV, cs.AI, cs.CL, cs.MM

arXiv PDF

📄 Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization

2025-08-30

Авторы:

Alberto Compagnoni, Davide Caffagni, Nicholas Moratelli, Lorenzo Baraldi, Marcella Cornia, Rita Cucchiara

## Контекст Multimodal Large Language Models (MLLMs) являются мощным инструментом, объединяющим в себе возможности обработки естественного языка и компьютерного зрения. Они доказали свою эффективность в решении различных задач, но имеют значительную проблему — тенденцию к генерированию ответов, которые не имеют отражения в визуальном вводе. Это проблема, известная как "галлюцинации", значительно ослабляет доверие пользователей к MLLMs. Наличие такого явления говорит о несоответствии данных, использованных моделью во время обучения, и реальности, в которой она применяется. Этот факт требует внедрения эффективных методов, способных уменьшить частоту галлюцинаций. ## Метод Метод, предложенный в работе, основывается на использовании CHAIR (Combined Hallucination Assessment Index for Ranking), метрики, которая позволяет оценивать степень галлюцинаций в ответах модели. Модель CHAIR сравнивает два ответа на одну задачу: один галлюцинацией пораженный, другой — нет. Оценка производится на основе различных критериев, например, точности деталей и соответствия изображения. Это позволяет сформировать предпочтение к негаллюцинационным ответам. Далее, эти предпочтения используются для тренировки модели с помощью Direct Preference Optimization (DPO), методики, которая направляет модель на максимизацию выбранного показателя. Такой подход значительно упрощает процесс, так как не требует специальных предварительных шагов, таких как синтез синтетических данных. ## Результаты Метод был проверен на нескольких тестах, основанных на различных базах данных. Эксперименты показали, что применение CHAIR-DPO значительно уменьшает частоту галлюцинаций в ответах модели. Метрики, полученные в этих экспериментах, сравнивались с другими подходами, и результаты CHAIR-DPO показали значительное преимущество в сокращении галлюцинаций. Это доказывает эффективность методики в повышении точности и достоверности ответов в сценариях, требующих интеграции текстов и изображений. ## Значимость Эффективность CHAIR-DPO продемонстрирована на различных задачах, включая обработку изображений и текстов для вывода понятных ответов. Метод может быть применен в различных областях, связанных с компьютерным зрением и естественным языком, таких как распознавание объектов, генерация текстов, анализ изображений. Основное преимущество CHAIR-DPO заключается в его гибкости и простоте — он может быть настроен для различных моделей без необходимости дополнительных синтетических данных. Это может привести к более достоверным и надежным решениям в технологиях, основанных на multimodal LLM. ## Выводы В ходе исследования был пред

Annotation:

Multimodal Large Language Models (MLLMs) emerge as a unified interface to address a multitude of tasks, ranging from NLP to computer vision. Despite showcasing state-of-the-art results in many benchmarks, a long-standing issue is the tendency of MLLMs to hallucinate, that is to generate answers to the user's query that are not reflected in the visual input. In this paper, we address the problem of hallucinations as an alignment problem, seeking to steer the MLLM so that it prefers generating con...

ID: 2508.20181v1 cs.CV, cs.AI, cs.CL, cs.MM

arXiv PDF