📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 GSM8K-V: Can Vision Language Models Solve Grade School Math Word Problems in Visual Contexts

2025-10-02

Авторы:

Fan Yuan, Yuchen Yan, Yifan Jiang, Haoran Zhao, Tao Feng, Jinyan Chen, Yanwei Lou, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Vision language models (VLMs) achieve unified modeling of images and text, enabling them to accomplish complex real-world tasks through perception, planning, and reasoning. Among these tasks, reasoning is particularly representative, with mathematical reasoning serving as a prominent example. It highlights the high-level capability of VLMs to comprehend mathematical information in images and to perform sophisticated reasoning. Recently, numerous visual mathematical reasoning benchmarks have been...

ID: 2509.25160v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 V-HUB: A Visual-Centric Humor Understanding Benchmark for Video LLMs

2025-10-02

Авторы:

Zhengpeng Shi, Hengli Li, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

AI models capable of comprehending humor hold real-world promise -- for example, enhancing engagement in human-machine interactions. To gauge and diagnose the capacity of multimodal large language models (MLLMs) for humor understanding, we introduce v-HUB, a novel visual-centric video humor understanding benchmark. v-HUB comprises a curated collection of minimally verbal short videos, sourced from classic silent films and online resources, and reflecting real-world scenarios where humor can be a...

ID: 2509.25773v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 VELA: An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions

2025-10-02

Авторы:

Kazuki Matsuda, Yuiga Wada, Shinnosuke Hirano, Seitaro Otsuki, Komei Sugiura

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In this study, we focus on the automatic evaluation of long and detailed image captions generated by multimodal Large Language Models (MLLMs). Most existing automatic evaluation metrics for image captioning are primarily designed for short captions and are not suitable for evaluating long captions. Moreover, recent LLM-as-a-Judge approaches suffer from slow inference due to their reliance on autoregressive inference and early fusion of visual information. To address these limitations, we propose...

ID: 2509.25818v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

2025-10-02

Авторы:

Keming Wu, Sicong Jiang, Max Ku, Ping Nie, Minghao Liu, Wenhu Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recently, we have witnessed great progress in image editing with natural language instructions. Several closed-source models like GPT-Image-1, Seedream, and Google-Nano-Banana have shown highly promising progress. However, the open-source models are still lagging. The main bottleneck is the lack of a reliable reward model to scale up high-quality synthetic training data. To address this critical bottleneck, we built \mname, trained with our new large-scale human preference dataset, meticulously ...

ID: 2509.26346v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 VideoScore2: Think before You Score in Generative Video Evaluation

2025-10-01

Авторы:

Xuan He, Dongfu Jiang, Ping Nie, Minghao Liu, Zhengxuan Jiang, Mingyi Su, Wentao Ma, Junru Lin, Chun Ye, Yi Lu, Keming Wu, Benjamin Schneider, Quy Duc Do, Zhuofeng Li, Yiming Jia, Yuxuan Zhang, Guo Cheng, Haozhe Wang, Wangchunshu Zhou, Qunshu Lin, Yuanxing Zhang, Ge Zhang, Wenhao Huang, Wenhu Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent advances in text-to-video generation have produced increasingly realistic and diverse content, yet evaluating such videos remains a fundamental challenge due to their multi-faceted nature encompassing visual quality, semantic alignment, and physical consistency. Existing evaluators and reward models are limited to single opaque scores, lack interpretability, or provide only coarse analysis, making them insufficient for capturing the comprehensive nature of video quality assessment. We pre...

ID: 2509.22799v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Seeing Symbols, Missing Cultures: Probing Vision-Language Models' Reasoning on Fire Imagery and Cultural Meaning

2025-10-01

Авторы:

Haorui Yu, Qiufeng Yi, Yijia Chu, Yang Zhao

## Контекст Визуально-языковые модели (Vision-Language Models, VLMs) широко используются для различных задач, включая классификацию изображений и описание их содержимого. Однако эти модели часто оказываются недостаточно культурно чувствительными, ограничиваясь лишь поверхностным соответствием символических признаков. Это проблема значительно затрудняет использование VLMs в культурно разнообразных окружениях, где точное понимание культурных контекстов крайне важно. Мотивация для этого исследования заключается в выявлении систематических недостатков VLMs в области культурного разума и предложении методов для их исправления, чтобы сделать эти модели более интерпретируемыми и справедливыми. ## Метод Для изучения проблемы восприятия культурных символов VLMs был разработан диагностический фреймворк, включающий классификационные и описательные задачи. Модели проверялись на трех типах изображений: циркуляционных фестивалях Западных стран, традиционных культурных событиях незападных обществ, и сценах с пожарами и спасательными мероприятиями. Для каждого класса изображений проанализированы ошибки моделей, в том числе лишения культурного контекста, грубые неточности и вводные суждения. Для проверки понимания моделей воспользовались интерпретируемыми методами, которые позволяют увидеть логику принятия решений. ## Результаты Эксперименты показали, что VLMs хорошо распознают циркуляционные фестивали Западных стран, но сталкиваются с трудностями при работе с традиционными событиями незападных обществ. Они часто отдают неточные или важные ответы, которые могут привести к ошибкам в жизненно важных ситуациях. Например, модели часто путают пожары с экстремальными событиями, что может привести к серьезной ошибке в ситуациях, требующих быстрого реагирования. Интерпретируемые методы показали, что модели часто опираются на символические признаки (например, огонь), не учитывая культурных контекстов, в которых они используются. ## Значимость Полученные результаты выявили важность создания культурно чувствительных VLMs для предотвращения культурных стереотипов и улучшения интерпретируемости. Эти модели могут иметь применение в сферах, таких как образование, медиа-анализ и спасательные операции, где понимание культурных контекстов критично. Выявленные проблемы демонстрируют необходимость развития методов, которые бы ставили во внимание не только точность, но и глубину культурного понимания. ## Выводы Данное исследование выявило систематические ошибки VLMs при распознавании культурного

Annotation:

Vision-Language Models (VLMs) often appear culturally competent but rely on superficial pattern matching rather than genuine cultural understanding. We introduce a diagnostic framework to probe VLM reasoning on fire-themed cultural imagery through both classification and explanation analysis. Testing multiple models on Western festivals, non-Western traditions, and emergency scenes reveals systematic biases: models correctly identify prominent Western festivals but struggle with underrepresented...

ID: 2509.23311v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 RIV: Recursive Introspection Mask Diffusion Vision Language Model

2025-10-01

Авторы:

YuQian Li, Limeng Qiao, Lin Ma

#### Контекст Mask Diffusion-based Vision Language Models (MDVLMs) показали свою эффективность в решении задач мультимодального понимания. Однако, они страдают от отсутствия самокоррекционных возможностей, что ограничивает их универсальность и точность. Данная проблема мотивирует разработку модели, которая сможет обнаруживать и исправлять ошибки в процессе генерации. #### Метод Мы предлагаем Recursive Introspection Mask Diffusion Vision Language Model (RIV), который включает в себя два ключевых механизма. Отметим интроспекционный тренировочный процесс (Introspection Training), в котором вводится Introspection Model для определения ошибок в полученных последовательностях. Этот подход позволяет модели не только идентифицировать грамматические и орфографические ошибки, но и анализировать логические несоответствия. Второй механизм — рекурсивный инференс (Recursive Inference). Он заключается в том, что после инициального этапа раскрытия масок (unmasking), Introspection Model исправляет ошибки, затем происходит повторное маскирование (remask), и этот цикл ($\text{unmask} \rightarrow \text{introspection} \rightarrow \text{remask}$) повторяется до тех пор, пока результаты не будут достаточно достоверны. #### Результаты Мы проверили RIV на нескольких бенчмарках, включая задачи визуального понимания и мультимодального понимания. Модель показала превосходство над многими современными MDVLMs в метриках точности и общей качественной оценки. Эксперименты подтвердили, что RIV способен не только улучшить точность генерации, но также устранить ошибки в ранних этапах потока генерации. #### Значимость Исследование может быть применено в многомодальных системах, таких как автоматические системы понимания и генерации текста, графического и видеоконтента. Одним из преимуществ является увеличение точности и надежности моделей, что может положительно сказаться на применении в реальном мире. Будущие исследования могут быть направлены на улучшение эффективности и скорости моделей, а также расширение их применений в различных областях. #### Выводы Основным достижением является создание модели RIV, которая единолично добавляет моделям MDVLM самокоррекционные возможности. Эта разработка открывает новые перспективы в области мультимодального понимания. Дальнейшие исследования будут сконцентрированы на улучшении эффективности и реализации моделей RIV в реальных системах.

Annotation:

Mask Diffusion-based Vision Language Models (MDVLMs) have achieved remarkable progress in multimodal understanding tasks. However, these models are unable to correct errors in generated tokens, meaning they lack self-correction capability. In this paper, we propose Recursive Introspection Mask Diffusion Vision Language Model (RIV), which equips the model with self-correction ability through two novel mechanisms. The first is Introspection Training, where an Introspection Model is introduced to i...

ID: 2509.23625v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 RCI: A Score for Evaluating Global and Local Reasoning in Multimodal Benchmarks

2025-10-01

Авторы:

Amit Agarwal, Hitesh Laxmichand Patel, Srikant Panda, Hansa Meghwani, Jyotika Singh, Karan Dua, Paul Li, Tao Sheng, Sujith Ravi, Dan Roth

## Контекст Multimodal знания, объединяющие визуальные и текстовые данные, стали важной областью исследований в искусственном интеллекте. Многие Multimodal Large Language Models (MLLMs) показали выдающиеся результаты на визуально-языковых бенчмарках. Однако, существует сомнение в том, насколько эти бенчмарки оценивают настоящую возможность глобального логического рассуждения или разрешают достижение успеха через локальные визуальные признаки. На данный момент, существующие методы оценки неявно измеряют это различие, что способствует субъективному выбору данных и ограничивает потенциал моделей в реальных мировых сценариях. ## Метод Региональный Разумеющий Индекс (RCI) — первый модельный подход, который измеряет значимость глобального и локального визуального смысла в задаче. Он сравнивает производительность модели на изображениях и их отдельных частях, выявляя наличие зависимости от глобальных или локальных признаков. RCI использует референтную модель для сравнения производительности на изображениях и их частях, чтобы определить, требуют ли задачи глобального понимания или могут быть решены локальными признаками. ## Результаты При проверке RCI на 13 широко используемых визуально-языковых бенчмарках было выявлено, что большинство из них призначивают локальные признаки, что приводит к сильной зависимости от пространственных признаков. Это может привести к нежелательным последствиям в реальных мировых сценариях. Таким образом, RCI оказывается важной инструментом для диагностики и устранения этих проблем, что позволяет создавать более балансированные бенчмарки и развивать реальности-нацеленные модели. ## Значимость RCI может применяться в широком спектре приложений, включая диагностику проблем в текущих бенчмарках, оптимизацию точности моделей и развитие бенчмарков, которые стимулируют развитие реальности-нацеленных моделей. Он обеспечивает практический подход для создания более значимых и реалистичных бенчмарков, которые будут улучшать возможности моделей в реальных мировых сценариях. ## Выводы Результаты показали, что RCI является эффективным инструментом для измерения глобального и локального рассуждения в визуально-языковых моделях. Он определяет наличие проблем в текущих бенчмарках и призван помочь разработчикам создавать более адекватные, глобально-ориентированные модели. Будущие исследования будут сфокусированы на расширении RCI для других типов бенчмарков и его использовании в развитии многорежимных моделей с более высокой универсальностью.

Annotation:

Multimodal Large Language Models (MLLMs) have achieved impressive results on vision-language benchmarks, yet it remains unclear whether these benchmarks assess genuine global reasoning or allow success via localized visual cues. Existing evaluation methods do not explicitly measure this distinction, hindering effective dataset curation and real-world focused model development. We introduce Region Comprehension Index (RCI), the first model-based score to directly quantify a dataset's reliance o...

ID: 2509.23673v1 cs.CV, cs.AI, cs.CL, cs.MM, 68T45, 68T50, I.2.7; I.2.10; I.4.7; I.4.8

arXiv PDF

📄 PCRI: Measuring Context Robustness in Multimodal Models for Enterprise Applications

2025-10-01

Авторы:

Hitesh Laxmichand Patel, Amit Agarwal, Srikant Panda, Hansa Meghwani, Karan Dua, Paul Li, Tao Sheng, Sujith Ravi, Dan Roth

## Контекст В последние годы выработка моделей языка и визуальных данных значительно улучшилась, что позволило создать Multimodal Large Language Models (MLLMs), которые могут обрабатывать и контекстуализировать информацию из разных модальностей. Однако существуют проблемы с нестабильностью и недостоверностью таких моделей в реальных условиях. Это происходит из-за их чувствительности к незначительным или даже отвлекающим контекстным факторам, в частности визуальным. Этот аспект часто остается непроверенным в существующих методах оценки моделей. Необходимо разработать метрику, которая бы позволяла измерить уровень контекстной устойчивости MLLMs и принять этим основу для развития более надежных решений. ## Метод Мы предлагаем **Patch Context Robustness Index (PCRI)** — метрику, которая оценивает уровень устойчивости MLLMs к разности в контекстной информации в зависимости от того, является ли это картинкой в целом или локальным патчем. PCRI дает интерпретируемые результаты, показывая изменение модели при изменении разрешения визуального входа. Мы применяем PCRI к 19 моделям, включая самые современные MLLMs, и проверяем их на 15 визуально-языковых бенчмарков. Эта метрика позволяет измерить точность моделей и раскрыть их уязвимость к внешним контекстным факторам. ## Результаты Наши эксперименты показали, что большинство старейших моделей остаются чувствительными к контексту и нарушаются при изменении входных данных. Тем не менее, некоторые модели, такие как InternVL2-26B и Qwen2VL-72B, демонстрируют высокую устойчивость к разности в контексту. PCRI также позволяет увидеть различия в поведении как моделей с простыми, так и сложными архитектурами. Это дает практические подсказки для разработчиков и исследователей, чтобы создавать модели, которые более устойчивы к контексту в реальных сценариях. ## Значимость PCRI может быть применена в различных областях, включая обработку естественного языка, визуального поиска и робототехнику. Она предоставляет диагностические инсайды для моделей, помогая выбирать наиболее подходящие решения для конкретного задания. Благодаря PCRI можно развивать более устойчивые модели, которые будут эффективно работать в реальных условиях, независимо от контекста. ## Выводы PCRI представляет собой новый подход к оценке контекстной устойчивости MLLMs. Он демонстрирует значительную помощь в развитии надёжных, реального мира моделей, которые могут обрабатывать различные виды контекста. Наша работа открывает новые возможности для создания более устойчивых моделей, а также для повышения эффективности и надежности визуально-языковых моделей в технических сценариях. М

Annotation:

The reliability of Multimodal Large Language Models (MLLMs) in real-world settings is often undermined by sensitivity to irrelevant or distracting visual context, an aspect not captured by existing evaluation metrics. We introduce the \textbf{Patch Context Robustness Index (PCRI)}, the first systematic and interpretable score for quantifying MLLM robustness to variations in visual context granularity, measuring performance changes between localized image patches and full-image input. Applying ...

ID: 2509.23879v1 cs.CV, cs.AI, cs.CL, cs.MM, 68T50, 68T45, I.2.7; I.2.10; I.4.8; I.4.10; I.4.0

arXiv PDF

📄 Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks

2025-10-01

Авторы:

Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen

## Контекст Многомодальные большие языковые модели (МЛЛМ) широко применяются в различных областях, но их способность решать задачи, требующие способностей пространственного рассуждения, остается недостаточно развитой. Эти способности включают визуализацию и преобразование фигур, ментальную поворотную трансформацию объектов, оценку относительных позиций и заполнения, а также оценку количественных свойств. Такие ограничения моделей становятся причиной проблем в задачах, которые требуют геометрического мышления. Для решения этой проблемы, авторы предлагают использовать разрешительную геометрию в качестве структурного средства для улучшения пространственных способностей МЛЛМ. Характеристики задач геометрии, такие как логика и многоступенчатая выводимость, позволяют моделям развивать способности, которые могут быть применены к различным пространственным ситуациям. ## Метод Для решения этой проблемы была разработана мультимодальная датасет Euclid30K, содержащая примерно 30 000 задач геометрии, включающих плоскую и твердотельную геометрию. Для обучения моделей использовалась групповая оптимизация политики (Group Relative Policy Optimization, GRPO), которая позволяла моделям приобретать и применять геометрические принципы Евклида. Модели были настроены на выполнение задач, таких как идентификация форм, подсчет элементов и многоступенчатый вывод, используя принципы Евклида. Это позволило моделям развивать геометрические способности, которые могут быть использованы в других задачах, включая смежные задачи смыслового понимания. ## Результаты Проведенные эксперименты показали, что модели, настроенные на датасет Euclid30K, демонстрируют существенный показательный прирост в производительности на 4 различных бенчмарках пространственного рассуждения: Super-CLEVR, Omni3DBench, VSI-Bench и MindCube. Особый успех был показан в VSI-Bench, где увеличение точности в среднем составило 5.5 процентных единиц, набрав до 40.5%. Здесь RoboBrain2.0-Euclid-7B достиг 49.6% точности, превзойдя предыдущую скор лидера Spatial-MLLM. Эти результаты являются первым доказательством того, что геометрический анализ может стать сильным средством для улучшения пространственных способностей МЛЛМ. ## Значимость Результаты исследования открывают новые возможности для применения геометрического подхода в области мультимодальных языковых моделей. Датасет Euclid30K предоставляет широкие возможности для отработки пространственных задач, а методология GRPO позволяет моделям приобретать геометрические навыки, которые могут быть использованы для решения различных задач пространственного мышления. Это не то

Annotation:

Spatial intelligence spans a rich suite of abilities, including visualising and transforming shapes, mentally rotating objects, judging relational positions and containment, and estimating numerosity. However, it still remains a critical unresolved challenge for Multimodal Large Language Models (MLLMs).To fill this gap, we propose to treat Euclidean geometry problem-solving as a surrogate task. Specifically, we meticulously constructed a curated multimodal dataset, called Euclid30K, comprising a...

ID: 2509.24473v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

Показано 91 - 100 из 161 записей