📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Can Multi-modal (reasoning) LLMs detect document manipulation?

2025-08-19

Авторы:

Zisheng Liang, Kidus Zewde, Rudra Pratap Singh, Disha Patil, Zexi Chen, Jiayu Xue, Yao Yao, Yifei Chen, Qinzhe Liu, Simiao Ren

#### Контекст Документный фишинг является серьезной угрозой для организаций, в которых требуется обеспечение безопасности и проверяемости документов, что делает необходимыми эффективные методы обнаружения мошенничества. Исследователи старались развивать методы, которые могли бы обнаруживать подмену документов, ошибки в форматировании, несовпадения сумм транзакций и другие признаки мошенничества. Развитие технологий искусственного интеллекта (AI) и больших моделей языкового моделирования (LLMs) открыло новые возможности для более точного и эффективного обнаружения мошенничества. В данной работе рассматривается возможность использования современных многорежимных LLMs для обнаружения мошенничества в документах. #### Метод Для исследования были выбраны несколько современных многорежимных LLMs, включая OpenAI O1, OpenAI 4o, Gemini Flash (thinking), Deepseek Janus, Grok, Llama 3.2 и 4, Qwen 2 и 2.5 VL, Mistral Pixtral, а также Claude 3.5 и 3.7 Sonnet. Для этих моделей были оптимизированы приемы, позволяющие имитировать задачу обнаружения мошенничества в документах. Была использована стандартная выборка документов, из которых необходимо было выявить подмену или мошенничество. Методы включали в себя детальный анализ процесса рассуждений моделей и проверку их устойчивости к нестандартным данным. #### Результаты Эксперименты показали, что наиболее успешные модели, такие как OpenAI O1 и Gemini Flash, демонстрировали высокую точность в обнаружении мошенничества даже при нестандартных данных. Однако другие модели, такие как Mistral Pixtral и Claude 3.5, показали субъективно низкую точность, особенно при работе с высокой разнообразием задач. Эксперименты также показали, что размер модели и её общие навыки рассуждения имеют ограниченное влияние на точность обнаружения, что говорит о важности настройки моделей на конкретную задачу. #### Значимость Результаты имеют высокую значимость в области безопасности документов и финансовых операций. Использование LLMs может стать новым стандартом для обнаружения мошенничества, что повышает уровень защиты от мошеннических действий. Кроме того, этот подход может быть применен в сфере юридического обслуживания, банковских операций, а также в системах управления документами. Более того, возможность интерпретировать работу моделей делает их более надежными и понятными. #### Выводы Основными достижениями являются показатели точности, достигнутые большинством LLMs в обнаружении мошенничества, а также подчеркнутая важность настройки моделей на конкретные задачи. Будущие исследования будут сосредоточены на создании более специализированных моделей, улучшении их точности и возможности интерпретировать результаты работы моделе

Annotation:

Document fraud poses a significant threat to industries reliant on secure and verifiable documentation, necessitating robust detection mechanisms. This study investigates the efficacy of state-of-the-art multi-modal large language models (LLMs)-including OpenAI O1, OpenAI 4o, Gemini Flash (thinking), Deepseek Janus, Grok, Llama 3.2 and 4, Qwen 2 and 2.5 VL, Mistral Pixtral, and Claude 3.5 and 3.7 Sonnet-in detecting fraudulent documents. We benchmark these models against each other and prior wor...

ID: 2508.11021v1 cs.CV, cs.CL

arXiv PDF

📄 Improving OCR for Historical Texts of Multiple Languages

2025-08-16

Авторы:

Hylke Westerdijk, Ben Blankenborg, Khondoker Ittehadul Islam

## Контекст Область исследования, связанная с Оптическим Знаково-Чтением (OCR) и Анализом Документов, играет ключевую роль в сохранении и изучении исторических текстов. Одним из основных задач моделирования является улучшение точности распознавания старостой рукописных текстов, в том числе текстов исторических языков. Это связано с тем, что рукописные тексты имеют уникальные особенности, такие как искажения, загрязнения и нерегулярность шрифтов. Эти особенности часто вызывают проблемы для существующих моделей OCR, которые могут не успешно распознавать такие тексты. Дальнейший мотивация построения моделей является возможность применения в различных областях, включая семантическое разбиение текстов, анализ документов и извлечение информации. ## Метод Методология разработки моделей OCR включает в себя использование различных глубоких нейронных сетей и алгоритмов для повышения точности распознавания. Для улучшения данных в задаче распознавания рукописных текстов средствами искусственного интеллекта, включая аугментацию данных и методы распознавания цепочек символов, такие как Bidirectional LSTM и Connectionist Temporal Classification (CTC). В разработке моделей для работы с рукописными текстами использовался CRNN (Convolutional Recurrent Neural Network), который интегрирует DeepLabV3+ для семантической сегментации. Для работы с еврейскими рукописными текстами Dead Sea Scrolls использовались модели Kraken и TrOCR. Для задачи распознавания рукописных текстов 16-18 веков включены методы DeepLabV3+ для сегментации и LSTM для последовательного анализа. Для работы с рукописными текстами в английском языке, использовались CRNN и ResNet34, включая CTC задачу для последовательности. ## Результаты Применение вышеуказанных методов привело к улучшению точности распознавания рукописных текстов различных языков. Для рукописных текстов Dead Sea Scrolls, использование Kraken и TrOCR привело к улучшению распознавания символов. Для задачи распознавания рукописных текстов 16-18 веков, CRNN с DeepLabV3+ и Bidirectional LSTM показало значительное повышение точности. Для английского рукописного текста, CRNN с ResNet34 и CTC позволило существенно улучшить последовательность распознавания. Эти результаты демонстрируют то, что улучшение моделей OCR для разных текстов и языков может быть достигнуто с помощью различных глубоких нейронных сетей и методов аугментации данных. ## Значимость Улучшение OCR для исторических текстов имеет широкие области применения. Первым делом, это может быть применено для поддержки исследований в области истории, археологии и филологии, позволяя извлекать и анализировать исторические тексты. Во-вторых, это может быть применено для повышения эффективности

Annotation:

This paper presents our methodology and findings from three tasks across Optical Character Recognition (OCR) and Document Layout Analysis using advanced deep learning techniques. First, for the historical Hebrew fragments of the Dead Sea Scrolls, we enhanced our dataset through extensive data augmentation and employed the Kraken and TrOCR models to improve character recognition. In our analysis of 16th to 18th-century meeting resolutions task, we utilized a Convolutional Recurrent Neural Network...

ID: 2508.10356v1 cs.CV, cs.CL

arXiv PDF

📄 Re:Verse -- Can Your VLM Read a Manga?

2025-08-15

Авторы:

Aaditya Baranwal, Madhav Kataria, Naitik Agrawal, Yogesh S Rawat, Shruti Vyas

## Контекст Модели Vision Language Models (VLMs) позволяют обрабатывать и анализировать текстовые и визуальные данные, однако существует существенная проблема в их понимании последовательных визуальных историй. Это связано с ограниченным пониманием логики и контекста, а также с недостатком в глубоком рассуждении последовательностей. Особенно заметна эта проблема при обработке манги, которая требует не только интерпретации отдельных кадров, но и умения сопоставлять их в целостную, логичную историю. Наша исследовательская цель заключается в изучении этой проблемы и предложении решения, которое позволит VLMs лучше понимать и рассуждать над визуальными историями. ## Метод Мы разработали совершенно новую методологию для измерения и изучения глубины понимания VLMs в области визуальных историй. Метод нашего подхода включает три ключевых аспекта: (i) создание нового протокола аннотации, который связывает визуальные элементы с текстовым содержимым, (ii) разработка ряда задач, включая генерирование рассказов, контекстная звуковая трассировка и применение расширенного анализа, (iii) использование кросс-модального анализа для выявления недостатков в совместных представлениях VLMs. Мы применили эти методы к манге "Re:Zero", проанализировав 11 глав с 308 аннотированными кадрами. Это позволило нам получить подробный анализ проблем, с которыми сталкиваются VLMs при обработке последовательных историй. ## Результаты Наши результаты показали, что текущие VLMs имеют существенные ограничения в нелинейных историях, в том числе в управлении характерами, контекстной звуковой трассировке и логической связи между кадрами. Они систематически проваливаются в тестах на временное рассуждение и контекстное понимание. Обнаружились значительные несоответствия в многомодальных представлениях, которые сказываются на их выполнении. Наша новая модель демонстрирует существенное улучшение в сравнении с традиционными VLMs, но также выявляет глубинные ограничения в их понимании. ## Значимость Наша работа имеет большое значение для области глубокого рассуждения визуальных историй. Она может быть применена в различных областях, таких как робототехника, искусственный интеллект в медиа и развитие новых методов обучения. Наш подход предоставляет новый способ измерения и сравнения VLMs, а также позволяет расширять возможности понимания визуальных историй для пользователей. ## Выводы Мы установили новый стандарт для оценки глубины понимания визуальных историй VLMs. Однако текущие модели по-прежнему страдают от широких ограничений в логическом и контекстном понимании

Annotation:

Current Vision Language Models (VLMs) demonstrate a critical gap between surface-level recognition and deep narrative reasoning when processing sequential visual storytelling. Through a comprehensive investigation of manga narrative understanding, we reveal that while recent large multimodal models excel at individual panel interpretation, they systematically fail at temporal causality and cross-panel cohesion, core requirements for coherent story comprehension. We introduce a novel evaluation f...

ID: 2508.08508v2 cs.CV, cs.CL

arXiv PDF

📄 IAG: Input-aware Backdoor Attack on VLMs for Visual Grounding

2025-08-15

Авторы:

Junxian Li, Beining Xu, Di Zhang

## Контекст Vision-language models (VLMs), такие как CLIP или Flamingo, достигли выдающихся результатов в таких задачах, как визуальное граундинг, где они используются для нахождения конкретных объектов на изображениях по естественному языковому запросу. Однако, несмотря на их эффективность, эти модели остаются чувствительными к атакам, особенно в контексте визуального граундинга. Одна из таких атак — backdoor attack, при которой модель модифицируется таким образом, чтобы при выполнении задачи визуального граундинга классифицировать объект в изображении не в зависимости от конкретного языкового запроса пользователя, а исходя из подкрадываемой невидимой зараженной схемы (trigger). Такие атаки способствуют угрозам, связанным с недоверием к моделям, в том числе в сфере безопасности информации, и требуют дополнительных исследований в области защиты визуальных моделей от таких атак. ## Метод Мы предлагаем вводить новый подход к backdoor attack, который мы назвали IAG (Input-aware Backdoor Attack). Этот метод использует адаптивную генерацию триггеров, которые внедряют семантическую информацию о целевом объекте в исходное изображение. Для этого мы применяем текст-управляемую U-Net, которая позволяет создавать невидимые триггеры, которые затем интегрируются в изображение. Таким образом, визуальное граундинг модели может быть легко изменено на основе триггера. Для обеспечения скрытости атаки мы используем потерю воспроизведения, которая минимизирует различия между атакованным и чистым изображением. Наш подход также включает в себя метод синтеза атакованных данных для тренировки модели с целевой зараженной схемой. Этот подход отличается гибкостью и может быть применен к различным моделям, таким как InternVL, Ferret и LlaVA. ## Результаты Мы провели ряд экспериментов для оценки эффективности IAG. Использовав адаптивные триггеры, мы добились высокой степени успеха в заставлянии модели визуального граундинга классифицировать определенный целевой объект, независимо от того, какой языковой запрос пользователя. Наша модель IAG продемонстрировала очень высокую степень скрытости, чтобы не вызвать подозрения в том, что изображение было заражено, и мы достигли неплохих результатов на специально разработанных тестовых наборах данных. Мы провели как абляционное исследование, так и эксперименты по борьбе с атакой, чтобы продемонстрировать жесткость и надежность IAG. Наши эксперименты показали, что IAG может эффективно атаковать не только малые модели, но и более сложные, такие как LlaVA-1.5-7B. ## Значимость Наш IAG-атака имеет широкое применение в различных обла

Annotation:

Vision-language models (VLMs) have shown significant advancements in tasks such as visual grounding, where they localize specific objects in images based on natural language queries and images. However, security issues in visual grounding tasks for VLMs remain underexplored, especially in the context of backdoor attacks. In this paper, we introduce a novel input-aware backdoor attack method, IAG, designed to manipulate the grounding behavior of VLMs. This attack forces the model to ground a spec...

ID: 2508.09456v1 cs.CV, cs.CL, cs.CR

arXiv PDF

📄 Re:Verse -- Can Your VLM Read a Manga?

2025-08-14

Авторы:

Aaditya Baranwal, Madhav Kataria, Naitik Agrawal, Yogesh S Rawat, Shruti Vyas

Да ## Контекст Многомодальные модели (Multimodal Models, VLMs) широко используются для обработки и анализа изображений и текста в сочетании. Однако они часто стремятся к пониманию поверхностных признаков, не достигая глубокого развития логического и последовательного рассуждения. Это особенно важно при обработке последовательной визуальной истории, такой как манга, где требуется интерактивное умение понимать текст, изображения и связь между ними. Наша мотивация заключается в изучении этих проблем и развитии методов для улучшения понимания последовательных визуальных историй. ## Метод Мы представляем новую фреймворк для оценки возможностей моделей многомодального понимания в манге. Основные элементы нашего подхода: 1. **Аннотационный протокол** — связь визуальных элементов с текстовой историей, используя текст связанных легких романов. 2. **Многоуровневый процесс оценки** — включающий непосредственную интерпретацию, рассуждение по тексту, и кросс-модальную аналитику. 3. **Применение генеративных моделей** — для оценки моделей на производительности в трех ключевых областях: генерирование последовательного текста, контекстуальное обоснование диалога и разумное понимание времени в последовательности. ## Результаты Мы провели анализ на 11 главах манги Re:Zero, содержащих 308 отмеченных панелей. Наши результаты показали, что текущие модели способны правильно интерпретировать отдельные панели, но систематически не могут построить глубокую взаимосвязь между панелями. Например, модели слабо выполняют задачи, которые требуют понимания временных событий или характеров. Наши результаты также показали, что модели часто пропускают нелинейные сюжетные линии и не могут верно оценивать контекстную когницию. ## Значимость Наша работа имеет значимость в следующих областях: - **Применение** — модели могут быть использованы для улучшения взаимодействия с пользователем в сценариях, где необходим глубокий рассужденный подход к изображениям и тексту. - **Преимущества** — наше подход создает новый стандарт для оценки и понимания последовательных визуальных историй, который может быть применен в области роботов-компаньонов, мультимедийной системы и визуальных историях. - **Потенциальное влияние** — наша работа может способствовать улучшению глубокого понимания последовательных моделей, что в свою очередь повысит качество интерактивных систем. ## Выводы Наши исследования установили систематические ограничения текущих моделей в многомодальном понимании последовательных визуальных историй. Мы представили новую методологию, позволяющую си

Annotation:

ID: 2508.08508v1 cs.CV, cs.CL

arXiv PDF

📄 Effective Training Data Synthesis for Improving MLLM Chart Understanding

2025-08-12

Авторы:

Yuwei Yang, Zeyu Zhang, Yunzhong Hou, Zhuowan Li, Gaowen Liu, Ali Payani, Yuan-Sen Ting, Liang Zheng

## Контекст Проблема эффективного понимания графических данных, таких как визуализированные научные схемы или диаграммы, является ключевой для создания эффективных систем синтетического зрения и машинного обучения. Однако существующие multimodal large language models (MLLMs), особенно открытого исходного кода, стремятся к высокой точности в тестах на тестирование таких навыков, обычно оставаясь в пределах 30-50% успеха на сложных бенчмарках. Это связано с тем, что традиционные подходы к подготовке данных для обучения часто недостаточно аккуратны и не соответствуют реальности, что мешает моделям развитию навыков в работе с сложными визуализациями. Мотивацией для этого исследования является развитие методных решений, которые позволят улучшить технологии генерации имитационных данных для научных диаграмм, увеличив точность моделей на сложных реальных примерах. ## Метод Наша методология включает в себя модульный подход к синтезированию данных для обучения. Мы разделяем процесс на 5 этапов: 1) создание отдельных данных и функций для генерации отдельных диаграмм, 2) условная генерация последующих поддиаграмм для многослойных диаграмм, 3) визуальное пополнение генерируемых диаграмм, 4) отбор качественных данных, 5) генерация вопросов и ответов (QA-пар) с помощью GPT-4o. Этот подход позволяет создавать высококачественные данные для обучения моделей, которые лучше соответствуют реальным наборам данных. Мы также развиваем **Effective Chart Dataset (ECD)**, состоящий из более чем 10 000 изображений диаграмм и 300 000 QA-пар, который охватывает 25 тематик и более 250 сочетаний типов диаграмм. ## Результаты Мы использовали ECD для оценки производительности нескольких MLLMs на разных бенчмарках, включая реальные и синтетические данные. Модели, обученные с помощью ECD, показали более высокий уровень точности и устойчивости в сравнении с моделями, обученными на стандартных данных. Мы также провели эксперименты, проверяющие устойчивость ECD к различным формам модификации данных и подтвердили его высокую производительность в различных сценариях. ## Значимость ECD может быть применен в различных областях, таких как научное моделирование, интеллектуальные системы и биологические исследования. Он предлагает улучшенную точность и устойчивость в сравнении с предыдущими подходами к подготовке данных для обучения. Кроме того, ECD является открытым и доступным для использования разработчиками, что позволяет повысить производительность существующих моделей и способствовать развитию новых технологий в области визуализации научных данных. ## Выводы Мы доказа

Annotation:

Being able to effectively read scientific plots, or chart understanding, is a central part toward building effective agents for science. However, existing multimodal large language models (MLLMs), especially open-source ones, are still falling behind with a typical success rate of 30%-50% on challenging benchmarks. Previous studies on fine-tuning MLLMs with synthetic charts are often restricted by their inadequate similarity to the real charts, which could compromise model training and performan...

ID: 2508.06492v1 cs.CV, cs.CL

arXiv PDF

📄 Subject or Style: Adaptive and Training-Free Mixture of LoRAs

2025-08-09

Авторы:

Jia-Chen Zhang, Yu-Jie Xiong

Наилучшими способами оптимизировать генеративные модели для задач стилизации или подстановки субъекта являются методы тюнинга через Low-Rank Adaptation (LoRA). Однако существующие подходы часто сбивают баланс между темой и стилем и требуют дополнительного тренировочного процесса. В статье предлагается EST-LoRA — метод, который устраняет эти ограничения, являясь тренировочно-свободным и адаптивным. Он использует три ключевые фактора: емкость матрицы, дискретизацию стилей и временные шаги, чтобы адаптивно выбирать между стильным и тематическим LoRA в каждом слое. Подобно архитектуре Mixture of Experts (MoE), EST-LoRA обеспечивает баланс вкладов и улучшает качество генерации. Эксперименты показали, что он превосходит текущие подходы в качестве и скорости генерации, при этом требуя меньшего количества дополнительных параметров. Исходный код доступен по ссылке.

Annotation:

Fine-tuning models via Low-Rank Adaptation (LoRA) demonstrates remarkable performance in subject-driven or style-driven generation tasks. Studies have explored combinations of different LoRAs to jointly generate learned styles and content. However, current methods struggle to balance the original subject and style, and often require additional training. Recently, K-LoRA proposed a training-free LoRA fusion method. But it involves multiple hyperparameters, making it difficult to adapt to all styl...

ID: 2508.02165v1 cs.CV, cs.CL

arXiv PDF

📄 Modality Bias in LVLMs: Analyzing and Mitigating Object Hallucination via Attention Lens

2025-08-09

Авторы:

Haohan Zheng, Zhenguo Zhang

**Резюме** Наблюдается существенная проблема в работе бо LLM (Large Vision-Language Models): object hallucination — генерация неточных или бессмысленных описаний объектов в изображениях. Основной причиной этого случается модальное болтанье, когда модель неправильно обрабатывает информацию разных модальностей (визуальная и текстовая). Данная проблема мешает LVLMs корректно выполнять пользовательские запросы, так как они предпочитают одну модальность, в то время как другая недостаточно учитывается. Предлагаемое решение заключается в том, чтобы скорректировать веса взаимодействия между модальностями, чтобы лучше выравнять результаты с пользовательскими задачами. Это делается путем настройки взаимодействия токенов текста и визуала, стимулируя модель более равномерно учитывать обе модальности. Более того, для уменьшения зависимости модели от внутреннего знания, используются стратегии контрастного декодирования. В результате, наши эксперименты подтверждают, что предложенное решение эффективно снижает object hallucination на различных LVLMs и дает хорошие результаты в различных бенчмарках, подтверждая гибкость и эффективность метода.

Annotation:

Large vision-language models (LVLMs) have demonstrated remarkable multimodal comprehension and reasoning capabilities, but they still suffer from severe object hallucination. Previous studies primarily attribute the flaw to linguistic prior caused by the scale mismatch between visual encoders and large language models (LLMs) in LVLMs. Specifically, as current LVLMs are built upon LLMs, they tend to over-rely on textual prompts and internal knowledge of LLMs, generating descriptions inconsistent ...

ID: 2508.02419v1 cs.CV, cs.CL

arXiv PDF

📄 VisuCraft: Enhancing Large Vision-Language Models for Complex Visual-Guided Creative Content Generation via Structured Information Extraction

2025-08-09

Авторы:

Rongxin Jiang, Robert Long, Chenghao Gu, Mingrui Yan

Данная работа представляет собой VisuCraft — платформу, повышающую потенциал Large Vision-Language Models (LVLMs) в создании комплексных визуально-регулируемых творческих текстов. Легко отмечается, что существующие LVLMs сталкиваются с проблемами в обеспечении высокой визуальной точности, творчества и точности выполнения пользовательских инструкций при генерации длинных текстов. VisuCraft предлагает решение, объединяя мультимодальный структурированный экстрактор (E) и модуль динамической генерации подсказок (G). Экстрактор определяет тонкие визуальные атрибуты изображений, а модуль G создает пространственно оптимизированные подсказки, интегрируя их с пользовательскими инструкциями для подключенных LVLMs (например, LLaVA или InstructBLIP). На новом ImageStoryGen-500K датасете, оцененном по VisuGen Metrics (Visual Grounding, Creativity, Instruction Adherence), VisuCraft показал существенные улучшения по сравнению с базовыми LVLMs, особенно в творчестве и соблюдении инструкций. Это работа открывает новые возможности для LVLMs в области глубокой творческой имитации.

Annotation:

This paper introduces VisuCraft, a novel framework designed to significantly enhance the capabilities of Large Vision-Language Models (LVLMs) in complex visual-guided creative content generation. Existing LVLMs often exhibit limitations in maintaining high visual fidelity, genuine creativity, and precise adherence to nuanced user instructions when generating long-form texts. VisuCraft addresses these challenges by integrating a multimodal structured information extractor (E) and a dynamic prompt...

ID: 2508.02890v1 cs.CV, cs.CL

arXiv PDF

📄 Beyond Meme Templates: Limitations of Visual Similarity Measures in Meme Matching

2025-08-09

Авторы:

Muzhaffar Hazman, Susan McKeever, Josephine Griffith

**Резюме** В статье Beyond Meme Templates: Limitations of Visual Similarity Measures in Meme Matching рассматривается проблема ограниченности существующих подходов к сопоставлению мемов, основанных на шаблонах (template-based memes). Традиционные методы сравнивают только общую часть визуальных элементов (темплейт), что игнорирует большую часть мемов, не являющихся шаблонными. Авторы предлагают более обширную формулировку задачи Meme Matching, охватывающую не только шаблонные мемы, но и другие форматы. Они показывают, что существующие меры сходства (в том числе и новые, разбивки на сегменты) эффективны для шаблонных мемов, но неэффективны для нешаблонных. Наконец, авторы исследуют подход, основанный на подсказках (prompting) и использующий предобученный модель Multimodal Large Language Model для решения проблемы сопоставления мемов. Основной вывод — необходимость развития более сложных методов сопоставления, учитывающих все аспекты визуальных элементов мемов.

Annotation:

Internet memes, now a staple of digital communication, play a pivotal role in how users engage within online communities and allow researchers to gain insight into contemporary digital culture. These engaging user-generated content are characterised by their reuse of visual elements also found in other memes. Matching instances of memes via these shared visual elements, called Meme Matching, is the basis of a wealth of meme analysis approaches. However, most existing methods assume that every me...

ID: 2508.03562v1 cs.CV, cs.CL

arXiv PDF

Показано 171 - 180 из 185 записей