📚 Саммари научных статей из arXiv

Найдено 161 результатов по запросу 'cs.CV, cs.AI, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Designing Practical Models for Isolated Word Visual Speech Recognition

2025-08-27

Авторы:

Iason Ioannis Panagos, Giorgos Sfikas, Christophoros Nikou

## Контекст Визуальная распознавание речи (Visual Speech Recognition, VSR) — это система, которая распознает произносимые слова только на основе видеоданных. Такие системы находят применение в различных областях, в том числе в медицине, где они могут облегчать общение между пациентом и врачом, и в интерактивных технологиях, в комбинации с голосовым распознаванием для расширения возможностей взаимодействия с устройствами. Однако, существующие модели часто требуют высоких вычислительных ресурсов, что ограничивает их применение в сценариях с ограниченными ресурсами. Эта проблема мотивирует разработку моделей с низкими требованиями к ресурсам, которые были бы эффективными и применимыми в реальной жизни. ## Метод Мы разрабатываем новые модели VSR, основанные на двух-сетевой архитектуре. В этой постановке одна сеть отвечает за извлечение визуальных признаков, а другая — за классификацию последовательности. Мы используем эффективные модели из области классификации изображений для извлечения признаков, а затем применяем легкие блоки во временной коConvNets для классификации последовательностей. Это позволяет создавать модели с низкими требованиями к ресурсам, не отказываясь от высокой точности распознавания. ## Результаты Мы проводим эксперименты на крупнейшей доступной базе данных для распознавания английских слов. Наши модели показывают высокую точность распознавания, сопоставимую с традиционными моделями, но с значительно более низкими требованиями к вычислительным ресурсам. Это демонстрирует эффективность разработанных архитектур и их пригодность для реального применения. ## Значимость Разработанные модели могут быть применены во многих областях, включая медицину, где эффективность вычислений критична, и в интерактивных технологиях. Их низкое требование к ресурсам делает их привлекательными для использования на устройствах с ограниченными мощностями, таких как мобильные устройства. Это открывает путь к более широкому развертыванию VSR-систем в реальных сценариях. ## Выводы Мы разработали эффективные и практичные модели для визуального распознавания речи, которые обеспечивают высокую точность с минимальными требованиями к ресурсам. Наши результаты открывают новые возможности для развертывания VSR-систем в реальных сценариях. Мы также направляем свои усилия на дальнейшие исследования, нацеленные на дальнейшее сокращение требований к ресурсам и улучшение точности распознавания.

Annotation:

Visual speech recognition (VSR) systems decode spoken words from an input sequence using only the video data. Practical applications of such systems include medical assistance as well as human-machine interactions. A VSR system is typically employed in a complementary role in cases where the audio is corrupt or not available. In order to accurately predict the spoken words, these architectures often rely on deep neural networks in order to extract meaningful representations from the input sequen...

ID: 2508.17894v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 SpecVLM: Enhancing Speculative Decoding of Video LLMs via Verifier-Guided Token Pruning

2025-08-26

Авторы:

Yicheng Ji, Jun Zhang, Heming Xia, Jinpeng Chen, Lidan Shou, Gang Chen, Huan Li

## Контекст Видео-большие языковые модели (Video Large Language Models, Vid-LLMs) отличаются сильными способностями в понимании видеоконтента. Однако их зависимость от детальных представлений видеотокенов приводит к значительным требованиям к памяти и вычислительным ресурсам в процессах заполнения и декодирования. Эта проблема становится актуальной при использовании Vid-LLMs в реальном времени, таких как гибридные модели, которые объединяют видео- и текстовые задачи. Необходимо уменьшить накладные расходы на заполнение и декодирование без потери точности. ## Метод SpecVLM представляет собой фреймворк для спекулятивного декодирования (SD), основывающийся на трёх основных компонентах: 1) **Staged Token Pruning (STP)**, 2) **Draft Model Pruning Sensitivity Analysis**, и 3) **Verifier-Guided Token Pruning (VGTP)**. Фреймворк использует нейросетевой декодер, сочетающий в себе модель спекулятивного декодирования и модель верификатора. Для эффективного уменьшения количества видеотокенов, SpecVLM проводит двухступенчатое удаление ненужных токенов: сначала выбираются токены, оптимальные для декодирования, а затем происходит удаление остальных токенов с помощью простого, но эффективного метода. ## Результаты Проведенные эксперименты показали, что SpecVLM эффективно ускоряет декодирование для ряда Vid-LLMs. Например, для модели LLaVA-OneVision-72B достигнут ускорение до **2.68×**, при этом не теряется точности. Также для модели Qwen2.5-VL-32B был получен ускорение **2.11×**. Эти результаты достигнуты благодаря удалению до 90% ненужных видеотокенов, что позволяет значительно сократить вычислительные затраты без потери качества. ## Значимость Видоизменённый SpecVLM открывает новые возможности для гибридных моделей, объединяющих видео- и текстовые задачи. Он предоставляет удачное решение для эффективного использования ресурсов, быстрого декодирования и обработки видеоконтента в реальном времени. SpecVLM может быть применён в различных областях, таких как видеоаналитика, реальном времени анализе, автоматическом применении моделей в области контента. ## Выводы SpecVLM доказывает его эффективность в ускорении декодирования Vid-LLMs, существенно сокращая требования к памяти и вычислительным ресурсам без потери точности. Дальнейшие исследования будут направлены на расширение SpecVLM для дополнительных моделей Vid-LLMs и улучшение его работы в более сложных задачах видео- и текстового анализа.

Annotation:

Video large language models (Vid-LLMs) have shown strong capabilities in understanding video content. However, their reliance on dense video token representations introduces substantial memory and computational overhead in both prefilling and decoding. To mitigate the information loss of recent video token reduction methods and accelerate the decoding stage of Vid-LLMs losslessly, we introduce SpecVLM, a training-free speculative decoding (SD) framework tailored for Vid-LLMs that incorporates st...

ID: 2508.16201v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Structured Prompting and Multi-Agent Knowledge Distillation for Traffic Video Interpretation and Risk Inference

2025-08-21

Авторы:

Yunxiang Yang, Ningning Xu, Jidong J. Yang

#### Контекст Интеллектуальные транспортные системы (ITS) и автономное вождение требуют эффективного понимания городских и автострадных сцен, а также точного выявления рисков в дорожном трафике. Однако существующие подходы часто сталкиваются с проблемами в области масштабируемости, гибкости и достоверности анализа в условиях сложной и динамичной среды. Эти ограничения приводят к недостаточной точности и неспособности работать в реальном времени. Многие существующие модели не могут обрабатывать видео с низким разрешением или генерировать подробные, контекстуально обоснованные оценки риска. Требуется разработка новых архитектур, которые бы способствовали улучшению точности и эффективности таких систем. #### Метод Мы предлагаем развитый подход, основанный на идее **Structured Prompting** и **Multi-Agent Knowledge Distillation**. Данная модель использует две большие Vision-Language Models (VLMs): GPT-4o и o3-mini. Используя **Chain-of-Thought (CoT)**, эти модели создают разноплановые и подробные выводы, которые в дальнейшем используются для подготовки знаний (pseudo-annotations). Эти аннотации используются для файн-тюнинга меньшего модели, оптимизированной под ресурсы. Результирующая модель, VISTA (Vision for Intelligent Scene and Traffic Analysis), получает мощные результаты в гибридной задаче видео-обработки и риск-инференции, несмотря на то, что имеет многократно меньшую параметрическую структуру. Это позволяет оптимизировать модель для работы на ресурс-ограниченных устройствах, таких как роутеры и смартфоны. #### Результаты В ходе экспериментов мы сравнивали нашу модель VISTA с другими моделями, используя стандартные метрики качества в области видео-описаний, такие как BLEU-4, METEOR, ROUGE-L и CIDEr. Наши результаты показали, что VISTA существенно превосходит своих тестовых моделей по этим метрикам, несмотря на значительное сокращение количества параметров. Мы также проводили эксперименты в среде реального трафика, где видео с низким разрешением были обработаны VISTA с помощью алгоритмов риск-инференции. Эти результаты показали, что VISTA удается генерировать достоверные оценки риска и сформировать контекстуально обоснованные описания трафика, даже при ограниченных возможностях вычислительных ресурсов. #### Значимость Наш подход имеет широкие возможности для применения в различных областях, включая ITS, автономное вождение и системы безопасности транспорта. Визуальный мониторинг трафика, построенный на VISTA, может быть использован для анализа транспортных проблем, оценки рисков и управления дорожной съемкой. Его мощность заключается в том, что он сочетает в себе высокую точность с низкими

Annotation:

Comprehensive highway scene understanding and robust traffic risk inference are vital for advancing Intelligent Transportation Systems (ITS) and autonomous driving. Traditional approaches often struggle with scalability and generalization, particularly under the complex and dynamic conditions of real-world environments. To address these challenges, we introduce a novel structured prompting and knowledge distillation framework that enables automatic generation of high-quality traffic scene annota...

ID: 2508.13439v1 cs.CV, cs.AI, cs.CL, eess.IV

arXiv PDF

📄 RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation

2025-08-21

Авторы:

Tianyi Niu, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal

## Контекст Одной из основных задач многомодальных бо LLM (MLLM) является выявление и интерпретация контекстных связей внутри изображений. Несмотря на то, что человеческая перцепция способна легко определять ориентацию изображений, даже при их многообразии, авторы указывают на возможную слабость моделей в распознавании ориентаций, особенно при поворотах на 90° и 270°. Это проблема может быть связана с недостаточной способностью моделей выполнять геометрическое и спациальное разумование, необходимое для выявления характерных признаков. Мотивация появления RotBench -- создать манновую базу данных для измерения этих способностей на современных MLLM-моделях. ## Метод Разработанный RotBench состоит из 350 ручному фильтрованию изображений, разделенных на 3 класса: лендинги, портреты и стиль жизни. Изображения были поворачиваны на разные углы: 0°, 90°, 180° и 270°. Для оценки моделей использовался тест на выявление направления вращения. Модели оценивались с использованием аудиокапций, вспомогательных данных и прочих технических решений, таких как chain-of-thought prompting. ## Результаты Результаты свидетельствуют, что самые мощные модели, включая GPT-5 и Gemini, не способны выявлять поворот на 90° и 270° с высокой точностью, даже при использовании дополнительных подсказок. Однако они успешно распознают поворот на 0° и, в определенных случаях, на 180°. Увеличение количества вариантов одного изображения с разными поворотами повышало точность, но не достигало значительных улучшений. Файн-тюнинг, в том числе с использованием цепочки мыслей, улучшал только распознавание на 180°, не влияя на 90° и 270°. ## Значимость Результаты RotBench показывают, что существует значительная разница между способностями MLLM и человеческой способностью распознавать ориентацию изображений. Данные модели слабо подходят для решения задач, которые требуют большого контекстного понимания и геометрического визуального рассуждения. RotBench может использоваться в качестве бенчмарка для развития новых моделей с улучшенными способностями визуального и логического рассуждения. ## Выводы Результаты исследования RotBench показывают, что текущие MLLM-модели имеют существующие проблемы в обработке задач, требующих высокого уровня визуального и геометрического рассуждения. Будущие исследования должны сфокусироваться на развитии моделей, которые способны лучше интерпретировать контекст и выполнять геометрическое визуальное рассуждение, чтобы закрыть нынешние пробелы в способностях моделей.

Annotation:

We investigate to what extent Multimodal Large Language Models (MLLMs) can accurately identify the orientation of input images rotated 0{\deg}, 90{\deg}, 180{\deg}, and 270{\deg}. This task demands robust visual reasoning capabilities to detect rotational cues and contextualize spatial relationships within images, regardless of their orientation. To evaluate MLLMs on these abilities, we introduce RotBench -- a 350-image manually-filtered benchmark comprising lifestyle, portrait, and landscape im...

ID: 2508.13968v2 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Ovis2.5 Technical Report

2025-08-19

Авторы:

Shiyin Lu, Yang Li, Yu Xia, Yuwei Hu, Shanshan Zhao, Yanqing Ma, Zhichao Wei, Yinglun Li, Lunhao Duan, Jianshan Zhao, Yuxuan Han, Haijun Li, Wanying Chen, Junke Tang, Chengkun Hou, Zhixing Du, Tianli Zhou, Wenjie Zhang, Huping Ding, Jiahe Li, Wen Li, Gui Hu, Yiliang Gu, Siran Yang, Jiamang Wang, Hailong Sun, Yibo Wang, Hui Sun, Jinlong Huang, Yuping He, Shengze Shi, Weihong Zhang, Guodong Zheng, Junpeng Jiang, Sensen Gao, Yi-Feng Wu, Sijia Chen, Yuhui Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang

## Контекст Ovis2.5 является усовершенствованием Ovis2, разработанным для нативного разрешения визуального восприятия и сильного многомодального разума. Он интегрирует трансформер визуального восприятия нативного разрешения, обрабатывающий изображения в их первоначальных, переменных разрешениях. Это позволяет избежать ухудшения качества, связанного с фиксированным разрешением, и сохранить как тонкие детали, так и глобальный макет, что крайне важно для текстов с большим количеством информации, таких как сложные чарты. Дополнительно, модель обучена перейти за линейный цепочный способ мышления и выполнять рефлексию, включая самопроверку и корректировку. Эта расширенная функция доступна в качестве дополнительного "режима мышления" во время интерпретации, позволяя пользователям соотносить затраты на процессорное время с улучшением точности в сложных задачах. Обучение Ovis2.5 проходит через пятиэтажную систему курса, постепенно углубляющую свои навыки. Эта процедура начинается с основных визуальных и многомодальных предварительных тренировок, потом переходит к широкомасштабному тюнингу инструкций и заканчивается выравниванием и улучшением разума с помощью DPO и GRPO. Для эффективного масштабирования этих улучшений, авторы использовали мультимодальный пакетный данных и гибридную параллельность, что привело к значительному ускорению в общем виде. ## Метод Ovis2.5 использует совершенно новую конструкцию, включающую в себя трансформер визуального восприятия нативного разрешения, который обрабатывает изображения в их исходных разрешениях. Это позволяет избежать потерь деталей и глобального макета, которые могут возникнуть при использовании фиксированного разрешения. Более того, модель обучена выступать в режиме "мышления", что позволяет перемещаться за линейный цепочный способ мышления и выполнять рефлексию, включая самопроверку и корректировку. Этот режим может быть активирован во время интерпретации, чтобы улучшить точность на сложных задачах, при этом это может привести к увеличению затрат на процессорное время. Для обучения использовалась пятиэтажная система курса, которая постепенно углубляет навыки модели. Этот процесс начинается с основных визуальных и многомодальных предварительных тренировок, затем переходит к широкомасштабному тюнингу инструкций и завершается выравниванием и улучшением разума с помощью DPO и GRPO. ## Результаты Проведенные эксперименты показали, что Ovis2.5-9B показал средний результат 78.3 на OpenCompass multimodal leaderboard, что значительно превышает результаты Ovis2-8B и других открытых моделей с менее чем 40B параметра

Annotation:

We present Ovis2.5, a successor to Ovis2 designed for native-resolution visual perception and strong multimodal reasoning. Ovis2.5 integrates a native-resolution vision transformer that processes images at their native, variable resolutions, avoiding the degradation from fixed-resolution tiling and preserving both fine detail and global layout -- crucial for visually dense content like complex charts. To strengthen reasoning, we train the model to move beyond linear chain-of-thought and perform ...

ID: 2508.11737v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Labels or Input? Rethinking Augmentation in Multimodal Hate Detection

2025-08-19

Авторы:

Sahajpreet Singh, Rongxin Ouyang, Subhayan Mukerjee, Kokil Jaidka

#### Контекст Современное веб-пространство поsылает значительные вызовы для моделей визионно-языковых систем (Vision-Language Models, VLMs) при обнаружении враждебного контента, такого как хейт-спич, где формируется вредное воздействие скрытым образом в контексте юмора или сатиры. Существующие модели часто недостаточно гибки в плане настройки входных данных и структуры задач. Кроме того, их уязвимость к неявному хейт-спичу ограничивает их эффективность в ситуациях, где тонкость взаимодействия текста и изображения ключом к пониманию тонких нюансов. В статье предлагается подход, который направляется на улучшение обнаружения хейт-спича с помощью гибкого проектирования моделей и синтетических данных. #### Метод Методология основывается на двух основных компонентах. Во-первых, структурированные предложения (prompts), которые позволяют контролировать уровень гибкости в обучении и настройке системы. Во-вторых, многоагентная система, сочетающая в себе визуальную и языковую модели (LLM-VLM), для генерации синтетических данных. Эта система генерирует 2479 противоположных к хейт-спичу модификаций мемов, изолируя и переписывая хейт-спические модификации. Это улучшает обнаружение и снижает спуфинг, позволяя модели лучше ориентироваться на различные контексты. #### Результаты Используя данные из различных моделей (включая InternVL2), авторы проводили эксперименты для оценки эффективности своих подходов. Отчет о первом подходе, связанном с оптимизацией предложений, показал улучшение устойчивости модели даже в моделях меньшего размера. Отчет о данных, сгенерированных многоагентной системой, показал уменьшение ненужных корреляций и улучшение генерализируемости классификатора. #### Значимость Подходы, предлагаемые в статье, могут применяться в области мониторинга хейт-спича в социальных сетях, интерактивном анализе контента, а также в поиске ненужных зависимостей в данных. Они выделяются тем, что улучшают робастность моделей, снижая зависимость от их размера, и позволяют более эффективно учитывать контекст в обнаружении хейт-спича. #### Выводы В результате исследования было доказано, что гибкость в структуре задачи и в размере модели, а также целенаправленная генерация синтетических данных, являются ключевыми факторами для улучшения обнаружения хейт-спича. Будущие исследования будут сфокусированы на расширении этого подхода на другие типы враждебного контента и создании более тонких методов для обнаружения неявного негативного контента в реальных сетях.

Annotation:

The modern web is saturated with multimodal content, intensifying the challenge of detecting hateful memes, where harmful intent is often conveyed through subtle interactions between text and image under the guise of humor or satire. While recent advances in Vision-Language Models (VLMs) show promise, these models lack support for fine-grained supervision and remain susceptible to implicit hate speech. In this paper, we present a dual-pronged approach to improve multimodal hate detection. First,...

ID: 2508.11808v1 cs.CV, cs.AI, cs.CL, cs.CY, cs.MM, I.2.7; I.2.10

arXiv PDF

📄 EVTP-IVS: Effective Visual Token Pruning For Unifying Instruction Visual Segmentation In Multi-Modal Large Language Models

2025-08-19

Авторы:

Wenhui Zhu, Xiwen Chen, Zhipeng Wang, Shao Tang, Sayan Ghosh, Xuanzhao Dong, Rajat Koner, Yalin Wang

#### Контекст В последние годы появились многомодальные большие языковые модели (MLLMs), которые оперируют несколькими типами данных, включая текст и изображения. Одной из ключевых задач, с которой сталкиваются такие модели, является Instructed Visual Segmentation (IVS), или указательная визуальная сегментация. Задача IVS заключается в том, чтобы выделить объекты на изображении или видео в соответствии с естественным языковым запросом. Несмотря на то, что MLLMs достигли высокой точности в IVS, их высокий косвенный затратный порог, особенно при работе с видео, остается значительной проблемой. Это ограничение становится все более актуальным в ситуациях, требующих реального времени. В этой статье мы исследуем эффективность визуальных токенов в MLLMs и разрабатываем метод, который позволяет сократить накладные расходы без существенного ущерба качеству. #### Метод Мы предлагаем на основе EVTP-IVS, новый метод эффективной визуальной токен-прайзинг, который оптимизирует выбор токенов для того, чтобы сохранить максимальную информативность с минимальным количеством токенов. Метод основывается на алгоритме k-center, который включает в себя специальные техники для учета пространственной информации. Это позволяет гарантировать представительность выделяемых областей изображения или видео. Мы также применяем информационно-теоретический анализ, который подтверждает эффективность нашего подхода. Решение EVTP-IVS целенаправленно уменьшает требования к вычислительным ресурсам без потери качества, что делает его пригодным для применения в реальном времени. #### Результаты Мы провести эксперименты на нескольких стандартных IVS-benchmarks, включая образцы изображений и видео. Наши результаты показывают, что EVTP-IVS дает скорость выполнения задачи до 5 раз выше на видео-задачах и до 3,5 раз на изображениях, сохранив при этом около 80% токенов. Это приводит к значительной экономии времени и ресурсов при сохранении высокой точности. Метод EVTP-IVS также показал лучшие результаты по сравнению с другими методами упрощения вывода, в том числе с теми, которые используют более сложные архитектуры или методы. #### Значимость Предлагаемый метод EVTP-IVS имеет широкие возможности применения в сферах, требующих высокой производительности и эффективности. Например, это может быть использовано в робототехнике, автоматизированной работе, в задачах анализа видео на требовательных устройствах или в ситуациях, где ресурсы вычислений ограничены. Наш подход не только уменьшает стоимость вычислений, но и улучшает производительность в реальном времени, что открывает

Annotation:

Instructed Visual Segmentation (IVS) tasks require segmenting objects in images or videos based on natural language instructions. While recent multimodal large language models (MLLMs) have achieved strong performance on IVS, their inference cost remains a major bottleneck, particularly in video. We empirically analyze visual token sampling in MLLMs and observe a strong correlation between subset token coverage and segmentation performance. This motivates our design of a simple and effective toke...

ID: 2508.11886v1 cs.CV, cs.AI, cs.CL, cs.LG, eess.IV

arXiv PDF

📄 VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models

2025-08-19

Авторы:

Haidong Xu, Guangwei Xu, Zhedong Zheng, Xiatian Zhu, Wei Ji, Xiangtai Li, Ruijie Guo, Meishan Zhang, Min zhang, Hao Fei

## Контекст В последние годы выражающееся увеличение количества видеоданных, собранных методом видеосъемки, обусловило развитие многообразных моделей, ориентированных на анализ и понимание такого типа данных. Одной из главных проблем в этой сфере является создание моделей, которые могут эффективно использовать видеоданные для генерации моделей движений. Одним из наиболее актуальных подходов является видео-подкрепленная модель генерации трехмерных движений, которая может обнаружить и использовать знания из больших баз данных видео для улучшения генерации движений. Однако существуют значительные проблемы, связанные с ограниченностью данных для обучения, ошибками во время генерации и высоким уровнем комплексности процесса. Эти проблемы привели к развитию моделей, которые могут использовать видео для повышения качества генерации трехмерных моделей движения. ## Метод Метод, представленный в работе, называется **VimoRAG**. Это новая рама, ориентированная на видео, которая использует возможности видео-подкрепленных моделей для улучшения генерации трехмерных движений. Рама включает несколько ключевых компонентов, таких как **Gemini Motion Video Retriever**, который отвечает за эффективное выявление и выборка 2D моделей движения из базы данных видео, и **Motion-centric Dual-alignment DPO Trainer**, который укрепляет связь между выбранными моделями движения и генерируемыми трехмерными моделями движения. Эта архитектура позволяет VimoRAG решать два ключевых проблемы: (1) повышение эффективности модели поиска 2D движений, которая отличает позы и действия, и (2) уменьшение ошибок, возникающих в процессе генерации движений в результате неудачных выборок. Таким образом, VimoRAG предлагает совершенствованный подход к видео-подкрепленной генерации трехмерных моделей движения. ## Результаты Результаты исследований показывают, что VimoRAG существенно повышает качество генерации трехмерных моделей движения в сравнении с существующими моделями. Эксперименты проводились на большом объеме видеоданных, включая широкую палитру 2D моделей движения. Использование видео-подкрепленной модели позволило VimoRAG различать различные типы движения и позы в видео, что приводило к более точной и качественной генерации трехмерных моделей движения. Результаты показывают, что VimoRAG существенно повышает качество генерации движений, даже при ограниченном количестве данных для обучения. Это указывает на эффективность этого подхода в решении проблем, связанных с ограниченностью данных и ошибками во время генерации. ## Значимость Разработанная модель VimoRAG имеет большой потенциал в различных областях, таких как

Annotation:

This paper introduces VimoRAG, a novel video-based retrieval-augmented motion generation framework for motion large language models (LLMs). As motion LLMs face severe out-of-domain/out-of-vocabulary issues due to limited annotated data, VimoRAG leverages large-scale in-the-wild video databases to enhance 3D motion generation by retrieving relevant 2D human motion signals. While video-based motion RAG is nontrivial, we address two key bottlenecks: (1) developing an effective motion-centered video...

ID: 2508.12081v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Adversarial Attacks on VQA-NLE: Exposing and Alleviating Inconsistencies in Visual Question Answering Explanations

2025-08-19

Авторы:

Yahsin Yeh, Yilun Wu, Bokai Ruan, Honghan Shuai

#### Контекст Visual question answering (VQA) — это область искусственного интеллекта, где модели пытаются ответить на вопросы, касающиеся изображений, используя естественный язык. Ответы могут быть подкреплены естественным языковым объяснением (NLE), чтобы сделать модели более прозрачными и понятными. Однако многие VQA-NLE-системы склонны к несогласованности в своих выводах и неполноте в понимании контекста, что означает, что они могут достичь конclusion без полной осмысленности или понимания изображений и вопросов. Это ставит под сомнение надежность и безопасность таких систем. Мы предлагаем рассмотреть эти проблемы, выявив их источник и предложив методы их устранения. #### Метод Мы разработали два типа атак, чтобы эмпирически продемонстрировать проблемы в VQA-NLE. **Первая методика** — это минимальное изменение вопроса с использованием adversarial attack, чтобы вызвать несогласованные выводы. **Вторая методика** — это минимальное изменение изображения, использующее атаки на небольшие области, чтобы вызвать спурвидные или противоречивые ответы, несогласованные с исходным контекстом. Оптимизируя эти методики, мы моделируем типичные ситуации, где модели VQA-NLE могут достигнуть неверных выводов. Мы также предлагаем **метод защиты**, основанный на внешнем знании, который позволяет улучшить robustness и предотвращать такие проблемы. #### Результаты Мы проводили эксперименты на двух стандартных бенчмарках VQA, используя две модели NLE (Одна из них — VQA-Counterfactual Explanations). Наши атаки демонстрировали способность вызвать несогласованные выводы и противоречивые ответы в значительных пропорциях. В сравнении с базовыми моделями, мы оказали, что наши методы действительно выявляют уязвимости в VQA-NLE. Метод защиты, основанный на внешнем знании, показал значительные улучшения в метриках robustness, сократив количество несогласованных выводов на значительные проценты. #### Значимость Наши результаты показывают, что VQA-NLE-системы могут стать жертвами несогласованности и недостаточного понимания контекста. Это может привести к ошибкам в принятии решений, что имеет критические последствия в задачах, требующих высокой надежности. Наши методы защиты могут быть применены в различных областях, таких как проверка качества видео-изображений, системы безопасности, и медицинские приложения. Мы считаем, что наша работа может способствовать повышению надежности и безопасности VQA-NLE, и дальнейшие исследования должны сосредоточиться на повышении robustness и точности в обучении VQA-NLE системам. #### Выводы Мы выявили и продемонстрировали проблемы несогласованности и неполного понимания в VQA-NLE. Наши атаки эффективно выявили эти узкие

Annotation:

Natural language explanations in visual question answering (VQA-NLE) aim to make black-box models more transparent by elucidating their decision-making processes. However, we find that existing VQA-NLE systems can produce inconsistent explanations and reach conclusions without genuinely understanding the underlying context, exposing weaknesses in either their inference pipeline or explanation-generation mechanism. To highlight these vulnerabilities, we not only leverage an existing adversarial s...

ID: 2508.12430v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 A Cross-Modal Rumor Detection Scheme via Contrastive Learning by Exploring Text and Image internal Correlations

2025-08-19

Авторы:

Bin Ma, Yifei Zhang, Yongjin Xian, Qi Li, Linna Zhou, Gongxun Miao

#### Контекст Румурная деятельность в современных социальных сетях широко распространена и может иметь серьезные последствия, в том числе ущерб репутации, финансовые потери и даже угрозы безопасности. Однако автоматическое распознавание румурных сообщений остается вызовом, в связи с тем, что люди часто выражают свои мнения в виде комбинации текста и изображений, которые могут содержать ключевую информацию для распознавания румурности. Настоящая статья направлена на изучение этих проблем, с целью разработать более эффективный подход к распознаванию румурных сообщений, используя методы мультискалевого анализа и контрастного обучения. #### Метод Метод, предложенный в статье, основывается на методе контрастного обучения, а именно на алгоритме Multi-scale Image and Context Correlation exploration (MICC). Основной идеей является создание объединенных семантических векторов для текста и многомерных образов с помощью SCLIP-энкодера. Этот энкодер обучается с помощью метода contrastive pretraining, что позволяет измерить взаимную связь текста и изображений через dot-product similarity. Далее, введен модуль Cross-Modal Multi-Scale Alignment, который использует Top-K selection strategy для выделения наиболее релевантных областей изображений в контексте текста. Это достигается с помощью cross-modal relevance matrix и максимизации mutual information. Наконец, scale-aware fusion network используется для объединения многомерных фичей изображений с глобальными текстовыми фичами, присваивая адаптивные весы на основе семантической важности и cross-modal relevance. #### Результаты Проведены эксперименты на двух реальных датасетах, чтобы оценить эффективность предложенного метода. Результаты показали, что MICC существенно превосходит существующие методы в задаче распознавания румурных сообщений. Особенно выдающимися результатами оказалось улучшение accuracy, F1-score и recall. Эти результаты подтверждают многомерность и эффективность применения контрастного обучения в задачах кросс-модального распознавания. #### Значимость Предложенная модель может быть применена в различных сферах, таких как мониторинг социальных сетей, борьба с массовыми паничными и распространением вирусов информации. Основные преимущества MICC заключаются в том, что он учитывает многомерные связи между текстом и изображениями, обеспечивая более точное и достоверное распознавание румурных сообщений. Потенциальное влияние метода заключается в повышении точности распознавания и уменьшении ложных срабатываний, что может существенно повысить качество работы моделей в приложениях в режиме реального времени. #### Выводы Результаты предложенного метода MICC показывают, что контрастное обучение может значительно повысить эффективность распознавания румурных соо

Annotation:

Existing rumor detection methods often neglect the content within images as well as the inherent relationships between contexts and images across different visual scales, thereby resulting in the loss of critical information pertinent to rumor identification. To address these issues, this paper presents a novel cross-modal rumor detection scheme based on contrastive learning, namely the Multi-scale Image and Context Correlation exploration algorithm (MICC). Specifically, we design an SCLIP encod...

ID: 2508.11141v1 cs.CV, cs.AI, cs.CL

arXiv PDF

1
2
13
14
15
16
17

Показано 141 - 150 из 161 записей