📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Modality Bias in LVLMs: Analyzing and Mitigating Object Hallucination via Attention Lens

2025-08-09

Авторы:

Haohan Zheng, Zhenguo Zhang

**Резюме** Наблюдается существенная проблема в работе бо LLM (Large Vision-Language Models): object hallucination — генерация неточных или бессмысленных описаний объектов в изображениях. Основной причиной этого случается модальное болтанье, когда модель неправильно обрабатывает информацию разных модальностей (визуальная и текстовая). Данная проблема мешает LVLMs корректно выполнять пользовательские запросы, так как они предпочитают одну модальность, в то время как другая недостаточно учитывается. Предлагаемое решение заключается в том, чтобы скорректировать веса взаимодействия между модальностями, чтобы лучше выравнять результаты с пользовательскими задачами. Это делается путем настройки взаимодействия токенов текста и визуала, стимулируя модель более равномерно учитывать обе модальности. Более того, для уменьшения зависимости модели от внутреннего знания, используются стратегии контрастного декодирования. В результате, наши эксперименты подтверждают, что предложенное решение эффективно снижает object hallucination на различных LVLMs и дает хорошие результаты в различных бенчмарках, подтверждая гибкость и эффективность метода.

Annotation:

Large vision-language models (LVLMs) have demonstrated remarkable multimodal comprehension and reasoning capabilities, but they still suffer from severe object hallucination. Previous studies primarily attribute the flaw to linguistic prior caused by the scale mismatch between visual encoders and large language models (LLMs) in LVLMs. Specifically, as current LVLMs are built upon LLMs, they tend to over-rely on textual prompts and internal knowledge of LLMs, generating descriptions inconsistent ...

ID: 2508.02419v1 cs.CV, cs.CL

arXiv PDF

📄 VisuCraft: Enhancing Large Vision-Language Models for Complex Visual-Guided Creative Content Generation via Structured Information Extraction

2025-08-09

Авторы:

Rongxin Jiang, Robert Long, Chenghao Gu, Mingrui Yan

Данная работа представляет собой VisuCraft — платформу, повышающую потенциал Large Vision-Language Models (LVLMs) в создании комплексных визуально-регулируемых творческих текстов. Легко отмечается, что существующие LVLMs сталкиваются с проблемами в обеспечении высокой визуальной точности, творчества и точности выполнения пользовательских инструкций при генерации длинных текстов. VisuCraft предлагает решение, объединяя мультимодальный структурированный экстрактор (E) и модуль динамической генерации подсказок (G). Экстрактор определяет тонкие визуальные атрибуты изображений, а модуль G создает пространственно оптимизированные подсказки, интегрируя их с пользовательскими инструкциями для подключенных LVLMs (например, LLaVA или InstructBLIP). На новом ImageStoryGen-500K датасете, оцененном по VisuGen Metrics (Visual Grounding, Creativity, Instruction Adherence), VisuCraft показал существенные улучшения по сравнению с базовыми LVLMs, особенно в творчестве и соблюдении инструкций. Это работа открывает новые возможности для LVLMs в области глубокой творческой имитации.

Annotation:

This paper introduces VisuCraft, a novel framework designed to significantly enhance the capabilities of Large Vision-Language Models (LVLMs) in complex visual-guided creative content generation. Existing LVLMs often exhibit limitations in maintaining high visual fidelity, genuine creativity, and precise adherence to nuanced user instructions when generating long-form texts. VisuCraft addresses these challenges by integrating a multimodal structured information extractor (E) and a dynamic prompt...

ID: 2508.02890v1 cs.CV, cs.CL

arXiv PDF

📄 Beyond Meme Templates: Limitations of Visual Similarity Measures in Meme Matching

2025-08-09

Авторы:

Muzhaffar Hazman, Susan McKeever, Josephine Griffith

**Резюме** В статье Beyond Meme Templates: Limitations of Visual Similarity Measures in Meme Matching рассматривается проблема ограниченности существующих подходов к сопоставлению мемов, основанных на шаблонах (template-based memes). Традиционные методы сравнивают только общую часть визуальных элементов (темплейт), что игнорирует большую часть мемов, не являющихся шаблонными. Авторы предлагают более обширную формулировку задачи Meme Matching, охватывающую не только шаблонные мемы, но и другие форматы. Они показывают, что существующие меры сходства (в том числе и новые, разбивки на сегменты) эффективны для шаблонных мемов, но неэффективны для нешаблонных. Наконец, авторы исследуют подход, основанный на подсказках (prompting) и использующий предобученный модель Multimodal Large Language Model для решения проблемы сопоставления мемов. Основной вывод — необходимость развития более сложных методов сопоставления, учитывающих все аспекты визуальных элементов мемов.

Annotation:

Internet memes, now a staple of digital communication, play a pivotal role in how users engage within online communities and allow researchers to gain insight into contemporary digital culture. These engaging user-generated content are characterised by their reuse of visual elements also found in other memes. Matching instances of memes via these shared visual elements, called Meme Matching, is the basis of a wealth of meme analysis approaches. However, most existing methods assume that every me...

ID: 2508.03562v1 cs.CV, cs.CL

arXiv PDF

📄 Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?

2025-08-09

Авторы:

Wenxuan Shen, Mingjia Wang, Yaochen Wang, Dongping Chen, Junjie Yang, Yao Wan, Weiwei Lin

**Резюме** В статье предлагается Double-Bench — новая крупномасштабная, многоязыковая и мультимодальная система оценки для Retrieval-Augmented Generation (RAG) систем, использующих Multimodal Large Language Models (MLLMs). Недостаточное тестирование является ключевой проблемой в развитии таких систем, так как существующие бенчмарки фокусируются на частичных аспектах RAG-систем и используют синтетические данные с неполными меток правдивости и значимости. Double-Bench предлагает полную оценку каждого компонента RAG-системы, включая 72 880 страниц данных в 6 языках и 4 типах документов. Эта система поддерживает динамическое обновление для борьбы с загрязнением данных и использует экспертные оценки для гарантии высокого качества. Основные выводы экспериментов показывают, что разница в эффективности между текстовыми и визуальными моделями снижается, что демонстрирует необходимость в развитии мощных моделей документного поиска. Также выявлена "проблема переоценки": текущие RAG-системы часто выдают ответы даже при отсутствии доказательств. Double-Bench предлагается как универсальный инструмент для поиска решений этих проблем и будет обновляться ежегодно.

Annotation:

Retrieval-Augmented Generation (RAG) systems using Multimodal Large Language Models (MLLMs) show great promise for complex document understanding, yet their development is critically hampered by inadequate evaluation. Current benchmarks often focus on specific part of document RAG system and use synthetic data with incomplete ground truth and evidence labels, therefore failing to reflect real-world bottlenecks and challenges. To overcome these limitations, we introduce Double-Bench: a new large-...

ID: 2508.03644v1 cs.CL, cs.CV, cs.IR

arXiv PDF

📄 Can Large Vision-Language Models Understand Multimodal Sarcasm?

2025-08-09

Авторы:

Xinyu Wang, Yue Zhang, Liqiang Jing

Многомодальная сарказм-анализ (MSA) является сложной задачей, которая затрудняется способностью понимать диспаритет между литеральным и намеренным значением сарказма. Несмотря на развитие многомодальных подходов, применение больших лингво-визуальных моделей к этой задаче до сих пор недостаточно изучено. В данной работе анализируется эффективность таких моделей в MSA, в том числе в задачах детекции и объяснения сарказма. Найдены ключевые ограничения, такие как недостаточное понимание визуальной информации и отсутствие концептуальных знаний. Для устранения этих проблем предлагается новый тренировочно-свободный подход, который использует расширенное извлечение объектов и внешние концептуальные знания. Эксперименты показали, что предложенный подход улучшает точность и эффективность моделей в задачах MSA. Результаты опубликованы на https://github.com/cp-cp/LVLM-MSA.

Annotation:

Sarcasm is a complex linguistic phenomenon that involves a disparity between literal and intended meanings, making it challenging for sentiment analysis and other emotion-sensitive tasks. While traditional sarcasm detection methods primarily focus on text, recent approaches have incorporated multimodal information. However, the application of Large Visual Language Models (LVLMs) in Multimodal Sarcasm Analysis (MSA) remains underexplored. In this paper, we evaluate LVLMs in MSA tasks, specificall...

ID: 2508.03654v1 cs.CL, cs.CV

arXiv PDF

📄 ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents

2025-08-09

Авторы:

Zechen Li, Baiyu Chen, Hao Xue, Flora D. Salim

Отсутствие гибкости и интерпретируемости в существующих методах распознавания человеческих действий (HAR) чревато дорогостоящим переуправлением, когда внедряются новые действия или сенсорные устройства. Мы предлагаем ZARA — первый рамфрейм для нулевого-шота (zero-shot), способный распознавать действия напрямую из данных подвижности временных рядов, основываясь на автоматически создаваемой базе знаний о парах атрибутов и модуле навигации ресурсов. ZARA объединяет агентную систему, использующую технологии генеративных моделей языка (LLM), для решения задач HAR с помощью выбираемых функций и подробных выводов, обоснованных сенсорными данными. Мы проверили ZARA на 8 бенчмарках HAR и показали, что он делает более точные выводы с лучшим макро-F1-метрикой по сравнению со стандартными методами. Наши результаты подтверждают, что ZARA может стать промежуточным шагом к созданию доверительных, без вмешательства методов для анализа подвижности. Результаты доступны на GitHub.

Annotation:

Motion sensor time-series are central to human activity recognition (HAR), with applications in health, sports, and smart devices. However, existing methods are trained for fixed activity sets and require costly retraining when new behaviours or sensor setups appear. Recent attempts to use large language models (LLMs) for HAR, typically by converting signals into text or images, suffer from limited accuracy and lack verifiable interpretability. We propose ZARA, the first agent-based framework fo...

ID: 2508.04038v1 cs.CL, cs.CV

arXiv PDF

📄 ToxicTAGS: Decoding Toxic Memes with Rich Tag Annotations

2025-08-09

Авторы:

Subhankar Swain, Naquee Rizwan, Nayandeep Deb, Vishwajeet Singh Solanki, Vishwa Gangadhar S, Animesh Mukherjee

Мемы, как важной формой онлайн-коммуникации, часто используются для распространения оскорбительного или вредоносного контента. Однако существуют значительные ограничения в разработке моделей модерации мемов, возникающие из-за недоступности данных и высокой стоимости их подготовки. Наша работа предлагает первый датасет, содержащий 6300 реальных мемов, тщательно аннотированных на два уровня: бинарная классификация (токсичный или нет) и детальная метки (хаминг, оскорбительный или опасный). Для улучшения контекста каждого мема, датасет также включает социально важные теги. Мы также предлагаем модуль генерации тегов, который создает социологически обоснованные метки, особенно полезные для мемов, не имеющих их внедренных. Экспериментальные результаты доказали, что использование этих тегов значительно повышает эффективность существующих систем модерации, обеспечивая новую, масштабируемую основу для решения проблемы видоизмененного языка в мультимодальных онлайн-средах.

Annotation:

The 2025 Global Risks Report identifies state-based armed conflict and societal polarisation among the most pressing global threats, with social media playing a central role in amplifying toxic discourse. Memes, as a widely used mode of online communication, often serve as vehicles for spreading harmful content. However, limitations in data accessibility and the high cost of dataset curation hinder the development of robust meme moderation systems. To address this challenge, in this work, we int...

ID: 2508.04166v1 cs.CV, cs.CL

arXiv PDF

📄 FrEVL: Leveraging Frozen Pretrained Embeddings for Efficient Vision-Language Understanding

2025-08-09

Авторы:

Emmanuelle Bourigault, Pauline Bourigault

Многие визуально-языковые модели страдают от высоких требований к вычислительным ресурсам, что ограничивает их развёртывание. В статье представлена фреймворм FrEVL, который исследует возможность использования замороженных предобученных векторных представлений для эффективного визуально-языкового понимания. Авторы показывают, что такие векторы содержат достаточно информации для решения задач с точностью от 85% до 95% от современных моделей, используя всего 68.4M тренируемых параметров. Однако эффективность зависит от того, насколько целевые задачи подходят для предобученных векторов. Когда рассматривается полный цикл вычислений, включая экстракцию векторов, FrEVL демонстрирует скорострельность в два раза и энергоэффективность в 52% по сравнению с полным развертыванием модели. Это делает его привлекательным для сценариев с предварительно обработанными входными данными или строгими ограничениями на ресурсы. Результаты показывают, что замороженные предобученные векторы могут быть реальным альтернативным подходом в ряде случаев.

Annotation:

The deployment of vision-language models remains constrained by substantial computational requirements. We present \textbf{FrEVL}, a framework exploring whether frozen pretrained embeddings can support effective vision-language understanding. Our analysis reveals that frozen embeddings contain rich information for discriminative tasks, achieving 85\% to 95\% of state-of-the-art performance on standard benchmarks with only 68.4M trainable parameters. This performance dichotomy reveals a critical ...

ID: 2508.04469v1 cs.CV, cs.CL

arXiv PDF

📄 Analyzing and Mitigating Object Hallucination: A Training Bias Perspective

2025-08-09

Авторы:

Yifan Li, Kun Zhou, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen

**Резюме** Говорящие визуально-языковые модели (LVLMs), обученные на огромных объемах данных, достигли высоких результатов в обработке визуальной и текстовой информации. Однако они страдают от проблемы халлуцинации объектов: создают текст, не соответствующий визуальной информации. Авторы изучили эту проблему через новый бенчмарк POPEv2, основанный на counterfactual images, и обнаружили, что LVLMs склонны к скрытой систематической ошибке — они плохо обрабатывают объекты, встречавшиеся во время обучения. Это связано с тренировочным биасом, который особенно заметен в головной LM-части модели. Чтобы устранить этот биаз, авторы предложили метод Obliviate, основанный на unlearning. Этот метод эффективно идентифицирует несоответствия между тренировочными данными и выходами модели, апгрейдит LM-часть модели, используя только процентов 2 обучающих данных. Эксперименты показали, что Obliviate эффективно уменьшает халлуцинации в различных задачах, увеличивая точность и устойчивость. Метод также продемонстрировал хорошую общинность и гибкость, работая с моделями разного размера и дополнительными типами халлуцинации. Результаты и код будут доступны для общего использования.

Annotation:

As scaling up training data has significantly improved the general multimodal capabilities of Large Vision-Language Models (LVLMs), they still suffer from the hallucination issue, generating text that is inconsistent with the visual input. This phenomenon motivates us to systematically investigate the role of training data in hallucination. We introduce a new benchmark, POPEv2, which consists of counterfactual images collected from the training data of LVLMs with certain objects masked. Through ...

ID: 2508.04567v1 cs.CV, cs.CL

arXiv PDF

📄 A Study of the Framework and Real-World Applications of Language Embedding for 3D Scene Understanding

2025-08-09

Авторы:

Mahmoud Chick Zaouali, Todd Charter, Yehor Karpichev, Brandon Haworth, Homayoun Najjjaran

**Резюме** Последние годы технологии 3D-сценобразования, такие как Neural Radiance Fields (NeRF) и Gaussian Splatting, получили большое распространение в области реального времени в сферах визуализации, разработки роботов и создания интерактивных контента. Однако их интеграция с бо LLM и языковыми эмбеддингами открыла новые возможности в области текстовоориентированной генерации, редактирования и семантического понимания сцен. Данная статья предлагает структурированный обзор нынешних исследований, сочетающих языковые модели с 3D-гауссовым разбросом, охватывая теоретические основы, методы интеграции и реальности применений. Основные недостатки, такие как вычислительные блоки, проблемы генерализируемости и отсутствие семантически аннотированных 3D-данных на языке, также выделены. В заключении авторы выделяют перспективы исследований в области языковоориентированного понимания 3D-сцен, используя Gaussian Splatting.

Annotation:

Gaussian Splatting has rapidly emerged as a transformative technique for real-time 3D scene representation, offering a highly efficient and expressive alternative to Neural Radiance Fields (NeRF). Its ability to render complex scenes with high fidelity has enabled progress across domains such as scene reconstruction, robotics, and interactive content creation. More recently, the integration of Large Language Models (LLMs) and language embeddings into Gaussian Splatting pipelines has opened new p...

ID: 2508.05064v1 cs.GR, cs.CL, cs.CV

arXiv PDF

Показано 7371 - 7380 из 7506 записей