📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Modality Bias in LVLMs: Analyzing and Mitigating Object Hallucination via Attention Lens
2025-08-09Авторы:
Haohan Zheng, Zhenguo Zhang
**Резюме**
Наблюдается существенная проблема в работе бо LLM (Large Vision-Language Models): object hallucination — генерация неточных или бессмысленных описаний объектов в изображениях. Основной причиной этого случается модальное болтанье, когда модель неправильно обрабатывает информацию разных модальностей (визуальная и текстовая). Данная проблема мешает LVLMs корректно выполнять пользовательские запросы, так как они предпочитают одну модальность, в то время как другая недостаточно учитывается.
Предлагаемое решение заключается в том, чтобы скорректировать веса взаимодействия между модальностями, чтобы лучше выравнять результаты с пользовательскими задачами. Это делается путем настройки взаимодействия токенов текста и визуала, стимулируя модель более равномерно учитывать обе модальности. Более того, для уменьшения зависимости модели от внутреннего знания, используются стратегии контрастного декодирования.
В результате, наши эксперименты подтверждают, что предложенное решение эффективно снижает object hallucination на различных LVLMs и дает хорошие результаты в различных бенчмарках, подтверждая гибкость и эффективность метода.
Annotation:
Large vision-language models (LVLMs) have demonstrated remarkable multimodal
comprehension and reasoning capabilities, but they still suffer from severe
object hallucination. Previous studies primarily attribute the flaw to
linguistic prior caused by the scale mismatch between visual encoders and large
language models (LLMs) in LVLMs. Specifically, as current LVLMs are built upon
LLMs, they tend to over-rely on textual prompts and internal knowledge of LLMs,
generating descriptions inconsistent ...
Авторы:
Rongxin Jiang, Robert Long, Chenghao Gu, Mingrui Yan
Данная работа представляет собой VisuCraft — платформу, повышающую потенциал Large Vision-Language Models (LVLMs) в создании комплексных визуально-регулируемых творческих текстов. Легко отмечается, что существующие LVLMs сталкиваются с проблемами в обеспечении высокой визуальной точности, творчества и точности выполнения пользовательских инструкций при генерации длинных текстов. VisuCraft предлагает решение, объединяя мультимодальный структурированный экстрактор (E) и модуль динамической генерации подсказок (G). Экстрактор определяет тонкие визуальные атрибуты изображений, а модуль G создает пространственно оптимизированные подсказки, интегрируя их с пользовательскими инструкциями для подключенных LVLMs (например, LLaVA или InstructBLIP). На новом ImageStoryGen-500K датасете, оцененном по VisuGen Metrics (Visual Grounding, Creativity, Instruction Adherence), VisuCraft показал существенные улучшения по сравнению с базовыми LVLMs, особенно в творчестве и соблюдении инструкций. Это работа открывает новые возможности для LVLMs в области глубокой творческой имитации.
Annotation:
This paper introduces VisuCraft, a novel framework designed to significantly
enhance the capabilities of Large Vision-Language Models (LVLMs) in complex
visual-guided creative content generation. Existing LVLMs often exhibit
limitations in maintaining high visual fidelity, genuine creativity, and
precise adherence to nuanced user instructions when generating long-form texts.
VisuCraft addresses these challenges by integrating a multimodal structured
information extractor (E) and a dynamic prompt...
Авторы:
Muzhaffar Hazman, Susan McKeever, Josephine Griffith
**Резюме**
В статье Beyond Meme Templates: Limitations of Visual Similarity Measures in Meme Matching рассматривается проблема ограниченности существующих подходов к сопоставлению мемов, основанных на шаблонах (template-based memes). Традиционные методы сравнивают только общую часть визуальных элементов (темплейт), что игнорирует большую часть мемов, не являющихся шаблонными. Авторы предлагают более обширную формулировку задачи Meme Matching, охватывающую не только шаблонные мемы, но и другие форматы. Они показывают, что существующие меры сходства (в том числе и новые, разбивки на сегменты) эффективны для шаблонных мемов, но неэффективны для нешаблонных. Наконец, авторы исследуют подход, основанный на подсказках (prompting) и использующий предобученный модель Multimodal Large Language Model для решения проблемы сопоставления мемов. Основной вывод — необходимость развития более сложных методов сопоставления, учитывающих все аспекты визуальных элементов мемов.
Annotation:
Internet memes, now a staple of digital communication, play a pivotal role in
how users engage within online communities and allow researchers to gain
insight into contemporary digital culture. These engaging user-generated
content are characterised by their reuse of visual elements also found in other
memes. Matching instances of memes via these shared visual elements, called
Meme Matching, is the basis of a wealth of meme analysis approaches. However,
most existing methods assume that every me...
Авторы:
Wenxuan Shen, Mingjia Wang, Yaochen Wang, Dongping Chen, Junjie Yang, Yao Wan, Weiwei Lin
**Резюме**
В статье предлагается Double-Bench — новая крупномасштабная, многоязыковая и мультимодальная система оценки для Retrieval-Augmented Generation (RAG) систем, использующих Multimodal Large Language Models (MLLMs). Недостаточное тестирование является ключевой проблемой в развитии таких систем, так как существующие бенчмарки фокусируются на частичных аспектах RAG-систем и используют синтетические данные с неполными меток правдивости и значимости. Double-Bench предлагает полную оценку каждого компонента RAG-системы, включая 72 880 страниц данных в 6 языках и 4 типах документов. Эта система поддерживает динамическое обновление для борьбы с загрязнением данных и использует экспертные оценки для гарантии высокого качества.
Основные выводы экспериментов показывают, что разница в эффективности между текстовыми и визуальными моделями снижается, что демонстрирует необходимость в развитии мощных моделей документного поиска. Также выявлена "проблема переоценки": текущие RAG-системы часто выдают ответы даже при отсутствии доказательств. Double-Bench предлагается как универсальный инструмент для поиска решений этих проблем и будет обновляться ежегодно.
Annotation:
Retrieval-Augmented Generation (RAG) systems using Multimodal Large Language
Models (MLLMs) show great promise for complex document understanding, yet their
development is critically hampered by inadequate evaluation. Current benchmarks
often focus on specific part of document RAG system and use synthetic data with
incomplete ground truth and evidence labels, therefore failing to reflect
real-world bottlenecks and challenges. To overcome these limitations, we
introduce Double-Bench: a new large-...
Авторы:
Xinyu Wang, Yue Zhang, Liqiang Jing
Многомодальная сарказм-анализ (MSA) является сложной задачей, которая затрудняется способностью понимать диспаритет между литеральным и намеренным значением сарказма. Несмотря на развитие многомодальных подходов, применение больших лингво-визуальных моделей к этой задаче до сих пор недостаточно изучено. В данной работе анализируется эффективность таких моделей в MSA, в том числе в задачах детекции и объяснения сарказма. Найдены ключевые ограничения, такие как недостаточное понимание визуальной информации и отсутствие концептуальных знаний. Для устранения этих проблем предлагается новый тренировочно-свободный подход, который использует расширенное извлечение объектов и внешние концептуальные знания. Эксперименты показали, что предложенный подход улучшает точность и эффективность моделей в задачах MSA. Результаты опубликованы на https://github.com/cp-cp/LVLM-MSA.
Annotation:
Sarcasm is a complex linguistic phenomenon that involves a disparity between
literal and intended meanings, making it challenging for sentiment analysis and
other emotion-sensitive tasks. While traditional sarcasm detection methods
primarily focus on text, recent approaches have incorporated multimodal
information. However, the application of Large Visual Language Models (LVLMs)
in Multimodal Sarcasm Analysis (MSA) remains underexplored. In this paper, we
evaluate LVLMs in MSA tasks, specificall...
📄 ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents
2025-08-09Авторы:
Zechen Li, Baiyu Chen, Hao Xue, Flora D. Salim
Отсутствие гибкости и интерпретируемости в существующих методах распознавания человеческих действий (HAR) чревато дорогостоящим переуправлением, когда внедряются новые действия или сенсорные устройства. Мы предлагаем ZARA — первый рамфрейм для нулевого-шота (zero-shot), способный распознавать действия напрямую из данных подвижности временных рядов, основываясь на автоматически создаваемой базе знаний о парах атрибутов и модуле навигации ресурсов. ZARA объединяет агентную систему, использующую технологии генеративных моделей языка (LLM), для решения задач HAR с помощью выбираемых функций и подробных выводов, обоснованных сенсорными данными. Мы проверили ZARA на 8 бенчмарках HAR и показали, что он делает более точные выводы с лучшим макро-F1-метрикой по сравнению со стандартными методами. Наши результаты подтверждают, что ZARA может стать промежуточным шагом к созданию доверительных, без вмешательства методов для анализа подвижности. Результаты доступны на GitHub.
Annotation:
Motion sensor time-series are central to human activity recognition (HAR),
with applications in health, sports, and smart devices. However, existing
methods are trained for fixed activity sets and require costly retraining when
new behaviours or sensor setups appear. Recent attempts to use large language
models (LLMs) for HAR, typically by converting signals into text or images,
suffer from limited accuracy and lack verifiable interpretability. We propose
ZARA, the first agent-based framework fo...
Авторы:
Subhankar Swain, Naquee Rizwan, Nayandeep Deb, Vishwajeet Singh Solanki, Vishwa Gangadhar S, Animesh Mukherjee
Мемы, как важной формой онлайн-коммуникации, часто используются для распространения оскорбительного или вредоносного контента. Однако существуют значительные ограничения в разработке моделей модерации мемов, возникающие из-за недоступности данных и высокой стоимости их подготовки. Наша работа предлагает первый датасет, содержащий 6300 реальных мемов, тщательно аннотированных на два уровня: бинарная классификация (токсичный или нет) и детальная метки (хаминг, оскорбительный или опасный). Для улучшения контекста каждого мема, датасет также включает социально важные теги. Мы также предлагаем модуль генерации тегов, который создает социологически обоснованные метки, особенно полезные для мемов, не имеющих их внедренных. Экспериментальные результаты доказали, что использование этих тегов значительно повышает эффективность существующих систем модерации, обеспечивая новую, масштабируемую основу для решения проблемы видоизмененного языка в мультимодальных онлайн-средах.
Annotation:
The 2025 Global Risks Report identifies state-based armed conflict and
societal polarisation among the most pressing global threats, with social media
playing a central role in amplifying toxic discourse. Memes, as a widely used
mode of online communication, often serve as vehicles for spreading harmful
content. However, limitations in data accessibility and the high cost of
dataset curation hinder the development of robust meme moderation systems. To
address this challenge, in this work, we int...
📄 FrEVL: Leveraging Frozen Pretrained Embeddings for Efficient Vision-Language Understanding
2025-08-09Авторы:
Emmanuelle Bourigault, Pauline Bourigault
Многие визуально-языковые модели страдают от высоких требований к вычислительным ресурсам, что ограничивает их развёртывание. В статье представлена фреймворм FrEVL, который исследует возможность использования замороженных предобученных векторных представлений для эффективного визуально-языкового понимания. Авторы показывают, что такие векторы содержат достаточно информации для решения задач с точностью от 85% до 95% от современных моделей, используя всего 68.4M тренируемых параметров. Однако эффективность зависит от того, насколько целевые задачи подходят для предобученных векторов. Когда рассматривается полный цикл вычислений, включая экстракцию векторов, FrEVL демонстрирует скорострельность в два раза и энергоэффективность в 52% по сравнению с полным развертыванием модели. Это делает его привлекательным для сценариев с предварительно обработанными входными данными или строгими ограничениями на ресурсы. Результаты показывают, что замороженные предобученные векторы могут быть реальным альтернативным подходом в ряде случаев.
Annotation:
The deployment of vision-language models remains constrained by substantial
computational requirements. We present \textbf{FrEVL}, a framework exploring
whether frozen pretrained embeddings can support effective vision-language
understanding. Our analysis reveals that frozen embeddings contain rich
information for discriminative tasks, achieving 85\% to 95\% of
state-of-the-art performance on standard benchmarks with only 68.4M trainable
parameters. This performance dichotomy reveals a critical ...
Авторы:
Yifan Li, Kun Zhou, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen
**Резюме**
Говорящие визуально-языковые модели (LVLMs), обученные на огромных объемах данных, достигли высоких результатов в обработке визуальной и текстовой информации. Однако они страдают от проблемы халлуцинации объектов: создают текст, не соответствующий визуальной информации. Авторы изучили эту проблему через новый бенчмарк POPEv2, основанный на counterfactual images, и обнаружили, что LVLMs склонны к скрытой систематической ошибке — они плохо обрабатывают объекты, встречавшиеся во время обучения. Это связано с тренировочным биасом, который особенно заметен в головной LM-части модели.
Чтобы устранить этот биаз, авторы предложили метод Obliviate, основанный на unlearning. Этот метод эффективно идентифицирует несоответствия между тренировочными данными и выходами модели, апгрейдит LM-часть модели, используя только процентов 2 обучающих данных. Эксперименты показали, что Obliviate эффективно уменьшает халлуцинации в различных задачах, увеличивая точность и устойчивость. Метод также продемонстрировал хорошую общинность и гибкость, работая с моделями разного размера и дополнительными типами халлуцинации. Результаты и код будут доступны для общего использования.
Annotation:
As scaling up training data has significantly improved the general multimodal
capabilities of Large Vision-Language Models (LVLMs), they still suffer from
the hallucination issue, generating text that is inconsistent with the visual
input. This phenomenon motivates us to systematically investigate the role of
training data in hallucination. We introduce a new benchmark, POPEv2, which
consists of counterfactual images collected from the training data of LVLMs
with certain objects masked. Through ...
Авторы:
Mahmoud Chick Zaouali, Todd Charter, Yehor Karpichev, Brandon Haworth, Homayoun Najjjaran
**Резюме**
Последние годы технологии 3D-сценобразования, такие как Neural Radiance Fields (NeRF) и Gaussian Splatting, получили большое распространение в области реального времени в сферах визуализации, разработки роботов и создания интерактивных контента. Однако их интеграция с бо LLM и языковыми эмбеддингами открыла новые возможности в области текстовоориентированной генерации, редактирования и семантического понимания сцен. Данная статья предлагает структурированный обзор нынешних исследований, сочетающих языковые модели с 3D-гауссовым разбросом, охватывая теоретические основы, методы интеграции и реальности применений. Основные недостатки, такие как вычислительные блоки, проблемы генерализируемости и отсутствие семантически аннотированных 3D-данных на языке, также выделены. В заключении авторы выделяют перспективы исследований в области языковоориентированного понимания 3D-сцен, используя Gaussian Splatting.
Annotation:
Gaussian Splatting has rapidly emerged as a transformative technique for
real-time 3D scene representation, offering a highly efficient and expressive
alternative to Neural Radiance Fields (NeRF). Its ability to render complex
scenes with high fidelity has enabled progress across domains such as scene
reconstruction, robotics, and interactive content creation. More recently, the
integration of Large Language Models (LLMs) and language embeddings into
Gaussian Splatting pipelines has opened new p...
Показано 7371 -
7380
из 7506 записей