📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Subhankar Swain, Naquee Rizwan, Nayandeep Deb, Vishwajeet Singh Solanki, Vishwa Gangadhar S, Animesh Mukherjee

Мемы, как важной формой онлайн-коммуникации, часто используются для распространения оскорбительного или вредоносного контента. Однако существуют значительные ограничения в разработке моделей модерации мемов, возникающие из-за недоступности данных и высокой стоимости их подготовки. Наша работа предлагает первый датасет, содержащий 6300 реальных мемов, тщательно аннотированных на два уровня: бинарная классификация (токсичный или нет) и детальная метки (хаминг, оскорбительный или опасный). Для улучшения контекста каждого мема, датасет также включает социально важные теги. Мы также предлагаем модуль генерации тегов, который создает социологически обоснованные метки, особенно полезные для мемов, не имеющих их внедренных. Экспериментальные результаты доказали, что использование этих тегов значительно повышает эффективность существующих систем модерации, обеспечивая новую, масштабируемую основу для решения проблемы видоизмененного языка в мультимодальных онлайн-средах.
Annotation:
The 2025 Global Risks Report identifies state-based armed conflict and societal polarisation among the most pressing global threats, with social media playing a central role in amplifying toxic discourse. Memes, as a widely used mode of online communication, often serve as vehicles for spreading harmful content. However, limitations in data accessibility and the high cost of dataset curation hinder the development of robust meme moderation systems. To address this challenge, in this work, we int...
ID: 2508.04166v1 cs.CV, cs.CL
Авторы:

Emmanuelle Bourigault, Pauline Bourigault

Многие визуально-языковые модели страдают от высоких требований к вычислительным ресурсам, что ограничивает их развёртывание. В статье представлена фреймворм FrEVL, который исследует возможность использования замороженных предобученных векторных представлений для эффективного визуально-языкового понимания. Авторы показывают, что такие векторы содержат достаточно информации для решения задач с точностью от 85% до 95% от современных моделей, используя всего 68.4M тренируемых параметров. Однако эффективность зависит от того, насколько целевые задачи подходят для предобученных векторов. Когда рассматривается полный цикл вычислений, включая экстракцию векторов, FrEVL демонстрирует скорострельность в два раза и энергоэффективность в 52% по сравнению с полным развертыванием модели. Это делает его привлекательным для сценариев с предварительно обработанными входными данными или строгими ограничениями на ресурсы. Результаты показывают, что замороженные предобученные векторы могут быть реальным альтернативным подходом в ряде случаев.
Annotation:
The deployment of vision-language models remains constrained by substantial computational requirements. We present \textbf{FrEVL}, a framework exploring whether frozen pretrained embeddings can support effective vision-language understanding. Our analysis reveals that frozen embeddings contain rich information for discriminative tasks, achieving 85\% to 95\% of state-of-the-art performance on standard benchmarks with only 68.4M trainable parameters. This performance dichotomy reveals a critical ...
ID: 2508.04469v1 cs.CV, cs.CL
Авторы:

Yifan Li, Kun Zhou, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen

**Резюме** Говорящие визуально-языковые модели (LVLMs), обученные на огромных объемах данных, достигли высоких результатов в обработке визуальной и текстовой информации. Однако они страдают от проблемы халлуцинации объектов: создают текст, не соответствующий визуальной информации. Авторы изучили эту проблему через новый бенчмарк POPEv2, основанный на counterfactual images, и обнаружили, что LVLMs склонны к скрытой систематической ошибке — они плохо обрабатывают объекты, встречавшиеся во время обучения. Это связано с тренировочным биасом, который особенно заметен в головной LM-части модели. Чтобы устранить этот биаз, авторы предложили метод Obliviate, основанный на unlearning. Этот метод эффективно идентифицирует несоответствия между тренировочными данными и выходами модели, апгрейдит LM-часть модели, используя только процентов 2 обучающих данных. Эксперименты показали, что Obliviate эффективно уменьшает халлуцинации в различных задачах, увеличивая точность и устойчивость. Метод также продемонстрировал хорошую общинность и гибкость, работая с моделями разного размера и дополнительными типами халлуцинации. Результаты и код будут доступны для общего использования.
Annotation:
As scaling up training data has significantly improved the general multimodal capabilities of Large Vision-Language Models (LVLMs), they still suffer from the hallucination issue, generating text that is inconsistent with the visual input. This phenomenon motivates us to systematically investigate the role of training data in hallucination. We introduce a new benchmark, POPEv2, which consists of counterfactual images collected from the training data of LVLMs with certain objects masked. Through ...
ID: 2508.04567v1 cs.CV, cs.CL
Авторы:

Yufei Gao, Jiaying Fei, Nuo Chen, Ruirui Chen, Guohang Yan, Yunshi Lan, Botian Shi

**Резюме** Многоязычные большие языковые модели (МЛЛМ) доказали свою эффективность в высокоресурсных языках, но в низкоресурсных языках их эффективность значительно снижается. Существующие подходы к улучшению многоязычности часто ограничиваются текстовыми данными или полагаются лишь на перевод машинным переводом. Эти методы способствуют развитию базовых языковых навыков, но не учитывают важность мультимодальности и культурного контекста, которые критически важны для поддержки низкоресурсных языков. В статье предлагается MELLA — мультимодальный многоязычный датасет, созданный для решения проблемы нехватки культурной осведомлённости и навыков работы с текстом в МЛЛМ. Данный датасет собирает сведения из сети (нативный web alt-text для культурной глубины и MLLM-генерируемые капшны для развития языковых навыков). Исследование показало, что после тюнинга на MELLA модели показывают улучшение по всему спектру задач, включая продуктивность в "толстых описаниях", благодаря улучшению как языковых навыков, так и культурной осведомлённости. Наши результаты свидетельствуют о важности сочетания этих двух параметров для эффективной работы МЛЛМ в низкоресурсных языках. Датасет доступен по адресу https://opendatalab.com/applyMultilingualCorpus.
Annotation:
Multimodal Large Language Models (MLLMs) have shown remarkable performance in high-resource languages. However, their effectiveness diminishes significantly in the contexts of low-resource languages. Current multilingual enhancement methods are often limited to text modality or rely solely on machine translation. While such approaches help models acquire basic linguistic capabilities and produce "thin descriptions", they neglect the importance of multimodal informativeness and cultural groundedn...
ID: 2508.05502v1 cs.CV, cs.CL
Авторы:

Luozheng Qin, Jia Gong, Yuqing Sun, Tianjiao Li, Mengping Yang, Xiaomeng Yang, Chao Qu, Zhiyu Tan, Hao Li

Универсальная цепочка-мышлия (Uni-CoT) — это проработанная фреймворк для объединенного многомодального логического мышления, который позволяет объединить моделирование текста и изображений в одной модели. Деление логического процесса на высокоуровневую планировку (Macro-Level CoT) и низкоуровневую реализацию (Micro-Level CoT) позволяет эффективно распределить ресурсы и сократить вычислительные затраты. Эта модель использует модель распознавания и порождения изображений для анализа и генерации визуальных состояний, что обеспечивает корректное моделирование визуальных процессов. Основная инновация в Uni-CoT — внедрение структурированной подготовки модели с интерлейсом обучения на текстовых и изображениевых данных для макроуровня и многозадачного обучения для микроуровня. Эксперименты по бенчмаркам WISE, RISE и KRIS показали, что Uni-CoT показывает лидирующие результаты, доказав свою эффективность и гибкость в многомодальном логическом мышлении.
Annotation:
Chain-of-Thought (CoT) reasoning has been widely adopted to enhance Large Language Models (LLMs) by decomposing complex tasks into simpler, sequential subtasks. However, extending CoT to vision-language reasoning tasks remains challenging, as it often requires interpreting transitions of visual states to support reasoning. Existing methods often struggle with this due to limited capacity of modeling visual state transitions or incoherent visual trajectories caused by fragmented architectures. ...
ID: 2508.05606v1 cs.CV, cs.CL
Показано 181 - 185 из 185 записей