📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Calibrating Multimodal Consensus for Emotion Recognition

2025-10-25

Авторы:

Guowei Zhong, Junjie Li, Huaiyu Zhu, Ruohong Huan, Yun Pan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In recent years, Multimodal Emotion Recognition (MER) has made substantial progress. Nevertheless, most existing approaches neglect the semantic inconsistencies that may arise across modalities, such as conflicting emotional cues between text and visual inputs. Besides, current methods are often dominated by the text modality due to its strong representational capacity, which can compromise recognition accuracy. To address these challenges, we propose a model termed Calibrated Multimodal Consens...

ID: 2510.20256v1 cs.CV, cs.CL, cs.LG, cs.MM

arXiv PDF

📄 Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing

2025-10-24

Авторы:

Yusu Qian, Eli Bocek-Rivele, Liangchen Song, Jialing Tong, Yinfei Yang, Jiasen Lu, Wenze Hu, Zhe Gan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent advances in multimodal models have demonstrated remarkable text-guided image editing capabilities, with systems like GPT-4o and Nano-Banana setting new benchmarks. However, the research community's progress remains constrained by the absence of large-scale, high-quality, and openly accessible datasets built from real images. We introduce Pico-Banana-400K, a comprehensive 400K-image dataset for instruction-based image editing. Our dataset is constructed by leveraging Nano-Banana to generat...

ID: 2510.19808v1 cs.CV, cs.CL, cs.LG

arXiv PDF

📄 Glyph: Scaling Context Windows via Visual-Text Compression

2025-10-22

Авторы:

Jiale Cheng, Yusen Liu, Xinyu Zhang, Yulin Fei, Wenyi Hong, Ruiliang Lyu, Weihan Wang, Zhe Su, Xiaotao Gu, Xiao Liu, Yushi Bai, Jie Tang, Hongning Wang, Minlie Huang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language models (LLMs) increasingly rely on long-context modeling for tasks such as document understanding, code analysis, and multi-step reasoning. However, scaling context windows to the million-token level brings prohibitive computational and memory costs, limiting the practicality of long-context LLMs. In this work, we take a different perspective-visual context scaling-to tackle this challenge. Instead of extending token-based sequences, we propose Glyph, a framework that renders long...

ID: 2510.17800v2 cs.CV, cs.CL, cs.LG

arXiv PDF

📄 Composition-Grounded Instruction Synthesis for Visual Reasoning

2025-10-21

Авторы:

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong, Zhuoran Yu, Pengyuan Li, Dhiraj Joshi, Rogerio Feris, Zexue He

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Pretrained multi-modal large language models (MLLMs) demonstrate strong performance on diverse multimodal tasks, but remain limited in reasoning capabilities for domains where annotations are difficult to collect. In this work, we focus on artificial image domains such as charts, rendered documents, and webpages, which are abundant in practice yet lack large-scale human annotated reasoning datasets. We introduce COGS (COmposition-Grounded instruction Synthesis), a data-efficient framework for eq...

ID: 2510.15040v1 cs.CV, cs.CL, cs.LG

arXiv PDF

📄 Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization

2025-10-02

Авторы:

Xintong Li, Chuhan Wang, Junda Wu, Rohan Surana, Tong Yu, Julian McAuley, Jingbo Shang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Direct Preference Optimization (DPO) has recently been extended from text-only models to vision-language models. However, existing methods rely on oversimplified pairwise comparisons, generating a single negative image via basic perturbations or similarity-based retrieval, which fail to capture the complex nature of multimodal preferences, inducing optimization bias and hallucinations. To address this issue, we propose MISP-DPO, the first framework to incorporate multiple, semantically diverse n...

ID: 2509.25717v1 cs.CV, cs.CL, cs.LG

arXiv PDF

📄 Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents

2025-10-02

Авторы:

Zhen Yang, Zi-Yi Dou, Di Feng, Forrest Huang, Anh Nguyen, Keen You, Omar Attia, Yuhao Yang, Michael Feng, Haotian Zhang, Ram Ramrakhya, Chao Jia, Jeffrey Nichols, Alexander Toshev, Yinfei Yang, Zhe Gan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Developing autonomous agents that effectively interact with Graphic User Interfaces (GUIs) remains a challenging open problem, especially for small on-device models. In this paper, we present Ferret-UI Lite, a compact, end-to-end GUI agent that operates across diverse platforms, including mobile, web, and desktop. Utilizing techniques optimized for developing small models, we build our 3B Ferret-UI Lite agent through curating a diverse GUI data mixture from real and synthetic sources, strengthen...

ID: 2509.26539v1 cs.CV, cs.CL, cs.LG

arXiv PDF

📄 Multi-modal Data Spectrum: Multi-modal Datasets are Multi-dimensional

2025-10-01

Авторы:

Divyam Madaan, Varshan Muhunthan, Kyunghyun Cho, Sumit Chopra

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Understanding the interplay between intra-modality dependencies (the contribution of an individual modality to a target task) and inter-modality dependencies (the relationships between modalities and the target task) is fundamental to advancing multi-modal learning. However, the nature of and interaction between these dependencies within current benchmark evaluations remains poorly characterized. In this work, we present a large-scale empirical study to quantify these dependencies across 23 visu...

ID: 2509.23499v1 cs.CV, cs.CL, cs.LG

arXiv PDF

📄 MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

2025-09-23

Авторы:

Yanghao Li, Rui Qian, Bowen Pan, Haotian Zhang, Haoshuo Huang, Bowen Zhang, Jialing Tong, Haoxuan You, Xianzhi Du, Zhe Gan, Hyunjik Kim, Chao Jia, Zhenbang Wang, Yinfei Yang, Mingfei Gao, Zi-Yi Dou, Wenze Hu, Chang Gao, Dongxu Li, Philipp Dufter, Zirui Wang, Guoli Yin, Zhengdong Zhang, Chen Chen, Yang Zhao, Ruoming Pang, Zhifeng Chen

## Контекст Универсальные многомодальные модели, способные понимать и генерировать визуальный контент, представляют собой значительный потенциал для развития ИИ. Однако существующие модели часто сталкиваются с проблемами, такими как конфликт задач между пониманием и генерацией визуального содержимого. Это приводит к снижению качества выполнения одного или оба заданий. Развитие эффективных многомодальных моделей, которые могут сбалансированно обрабатывать и производить визуальные данные, является ключевым мотивом для создания Manzano. ## Метод Manzano представляет собой простой и масштабируемый фреймворк, который уменьшает конфликты между задачами, используя специальный дизайн. Его составляющие: 1. **Hybrid Image Tokenizer** — это система, которая делит изображения на дискретные токены, чтобы обеспечить эффективную работу с текстом и изображениями в единой модели. 2. **Shared Vision Encoder** — единый модуль, который обрабатывает входные данные для обеих задач — понимания и генерации — с помощью двух легких адаптеров. 3. **Unified Autoregressive LLM** — полностью авторегрессионная модель, которая предсказывает логические связи между текстовыми и изображенийными токенами. 4. **Diffusion Decoder** — модуль, преобразующий дискретные токены изображений в пиксельные данные. Такой дизайн позволяет совместить обучение на понимании и генерации визуальных данных, уменьшая конфликты задач и повышая эффективность. ## Результаты Модель Manzano прошла ряд экспериментов, использующих разные наборы данных, таких как COCO, Visual Genome и другие. Она показала следующие результаты: 1. **Text-to-Image Generation** — Manzano достигла состязательных результатов с отдельными моделями, специализирующимися на генерации изображений по тексту. 2. **Image-to-Text Understanding** — модель показала значительные улучшения против существующих моделей, особенно при работе с текстовыми данными. 3. **Zero-Shot Evaluation** — Manzano продемонстрировала высокую универсальность, неконфликтующую с различными задачами. Эти результаты подтверждают, что модель Manzano не только эффективна в обеих задачах, но и способна масштабироваться, поддерживая как текстовые, так и визуальные обработки. ## Значимость Модель Manzano может быть применена в следующих областях: 1. **Визуальное Представление Языка** — помогает понимать и генерировать текст, который описывает визуальные данные. 2. **Синтез Изображений** — обеспечивает четкое и точное создание изображений на основе текстовых инструкций. 3. **Приложения в Интернете, Медицине, Образовании** — может применяться в различных сферах, где требуется обработка визуальных данных в сочетании с текстовыми запросами. Её

Annotation:

Unified multimodal Large Language Models (LLMs) that can both understand and generate visual content hold immense potential. However, existing open-source models often suffer from a performance trade-off between these capabilities. We present Manzano, a simple and scalable unified framework that substantially reduces this tension by coupling a hybrid image tokenizer with a well-curated training recipe. A single shared vision encoder feeds two lightweight adapters that produce continuous embeddin...

ID: 2509.16197v1 cs.CV, cs.CL, cs.LG

arXiv PDF

📄 Do Video Language Models Really Know Where to Look? Diagnosing Attention Failures in Video Language Models

2025-09-05

Авторы:

Hyunjong Ok, Jaeho Lee

#### Контекст В последние годы внимание научного сообщества было привлечено к развитию многомодальных больших языковых моделей (MLLMs), которые способны обрабатывать не только текстовые данные, но и видео. Эти модели предлагают эффективные решения для задач видео-понимания, таких как классификация, поиск и описание видео. Однако использование таких моделей часто связано с высокой стоимостью вычислений, поскольку они обрабатывают все кадры видео. Чтобы уменьшить затраты, используются методы, ограничивающие обработку только ключевыми кадрами. Однако возникает вопрос о точности выбора этих кадров. Несмотря на распространенность предложенных стратегий, неясно, насколько эффективно они позволяют моделям определить именно те кадры, которые действительно необходимо обработать. #### Метод Чтобы изучить этот вопрос, авторы применяют модели SigLIP для выбора ключевых кадров. Они проводят эксперименты, сравнивая выборки кадров, полученные этими моделями, с теми, что могут быть выбраны с использованием других подходов. Эксперименты проводятся на разных наборах данных, включая те, которые содержат сложные сценарии и задачи. Для оценки качества выбора авторы используют метрики, оценивающие точность и полноту понимания видео. Также в исследовании применяются методы визуализации, позволяющие проанализировать, как модели решают, где следует обратить внимание. #### Результаты За счет экспериментов выявляется, что популярные модели SigLIP страдают от серьезных ограничений в способности выбирать наиболее информативные кадры. Авторы обнаружили, что модели часто пропускают ключевые моменты, которые важны для понимания заданного текстового запроса в контексте видео. Эти пропуски приводят к понижению точности решения задач. Также было обнаружено, что модели не всегда способны корректно интерпретировать контекст, что приводит к неточностям в выборе кадров. #### Значимость Результаты показывают, что технологии современных моделей видео-понимания нуждаются в улучшении. Особенно это касается стратегий выбора ключевых кадров. Если будут разработаны более эффективные стратегии, это позволит моделям обрабатывать видео более эффективно и с меньшими ресурсами. Такие улучшения могут иметь значительное применение в различных областях, таких как анализ массовых видеоданных в социальных сетях, мониторинг безопасности и медицинский анализ. #### Выводы Выводы исследования сводятся к необходимости развития новых методов для выбора ключевых кадров в моделях видео-понимания. Авторы предлагают свои рекомендации для будущих исследований, в том числе использова

Annotation:

Recent advances in multimodal large language models (MLLMs) have led to much progress in video understanding tasks. To avoid the heavy computational cost of processing all frames, these models typically rely on keyframe sampling methods guided by vision-language encoders (\textit{e.g.,} SigLIP). However, it remains unclear whether such encoders can truly identify the most informative frames. In this work, we provide several empirical pieces of evidence revealing that popular vision encoders crit...

ID: 2509.01167v1 cs.CV, cs.CL, cs.LG

arXiv PDF

📄 Has GPT-5 Achieved Spatial Intelligence? An Empirical Study

2025-08-20

Авторы:

Zhongang Cai, Yubo Wang, Qingping Sun, Ruisi Wang, Chenyang Gu, Wanqi Yin, Zhiqian Lin, Zhitao Yang, Chen Wei, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Jiaqi Li, Xiangyu Fan, Hanming Deng, Lewei Lu, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang

## Контекст В последние годы многомодальные модели демонстрируют уверенный прогресс, но столкнулись с острой проблемой — недостаточной способностью к пространственному пониманию и рассуждению. Эти навыки являются ключевыми для достижения искусственного общего разума (Artificial General Intelligence, AGI). На этой фоне выход GPT-5, который утверждается как самая мощная модель AI, приобрел особое значение. Чтобы оценить современное состояние моделей в пространственной сфере, необходимо провести комплексный анализ их способности. Наша мотивация заключается в том, чтобы выявить текущие ограничения, определить основные проблемы в оценке пространственной интеллектуальности и привлечь внимание к развитию более совершенных решений. ## Метод Мы разработали подробную категоризацию пространственных задач, которая объединила различные бенчмарки и указала на их слабые места. Для оценки моделей использовались современные архитектуры, включая GPT-5, а также несколько открытых решений. Для обеспечения справедливой сравнительной оценки были применены стандартизированные данные и метрики. Эксперименты были проведены на восьми ключевых бенчмарках, требующих различных пространственных навыков, от простого распознавания объектов до сложных задач пространственного рассуждения. Бюджет экспериментов превысил 1 миллиард токенов, что дало возможность обоснованно понять силу и слабости моделей. ## Результаты Новая модель GPT-5 продемонстрировала примечательные улучшения в пространственном понимании, но еще не достигла гуманского уровня производительности. Мы выявили следующие результаты: (1) на первых трех бенчмарках GPT-5 показал самые высокие результаты, оказавшись лучше всех остальных моделей, (2) в более сложных задачах, особенно тех, требующих глубокого контекстуального понимания, его производительность падала, (3) открытые модели демонстрировали практически одинаковую производительность по сравнению с закрытыми решениями в самых сложностных сценариях. Также мы выявили некоторые ключевые проблемы, на которых даже самые мощные модели до сих пор не сумели дать полноценного ответа, включая задачи с неоднозначным контекстом и ситуациями, требующими глубокого знания ситуации. ## Значимость Результаты нашего исследования имеют большое значение в нескольких областях: (1) модели GPT-5 демонстрируют, что пространственное понимание может быть эффективно интегрировано в общую модель многомодального рассуждения, но (2) остаются проблемы в задачах, требующих высокой степени контекстуального понимания, (3) открытые модели, несмотря на недостатки, показывают высокую э

Annotation:

Multi-modal models have achieved remarkable progress in recent years. Nevertheless, they continue to exhibit notable limitations in spatial understanding and reasoning, which are fundamental capabilities to achieving artificial general intelligence. With the recent release of GPT-5, allegedly the most powerful AI model to date, it is timely to examine where the leading models stand on the path toward spatial intelligence. First, we propose a comprehensive taxonomy of spatial tasks that unifies e...

ID: 2508.13142v1 cs.CV, cs.CL, cs.LG, cs.MM, cs.RO

arXiv PDF

Показано 11 - 20 из 20 записей