📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Jianxiang He, Shaoguang Wang, Weiyu Guo, Meisheng Hong, Jungang Li, Yijie Xu, Ziyang Chen, Hui Xiong

#### Контекст В последние годы повышается интерес к многомодальным большим языковым моделям (MLLMs), которые могут обрабатывать и анализировать многоступенчатый поток данных с различных источников, включая текст, видео и аудио. Одной из ключевых задач в этой области является **long video understanding**, которая представляет собой вызов для MLLMs из-за огромного объема данных и сложности временного порядка. Для упрощения этой задачи, широко применяется метод ключевого кадра (keyframe), который пытается выбрать наиболее основательные кадры видео, отвечающие заданному текстовому запросу. Однако существуют существенные проблемы, такие как недостаточная мультимодальная связность между текстовым запросом и видео, а также недостаточная логическая семантическая интеграция для точного вывода. Эти проблемы наделяют ключевую задачу в поиске ключевых кадров сложностью, которая необходима для точного понимания длительных видео. Мы предлагаем **Visual Subtitle Integration (VSI)**, метод, который интегрирует подкасты, временные метки и сценные границы для повышения эффективности поиска ключевых кадров. #### Метод Метод **VSI** основывается на двух основных потоках поиска: **Video Search Stream** и **Subtitle Match Stream**. **Video Search Stream** использует видеокадры, чтобы найти самые важные кадры в целях понимания видео, в то время как **Subtitle Match Stream** синхронизирует текстовые подкасты с видео, чтобы улучшить соответствие текста и видео. Для каждого слоя поиска, мы используем **cross-modal attention mechanism**, который помогает объединить информацию из разных модальностей (видео и текст), чтобы повысить точность в выделении ключевых кадров. Кроме того, мы используем **boundary alignment**, чтобы добавить контекст сцен в поисковую процедуру. Это позволяет улучшить семантическую интеграцию и повысить точность поиска ключевых кадров. #### Результаты Мы проводим эксперименты на LongVideoBench, популярной базе данных для тестирования эффективности поиска ключевых кадров в длительных видео. Наш **VSI** показывает выдающиеся результаты, достигая **40.00% key frame localization accuracy** на текстовом подмножестве LongVideoBench и **68.48% accuracy** на задачах видео-QA. Это превосходит существующие бейзлайны на **20.35%** и **15.79%**, соответственно. Благодаря двойному поисковому механизму, наш метод демонстрирует высокую точность и общую ценность, особенно в среднем и длинном диапазоне видео. Эти результаты подтверждают то, что VSI является решением, обеспечивающим робастность и универсальность в задаче понимания длительных видео. #### Значимость Наш **VSI** имеет широкое применение в различных областях, таких как мультимедиа-анализ, видео-поиск, мониторинг видеоконтента и легковесное анализ
Annotation:
Long video understanding presents a significant challenge to multimodal large language models (MLLMs) primarily due to the immense data scale. A critical and widely adopted strategy for making this task computationally tractable is keyframe retrieval, which seeks to identify a sparse set of video frames that are most salient to a given textual query. However, the efficacy of this approach is hindered by weak multimodal alignment between textual queries and visual content and fails to capture the...
ID: 2508.06869v1 cs.CV, cs.AI, I.2.10
Авторы:

Zhangquan Chen, Ruihui Zhao, Chuwei Luo, Mingze Sun, Xinlei Yu, Yangyang Kang, Ruqi Huang

## Контекст Существующие multimodal large language models (MLLMs) сталкиваются с значительными ограничениями в решении сложных визуальных задач, таких как спатиальное понимание и тонкая визуальная перцепция. Несмотря на то, что многие методы пытались интегрировать визуальную размышление, они часто не учитывали корректировку внимания с использованием пространственных признаков для тонкой регулировки фокуса на относительно целевых областях в задаче. Мы предлагаем SIFThinker, новая система, которая эмулирует человеческое визуальное восприятие, способная выполнять интеллектуальную корректировку внимания и сосредоточиться на целевых регионах в изображении. Этот подход может существенно улучшить эффективность в решении визуальных задач. ## Метод SIFThinker использует стратегию "reverse expansion forward inference", чтобы генерировать интеллектуальные цепочки мыслей в форме объединенных изображений и текстов. Метод использует depth-enhanced bounding boxes и естественный язык для создания динамической корректировки внимания. Для тонкого визуального осмысления, SIFThinker использует GRPO-SIF, унифицированный цикл развития и улучшения визуальной навигации в реальном времени. Эта архитектура позволяет модели лучше понимать пространственные взаимоотношения и сосредоточиться на релевантных областях в процессе решения задач. ## Результаты Наши эксперименты проводились на большой датасет SIF-50K, созданный в рамках нашей работы. Мы сравнили SIFThinker с текущими лидерами в области визуально-текстовых моделей. Результаты демонстрируют существенное превосходство SIFThinker в сложных визуальных задачах, в том числе в спатиальном понимании и тонкой визуальной перцепции. Модель показала значительный прирост в точности решения задач, при этом сохранив гибкость и работу в условиях широкого диапазона визуальных сценариев. ## Значимость SIFThinker может быть применен в различных приложениях, включая автоматический машинный транслятор, визуальный поиск, искусственный интеллект в реальном времени и даже в сферу медицины, где точное визуальное понимание критично. Особым преимуществом является возможность модели для динамической корректировки внимания и сосредоточения на целевых областях, что позволяет ей выполнять более точные и эффективные распознавания и решения задач. ## Выводы Мы представили SIFThinker, новую систему, которая применяет спатиально-акцентную корректировку визуального фокуса в системах визуального рассуждения. Наши результаты показали, что SIFThinker превосходит состояние искусства в сложных визуальных задачах. Будущие исследования будут нацелены на улучшение ее производительност
Annotation:
Current multimodal large language models (MLLMs) still face significant challenges in complex visual tasks (e.g., spatial understanding, fine-grained perception). Prior methods have tried to incorporate visual reasoning, however, they fail to leverage attention correction with spatial cues to iteratively refine their focus on prompt-relevant regions. In this paper, we introduce SIFThinker, a spatially-aware "think-with-images" framework that mimics human visual perception. Specifically, SIFThink...
ID: 2508.06259v1 cs.CV, cs.AI, I.2.10
Показано 11 - 12 из 12 записей