📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 CoMViT: An Efficient Vision Backbone for Supervised Classification in Medical Imaging

2025-11-04

Авторы:

Aon Safdar, Mohamed Saadeldin

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Vision Transformers (ViTs) have demonstrated strong potential in medical imaging; however, their high computational demands and tendency to overfit on small datasets limit their applicability in real-world clinical scenarios. In this paper, we present CoMViT, a compact and generalizable Vision Transformer architecture optimized for resource-constrained medical image analysis. CoMViT integrates a convolutional tokenizer, diagonal masking, dynamic temperature scaling, and pooling-based sequence ag...

ID: 2510.27442v1 cs.CV, cs.AI, I.2.10

arXiv PDF

📄 Human-Centric Anomaly Detection in Surveillance Videos Using YOLO-World and Spatio-Temporal Deep Learning

2025-10-29

Авторы:

Mohammad Ali Etemadi Naeen, Hoda Mohammadzade, Saeed Bagheri Shouraki

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Anomaly detection in surveillance videos remains a challenging task due to the diversity of abnormal events, class imbalance, and scene-dependent visual clutter. To address these issues, we propose a robust deep learning framework that integrates human-centric preprocessing with spatio-temporal modeling for multi-class anomaly classification. Our pipeline begins by applying YOLO-World - an open-vocabulary vision-language detector - to identify human instances in raw video clips, followed by Byte...

ID: 2510.22056v1 cs.CV, cs.AI, I.2.10; I.4.9; I.2.6

arXiv PDF

📄 Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

2025-10-23

Авторы:

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Though recent advances in vision-language models (VLMs) have achieved remarkable progress across a wide range of multimodal tasks, understanding 3D spatial relationships from limited views remains a significant challenge. Previous reasoning methods typically rely on pure text (e.g., topological cognitive maps) or on 2D visual cues. However, their limited representational capacity hinders performance in specific tasks that require 3D spatial imagination. To address this limitation, we propose 3DT...

ID: 2510.18632v1 cs.CV, cs.AI, I.2.10

arXiv PDF

📄 XSRD-Net: EXplainable Stroke Relapse Detection

2025-09-11

Авторы:

Christian Gapp, Elias Tappeiner, Martin Welk, Karl Fritscher, Stephanie Mangesius, Constantin Eisenschink, Philipp Deisl, Michael Knoflach, Astrid E. Grams, Elke R. Gizewski, Rainer Schubert

## Контекст Ишемический инсульт является второй по распространенности причиной смерти в мире, с аннуальной смертностью около 5,5 миллионов человек. Частота рецидивов инсульта в первый год достигает 5-25%, при этом величина смертности при рецидивах громадно выше среднего и составляет 40%. Необходимость в раннем выявлении больных, подверженных риску рецидива, очевидна, так как это позволяет согласовывать терапию вовремя и улучшить прогноз. Наша цель заключается в разработке метода автоматизированной диагностики, который бы позволил комплексно оценивать риск рецидива и определять пациентов, нуждающихся в тщательном мониторинге и внезапных мероприятиях. ## Метод Мы вдохновились тем, чтобы построить объединенную модель, которая использует данные в различных форматах для точного выявления рецидивов инсульта. Использовался метод многомодального обучения сети XSRD-Net, которая объединяет визуальные данные (от трехмерных CTA-сканов) и табличные данные (состояние сердечно-сосудистой системы, возраст и пол). Модель должна была решать две задачи: статистическое разделение пациентов с рецидивом от тех без него (Task 1) и регрессионное предсказание времени без рецидива (Task 2) с последующей классификацией. ## Результаты Мы провели тщательные эксперименты с использованием наших данных, которые собрались за период с 2010 по 2024 год. Для Task 1 (разделение рецидивов от него), наша модель демонстрирует AUC 0.84 на тестовом наборе данных, указывая на высокую точность классификации. Для Task 2 (регрессия и классификация), XSRD-Net продемонстрировала c-индекс 0.68 и AUC 0.71. Далее, мы провели глубокий анализ модели в поисках интерпретируемых признаков. Мы выявили связь между заболеваниями сердечно-сосудистой системы и заболеваниями связности с одновременным воздействием на кариотидные артерии, которая позволяет точнее предсказывать рецидивы и время без рецидива. ## Значимость Результаты модели XSRD-Net имеют большое значение в области ранней диагностики инсульта. Это позволяет улучшить стратегии терапии и снизить риск смерти у рисковых пациентов. Помимо этого, наша модель может использоваться в различных областях медицинских исследований для определения рисков рецидивов и для разработки систем автоматизированного мониторинга. Такой подход позволит сократить время реакции врачей и увеличить вероятность успешного лечения. ## Выводы Мы разработали модель XSRD-Net, которая эффективно решает задачу выявления рецидивов инсульта и предсказания времени без рецидива. Наши результаты показали, что модель

Annotation:

Stroke is the second most frequent cause of death world wide with an annual mortality of around 5.5 million. Recurrence rates of stroke are between 5 and 25% in the first year. As mortality rates for relapses are extraordinarily high (40%) it is of utmost importance to reduce the recurrence rates. We address this issue by detecting patients at risk of stroke recurrence at an early stage in order to enable appropriate therapy planning. To this end we collected 3D intracranial CTA image data and r...

ID: 2509.07772v1 cs.CV, cs.AI, I.2.1

arXiv PDF

📄 VSI: Visual Subtitle Integration for Keyframe Selection to enhance Long Video Understanding

2025-08-14

Авторы:

Jianxiang He, Shaoguang Wang, Weiyu Guo, Meisheng Hong, Jungang Li, Yijie Xu, Ziyang Chen, Hui Xiong

#### Контекст В последние годы повышается интерес к многомодальным большим языковым моделям (MLLMs), которые могут обрабатывать и анализировать многоступенчатый поток данных с различных источников, включая текст, видео и аудио. Одной из ключевых задач в этой области является **long video understanding**, которая представляет собой вызов для MLLMs из-за огромного объема данных и сложности временного порядка. Для упрощения этой задачи, широко применяется метод ключевого кадра (keyframe), который пытается выбрать наиболее основательные кадры видео, отвечающие заданному текстовому запросу. Однако существуют существенные проблемы, такие как недостаточная мультимодальная связность между текстовым запросом и видео, а также недостаточная логическая семантическая интеграция для точного вывода. Эти проблемы наделяют ключевую задачу в поиске ключевых кадров сложностью, которая необходима для точного понимания длительных видео. Мы предлагаем **Visual Subtitle Integration (VSI)**, метод, который интегрирует подкасты, временные метки и сценные границы для повышения эффективности поиска ключевых кадров. #### Метод Метод **VSI** основывается на двух основных потоках поиска: **Video Search Stream** и **Subtitle Match Stream**. **Video Search Stream** использует видеокадры, чтобы найти самые важные кадры в целях понимания видео, в то время как **Subtitle Match Stream** синхронизирует текстовые подкасты с видео, чтобы улучшить соответствие текста и видео. Для каждого слоя поиска, мы используем **cross-modal attention mechanism**, который помогает объединить информацию из разных модальностей (видео и текст), чтобы повысить точность в выделении ключевых кадров. Кроме того, мы используем **boundary alignment**, чтобы добавить контекст сцен в поисковую процедуру. Это позволяет улучшить семантическую интеграцию и повысить точность поиска ключевых кадров. #### Результаты Мы проводим эксперименты на LongVideoBench, популярной базе данных для тестирования эффективности поиска ключевых кадров в длительных видео. Наш **VSI** показывает выдающиеся результаты, достигая **40.00% key frame localization accuracy** на текстовом подмножестве LongVideoBench и **68.48% accuracy** на задачах видео-QA. Это превосходит существующие бейзлайны на **20.35%** и **15.79%**, соответственно. Благодаря двойному поисковому механизму, наш метод демонстрирует высокую точность и общую ценность, особенно в среднем и длинном диапазоне видео. Эти результаты подтверждают то, что VSI является решением, обеспечивающим робастность и универсальность в задаче понимания длительных видео. #### Значимость Наш **VSI** имеет широкое применение в различных областях, таких как мультимедиа-анализ, видео-поиск, мониторинг видеоконтента и легковесное анализ

Annotation:

Long video understanding presents a significant challenge to multimodal large language models (MLLMs) primarily due to the immense data scale. A critical and widely adopted strategy for making this task computationally tractable is keyframe retrieval, which seeks to identify a sparse set of video frames that are most salient to a given textual query. However, the efficacy of this approach is hindered by weak multimodal alignment between textual queries and visual content and fails to capture the...

ID: 2508.06869v1 cs.CV, cs.AI, I.2.10

arXiv PDF

📄 SIFThinker: Spatially-Aware Image Focus for Visual Reasoning

2025-08-12

Авторы:

Zhangquan Chen, Ruihui Zhao, Chuwei Luo, Mingze Sun, Xinlei Yu, Yangyang Kang, Ruqi Huang

## Контекст Существующие multimodal large language models (MLLMs) сталкиваются с значительными ограничениями в решении сложных визуальных задач, таких как спатиальное понимание и тонкая визуальная перцепция. Несмотря на то, что многие методы пытались интегрировать визуальную размышление, они часто не учитывали корректировку внимания с использованием пространственных признаков для тонкой регулировки фокуса на относительно целевых областях в задаче. Мы предлагаем SIFThinker, новая система, которая эмулирует человеческое визуальное восприятие, способная выполнять интеллектуальную корректировку внимания и сосредоточиться на целевых регионах в изображении. Этот подход может существенно улучшить эффективность в решении визуальных задач. ## Метод SIFThinker использует стратегию "reverse expansion forward inference", чтобы генерировать интеллектуальные цепочки мыслей в форме объединенных изображений и текстов. Метод использует depth-enhanced bounding boxes и естественный язык для создания динамической корректировки внимания. Для тонкого визуального осмысления, SIFThinker использует GRPO-SIF, унифицированный цикл развития и улучшения визуальной навигации в реальном времени. Эта архитектура позволяет модели лучше понимать пространственные взаимоотношения и сосредоточиться на релевантных областях в процессе решения задач. ## Результаты Наши эксперименты проводились на большой датасет SIF-50K, созданный в рамках нашей работы. Мы сравнили SIFThinker с текущими лидерами в области визуально-текстовых моделей. Результаты демонстрируют существенное превосходство SIFThinker в сложных визуальных задачах, в том числе в спатиальном понимании и тонкой визуальной перцепции. Модель показала значительный прирост в точности решения задач, при этом сохранив гибкость и работу в условиях широкого диапазона визуальных сценариев. ## Значимость SIFThinker может быть применен в различных приложениях, включая автоматический машинный транслятор, визуальный поиск, искусственный интеллект в реальном времени и даже в сферу медицины, где точное визуальное понимание критично. Особым преимуществом является возможность модели для динамической корректировки внимания и сосредоточения на целевых областях, что позволяет ей выполнять более точные и эффективные распознавания и решения задач. ## Выводы Мы представили SIFThinker, новую систему, которая применяет спатиально-акцентную корректировку визуального фокуса в системах визуального рассуждения. Наши результаты показали, что SIFThinker превосходит состояние искусства в сложных визуальных задачах. Будущие исследования будут нацелены на улучшение ее производительност

Annotation:

Current multimodal large language models (MLLMs) still face significant challenges in complex visual tasks (e.g., spatial understanding, fine-grained perception). Prior methods have tried to incorporate visual reasoning, however, they fail to leverage attention correction with spatial cues to iteratively refine their focus on prompt-relevant regions. In this paper, we introduce SIFThinker, a spatially-aware "think-with-images" framework that mimics human visual perception. Specifically, SIFThink...

ID: 2508.06259v1 cs.CV, cs.AI, I.2.10

arXiv PDF