📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Dense Motion Captioning

2025-11-11

Авторы:

Shiyao Xu, Benedetta Liberatori, Gül Varol, Paolo Rota

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent advances in 3D human motion and language integration have primarily focused on text-to-motion generation, leaving the task of motion understanding relatively unexplored. We introduce Dense Motion Captioning, a novel task that aims to temporally localize and caption actions within 3D human motion sequences. Current datasets fall short in providing detailed temporal annotations and predominantly consist of short sequences featuring few actions. To overcome these limitations, we present the ...

ID: 2511.05369v1 cs.CV, I.2.10; I.4.8; I.5.4

arXiv PDF

📄 Domain-Adaptive Transformer for Data-Efficient Glioma Segmentation in Sub-Saharan MRI

2025-11-07

Авторы:

Ilerioluwakiiye Abolade, Aniekan Udo, Augustine Ojo, Abdulbasit Oyetunji, Hammed Ajigbotosho, Aondana Iorumbur, Confidence Raymond, Maruf Adewole

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Glioma segmentation is critical for diagnosis and treatment planning, yet remains challenging in Sub-Saharan Africa due to limited MRI infrastructure and heterogeneous acquisition protocols that induce severe domain shift. We propose SegFormer3D-plus, a radiomics-guided transformer architecture designed for robust segmentation under domain variability. Our method combines: (1) histogram matching for intensity harmonization across scanners, (2) radiomic feature extraction with PCA-reduced k-means...

ID: 2511.02928v1 eess.IV, cs.CV, I.2.10; I.4.8; J.3

arXiv PDF

📄 Towards a Generalizable Fusion Architecture for Multimodal Object Detection

2025-10-22

Авторы:

Jad Berjawi, Yoann Dupas, Christophe C'erin

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Multimodal object detection improves robustness in chal- lenging conditions by leveraging complementary cues from multiple sensor modalities. We introduce Filtered Multi- Modal Cross Attention Fusion (FMCAF), a preprocess- ing architecture designed to enhance the fusion of RGB and infrared (IR) inputs. FMCAF combines a frequency- domain filtering block (Freq-Filter) to suppress redun- dant spectral features with a cross-attention-based fusion module (MCAF) to improve intermodal feature sharing. ...

ID: 2510.17078v1 cs.CV, I.2.10; I.4.8

arXiv PDF

📄 Decoding the Surgical Scene: A Scoping Review of Scene Graphs in Surgery

2025-09-27

Авторы:

Angelo Henriques, Korab Hoxha, Daniel Zapp, Peter C. Issa, Nassir Navab, M. Ali Nasseri

## Контекст Оперативная среда представляет собой сложную динамическую систему, требующую точного анализа и понимания для поддержки безопасности и эффективности в медицинской практике. Одним из ключевых инструментов для понимания таких окружений являются **Scene Graphs (SGs)** — структурированные сети, описывающие отношения между объектами в среде. SGs уже применяются в многих областях, включая распознавание образов, анализ текста и синтез речи. Однако в медицинской сфере, особенно в хирургии, их потенциал остается недостаточно исследованным. Несмотря на растущий интерес к использованию SGs в ситуациях, требующих мониторинга, анализа и управления хирургическим процессом, текущие исследования сильно разрознены, что создает сложности в оценке их реального вклада в улучшение медицинских технологий. ## Метод Для оценки вклада SGs в хирургические приложения использовалась методология разработанная в соответствии с PRISMA-ScR (Preferred Reporting Items for Systematic Reviews and Meta-Analyses extension for Scoping Reviews). Исследование включило поиск, оценку и систематическую картирование данных из различных источников. Основное внимание было уделено сравнению технологий и методов, используемых для построения и применения SGs в различных сценариях. Рассматривались два основных направления: внутренний (2D-видео) и внешний (4D-моделирование) взгляд на оперативную среду. Также, были проанализированы технические решения, методы обучения и архитектуры, используемые в современных SGs. ## Результаты Исследование выявило значительный рост в новых решениях, которые используют SGs в хирургии. Особенно заметны развития в области **графовых нейронных сетей (GNN)** и более специализированных **основных моделей**, которые превосходят широко используемые общие модели зрения и языка. Данные были получены из ограниченного, но качественного набора работ, включающих триплетное распознавание, синтез сценариев и моделирование внешних обзорных данных. Однако обнаружилось, что существует критическая разница в использовании данных: внутренние сцены часто основываются на реальных 2D-видео, в то время как внешние сцены — на симуляционных данных. Это создает трансляционную проблему, ограничивающую передачу решений из лабораторных условий в практическое применение. ## Значимость SGs не только улучшают работу систем мониторинга и анализа в хирургии но и открывают новые перспективы для **контролируемого моделирования и симуляции**. Они могут использоваться для развития безопасных и эффективных систем для обучения и мониторинга хирургических процессов. Эти технологии мог

Annotation:

Scene graphs (SGs) provide structured relational representations crucial for decoding complex, dynamic surgical environments. This PRISMA-ScR-guided scoping review systematically maps the evolving landscape of SG research in surgery, charting its applications, methodological advancements, and future directions. Our analysis reveals rapid growth, yet uncovers a critical 'data divide': internal-view research (e.g., triplet recognition) almost exclusively uses real-world 2D video, while external-vi...

ID: 2509.20941v1 cs.CV, I.2.10; I.4.8; J.3

arXiv PDF

📄 Vi-SAFE: A Spatial-Temporal Framework for Efficient Violence Detection in Public Surveillance

2025-09-18

Авторы:

Ligang Chang, Shengkai Xu, Liangchang Shen, Binhan Xu, Junqiao Wang, Tianyu Shi, Yanhui Du

#### Контекст Выявление насилия в публичных системах видеонаблюдения является ключевым вопросом для обеспечения общественной безопасности. Существующие системы часто сталкиваются с проблемами, такими как малоразмерные объекты, подвижные кадры, сложные фоновые элементы и необходимость высокоскоростной обработки в реальном времени. Эти ограничения становятся причиной неточности детектирования и задержки в реагировании на опасные ситуации. Таким образом, необходимо разработать более эффективный подход, который объединит локализацию объектов и анализ временных последовательностей на уровне крупных данных. #### Метод Предлагаемая модель Vi-SAFE (Violence Spatial-Temporal Framework for Efficient Violence Detection) является интегрированной системой, которая сочетает мощь модели YOLOv8 для локализации объектов с Temporal Segment Network (TSN) для анализа временных сегментов. Модель YOLOv8 использует GhostNetV3 в качестве легковесного бэкбона, свёрточный модуль с экспоненциальным движением среднего (EMA) и методы уменьшения комплексности (пруйнг). TSN, в свою очередь, выполняет бинарное классификационное разделение наводчиков навраждений. Обе модели обучаются отдельно на специальных наборах данных, что позволяет гармонично объединить локализацию и классификацию. Эта стратегия обеспечивает высокую точность и эффективность. #### Результаты Выполненные эксперименты показали, что Vi-SAFE демонстрирует заметное превосходство над существующими методами. На RWF-2000 датасете она достигла точности 0.88, что значительно превышает результаты TSN (0.77) и других конкурентных решений. Это свидетельствует о высокой эффективности Vi-SAFE в выявлении насилия и позволяет сделать вывод о том, что она является ключевым инструментом для обеспечения общественной безопасности. #### Значимость Предлагаемая модель может быть применена в различных сферах, например, в системах безопасности, мониторинге общественных мест и системах охраны. Она обеспечивает более точное и быстрое выявление насилия, что позволяет улучшить ответы на негативные события. Таким образом, Vi-SAFE не только оптимизирует текущие процессы, но и открывает новые возможности для развития общественных систем безопасности. #### Выводы Результаты исследований показали, что Vi-SAFE является эффективным инструментом для выявления насилия в публичных системах видеонаблюдения. В будущем исследования планируют сосредоточиться на улучшении моделей для выявления более сложных форм насилия, а также на увеличении скорости и эффективности обработки в реальном времени. Эти улучшения будут способствовать улучшению безопасности в общественных местах.

Annotation:

Violence detection in public surveillance is critical for public safety. This study addresses challenges such as small-scale targets, complex environments, and real-time temporal analysis. We propose Vi-SAFE, a spatial-temporal framework that integrates an enhanced YOLOv8 with a Temporal Segment Network (TSN) for video surveillance. The YOLOv8 model is optimized with GhostNetV3 as a lightweight backbone, an exponential moving average (EMA) attention mechanism, and pruning to reduce computational...

ID: 2509.13210v1 cs.CV, I.2.10; I.4.8

arXiv PDF

📄 NeuroGaze-Distill: Brain-informed Distillation and Depression-Inspired Geometric Priors for Robust Facial Emotion Recognition

2025-09-17

Авторы:

Zilin Li, Weiwei Xu, Xuanqi Zhao, Yiran Zhu

#### Контекст Узнавание эмоций на основе лица (FER) является важной задачей в области обработки имиджей и обнаружения эмоций. Несмотря на успех моделей, которые обучаются на пикселях, они часто сталкиваются с проблемой неполного обобщения на новых данных. Это связано с тем, что лицевая природа не является прямым и несмещенным прокси-индикатором внутренних эмоциональных состояний. Без собственных внутренних представлений о чувствах модели остаются ограниченными в своей точности и универсальности. Другая мотивация заключается в использовании нейроинформационных признаков, которые могут уточнять визуальные модели, но часто требуют сложных парности данных и ресурсоемких вычислений. Цель настоящей работы — развить простую, эффективную и универсальную методологию, которая может быть развернута в реальном мире. #### Метод Мы предлагаем NeuroGaze-Distill, кросс-модальный фреймворк обучения с подделкой, который передает биоинформационные признаки из модели-учителя в модель-ученика, основываясь на статических признаках valence/arousal (V/A) и депрессионным инспирированном геометрическом признаке (D-Geo). Учитель, обученный на EEG-топографических картах от DREAMER (с MAHNOB-HCI в качестве неотмеченных данных), производит статическую сетку V/A 5x5, которая замораживается и используется на протяжении всего учебного процесса. Нет необходимости в парности лиц-EEG или невизуальных сигналах во время работы. Ученик, реализованный как ResNet-18/50, обучается на FERPlus с использованием классических кросс-энтропийных и классических классификационных регуляризаторов: (i) **Proto-KD (cosine)**, который выравнивает внутренние признаки ученика с головоломными V/A-признаками; и (ii) **D-Geo**, который мягко изменяет геометрию признаков, опираясь на наблюдения из исследований депрессии, например, сокращении вокруг высокоудовольствия. Мы проводим эксперименты внутри домена (FERPlus) и междоменного (AffectNet-mini, CK+), измеряя 8-и классовые оценки, а также метрики F1 и балансируемую точность для сравнения с неодинаковыми метками. #### Результаты Испытания показали, что NeuroGaze-Distill показывает стабильные улучшения в точности и F1-метрике по сравнению с базовой моделью. Абляционные эксперименты подтвердили вклад статических признаков V/A и D-Geo в улучшение производительности. Мы проанализировали размер статической сетки V/A и обнаружили, что 5x5 дает лучший баланс между стабильностью и производительностью. Наши результаты показали, что NeuroGaze-Distill может быть эффективно применен для улучшения универсальности FER-моделей без дополнительных архитектурных сложностей.

Annotation:

Facial emotion recognition (FER) models trained only on pixels often fail to generalize across datasets because facial appearance is an indirect and biased proxy for underlying affect. We present NeuroGaze-Distill, a cross-modal distillation framework that transfers brain-informed priors into an image-only FER student via static Valence/Arousal (V/A) prototypes and a depression-inspired geometric prior (D-Geo). A teacher trained on EEG topographic maps from DREAMER (with MAHNOB-HCI as unlabeled ...

ID: 2509.11916v1 cs.CV, I.2.10; I.4.8; I.5.4

arXiv PDF