📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 SkinMap: Weighted Full-Body Skin Segmentation for Robust Remote Photoplethysmography

2025-10-09

Авторы:

Zahra Maleki, Amirhossein Akbari, Amirhossein Binesh, Babak Khalaj

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Remote photoplethysmography (rPPG) is an innovative method for monitoring heart rate and vital signs by using a simple camera to record a person, as long as any part of their skin is visible. This low-cost, contactless approach helps in remote patient monitoring, emotion analysis, smart vehicle utilization, and more. Over the years, various techniques have been proposed to improve the accuracy of this technology, especially given its sensitivity to lighting and movement. In the unsupervised pipe...

ID: 2510.05296v1 cs.CV, eess.IV

arXiv PDF

📄 A Dynamic Mode Decomposition Approach to Morphological Component Analysis

2025-10-09

Авторы:

Owen T. Huber, Raghu G. Raj, Tianyu Chen, Zacharie I. Idriss

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This paper introduces a novel methodology of adapting the representation of videos based on the dynamics of their scene content variation. In particular, we demonstrate how the clustering of dynamic mode decomposition eigenvalues can be leveraged to learn an adaptive video representation for separating structurally distinct morphologies of a video. We extend the morphological component analysis (MCA) algorithm, which uses multiple predefined incoherent dictionaries and a sparsity prior to separa...

ID: 2510.05977v1 cs.CV, eess.IV

arXiv PDF

📄 Beyond one-hot encoding? Journey into compact encoding for large multi-class segmentation

2025-10-04

Авторы:

Aaron Kujawa, Thomas Booth, Tom Vercauteren

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This work presents novel methods to reduce computational and memory requirements for medical image segmentation with a large number of classes. We curiously observe challenges in maintaining state-of-the-art segmentation performance with all of the explored options. Standard learning-based methods typically employ one-hot encoding of class labels. The computational complexity and memory requirements thus increase linearly with the number of classes. We propose a family of binary encoding approac...

ID: 2510.00667v1 cs.CV, eess.IV

arXiv PDF

📄 A Multicentric Dataset for Training and Benchmarking Breast Cancer Segmentation in H&E Slides

2025-10-04

Авторы:

Carlijn Lems, Leslie Tessier, John-Melle Bokhorst, Mart van Rijthoven, Witali Aswolinskiy, Matteo Pozzi, Natalie Klubickova, Suzanne Dintzis, Michela Campora, Maschenka Balkenhol, Peter Bult, Joey Spronck, Thomas Detone, Mattia Barbareschi, Enrico Munari, Giuseppe Bogina, Jelle Wesseling, Esther H. Lips, Francesco Ciompi, Frédérique Meeuwsen, Jeroen van der Laak

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Automated semantic segmentation of whole-slide images (WSIs) stained with hematoxylin and eosin (H&E) is essential for large-scale artificial intelligence-based biomarker analysis in breast cancer. However, existing public datasets for breast cancer segmentation lack the morphological diversity needed to support model generalizability and robust biomarker validation across heterogeneous patient cohorts. We introduce BrEast cancEr hisTopathoLogy sEgmentation (BEETLE), a dataset for multiclass sem...

ID: 2510.02037v1 q-bio.QM, cs.CV, eess.IV

arXiv PDF

📄 DRCP: Diffusion on Reinforced Cooperative Perception for Perceiving Beyond Limits

2025-10-01

Авторы:

Lantao Li, Kang Yang, Rui Song, Chen Sun

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Cooperative perception enabled by Vehicle-to-Everything communication has shown great promise in enhancing situational awareness for autonomous vehicles and other mobile robotic platforms. Despite recent advances in perception backbones and multi-agent fusion, real-world deployments remain challenged by hard detection cases, exemplified by partial detections and noise accumulation which limit downstream detection accuracy. This work presents Diffusion on Reinforced Cooperative Perception (DRCP),...

ID: 2509.24903v1 cs.RO, cs.CV, eess.IV

arXiv PDF

📄 On the Status of Foundation Models for SAR Imagery

2025-09-30

Авторы:

Nathan Inkawhich

#### Контекст Синтетический апертурный радиолокатор (SAR) — это мощная технология, используемая для получения высококачественных изображений при помощи радиоволн. Однако SAR-изображения отличаются характерными особенностями, включая большие вариации в освещении, погрешность разрешения и наличие шума. Эти характеристики делают задачи распознавания объектов в SAR-изображениях сложнее, чем в стандартных изображениях. Несмотря на развитие методов обучения с подкреплением и самостоятельных методов обучения, большинство решений для SAR-изображений остаются локализованными и не в состоянии обеспечить широкомасштабное применение. Текущие решения требуют больших объемов маневров и значительных ресурсов. Мы стремимся исследовать, могут ли самостоятельные методы обучения, использованные в общем контексте, проявить свои преимущества в задачах распознавания объектов в SAR-изображениях. #### Метод Мы применяем современные самостоятельные методы обучения к SAR-изображениям, включая DINOv2 и DINOv3, созданные на базе фреймфорка Vision Transformers (ViT). Эти модели обучаются на масштабных данных и могут работать в самостоятельном режиме без требований к масштабированию или тренировке моделей на основе подкрепления. Мы используем синтетические данные SAR для одного типа изображений, например, DOTA. Самостоятельные методы обучения позволяют моделям извлекать богатые семантические признаки, даже в условиях низкого значения целевого знака или несбалансированности данных. Мы также экспериментируем с различными конфигурациями обучения, включая различные глубины моделей и различные датасеты для задач классификации и сегментации. #### Результаты Мы проводим эксперименты на датасетах SAR-изображений для задач классификации и сегментации. Наши результаты показывают, что использование DINOv2-XL с адаптивной финетюнинговой стратегией позволяет достичь самых высоких показателей, превосходя аналогичные модели на 4–6% в точности классификации. Анализируя характеристики вывода модели, мы обнаружили, что DINOv2-XL эффективно извлекает семантические признаки по отношению к целевым объектам в SAR-изображениях. Кроме того, мы проверяем модель на датасетах с разным уровнем шума и разрешения, показывая, что DINOv2-XL достаточно устойчива к этим факторам. #### Значимость Наше исследование открывает путь к использованию самостоятельных методов обучения в SAR-изображениях, что может упростить и сделать дешевле процессы распознавания объектов в этих изображениях. Эти модели могут быть применены в сферах, таких как наблюдение за землей, мониторинг климата, безопасно

Annotation:

In this work we investigate the viability of foundational AI/ML models for Synthetic Aperture Radar (SAR) object recognition tasks. We are inspired by the tremendous progress being made in the wider community, particularly in the natural image domain where frontier labs are training huge models on web-scale datasets with unprecedented computing budgets. It has become clear that these models, often trained with Self-Supervised Learning (SSL), will transform how we develop AI/ML solutions for obje...

ID: 2509.21722v1 cs.CV, eess.IV

arXiv PDF

📄 CompressAI-Vision: Open-source software to evaluate compression methods for computer vision tasks

2025-09-27

Авторы:

Hyomin Choi, Heeji Han, Chris Rosewarne, Fabien Racapé

## Контекст С появлением широкого распространения сетей нервных сети (NN) в компьютерном зрении, которые обрабатывают изображения и видео, возникла необходимость в оптимизации технологий сжатия видео, адаптированных к компьютерному зрению. Наборы данных, модели и задачи в компьютерном зрении различны, поэтому требуется универсальная платформа, которая служила бы основой для реализации и оценки методов сжатия, оптимизированных для последующих задач компьютерного зрения. Проблема состоит в том, что существующие кодеки недостаточно эффективны для задач компьютерного зрения, так как они выстроены в первую очередь для потребления видео в развлекательных целях, а не для задач, требующих высокой точности распознавания объектов или других виджетных обработок. ## Метод CompressAI-Vision представляет собой оценочную платформу, способную эффективно исследовать методы сжатия для компьютерного зрения. Она поддерживает две сценарии использования: "удаленное" и "разделенное" обработки. В первом случае видео- или изображения-данные сжимаются на удаленном сервере и отправляются в виде потока на клиентское устройство. Во втором случае сжатие происходит на клиентском устройстве, а данные передаются на сервер. Для оценки того, насколько эффективно сжатие влияет на точность распознавания, используются стандартные кодеки, а также специальные, индивидуально разработанные для компьютерного зрения. Оценка проводится с учетом различных датасетов и показателя точности в зависимости от коэффициента сжатия. ## Результаты Платформа CompressAI-Vision демонстрирует мощь своих методов, оптимизированных для компьютерного зрения, с помощью различных датасетов. На основе экспериментов были определены оптимальные конфигурации для различных задач, включая обнаружение объектов и распознавание лица. Например, на датасете COCO, сжатие видео с помощью оптимизированных методов позволяет повысить точность распознавания, не приводя к существенной потери качества изображения. Также были проведены сравнительные исследования с традиционными кодеками, показав преимущества новых методов в условиях ограниченных ширины канала. ## Значимость CompressAI-Vision открывает новые возможности для развития компьютерного зрения, особенно для сценариев удаленной обработки и разделенной архитектуры. Его применение может привести к повышению эффективности хранения и передачи видео и изображений в компьютерных системах зрения, благодаря оптимизированным методах сжатия. Это может быть применено в различных областях, таких как робототехника, медицина, а также в системах ана

Annotation:

With the increasing use of neural network (NN)-based computer vision applications that process image and video data as input, interest has emerged in video compression technology optimized for computer vision tasks. In fact, given the variety of vision tasks, associated NN models and datasets, a consolidated platform is needed as a common ground to implement and evaluate compression methods optimized for downstream vision tasks. CompressAI-Vision is introduced as a comprehensive evaluation platf...

ID: 2509.20777v1 cs.CV, eess.IV

arXiv PDF

📄 WaveletGaussian: Wavelet-domain Diffusion for Sparse-view 3D Gaussian Object Reconstruction

2025-09-25

Авторы:

Hung Nguyen, Runfa Li, An Le, Truong Nguyen

## Контекст 3D Gaussian Splatting (3DGS) является мощным представлением для изображения-основанной реконструкции объектов. Однако в условиях спарсе-вида (sparse-view) его эффективность значительно снижается. До этого, работы предлагали использовать диффузионные модели для исправления поврежденных рендерингов, которые потом использовались как поддельные земные правди для последующих оптимизаций. Эти подходы, хотя и эффективны, но требуют значительных вычислительных ресурсов из-за трудоемкости шагов диффузионного моделирования и исправления. Наша цель — разработать более эффективный подход для реконструкции 3D-объектов в условиях спарсе-вида, уменьшив накладные расходы на вычисления и улучшив качество реконструкции. ## Метод Мы предлагаем WaveletGaussian — новую фреймворк, который переносит диффузионный процесс в волновой домен (wavelet domain). Здесь, диффузия применяется только к низкочастотной подставке LL, в то время как высокочастотные подставки LH, HL, и HH рефинируются с помощью лёгкой сети нейронной сети. Это позволяет существенно сократить требования к вычислительным ресурсам. Более того, мы предлагаем эффективную онлайн-стратегию для случайного маскирования (online random masking strategy) для генерации обучающих пар диффузионного моделирования, заменяя устаревший, но менее эффективный, leave-one-out подход. ## Результаты Мы провести эксперименты на двух основных бенчмарк-датасетах: Mip-NeRF 360 и OmniObject3D. Наши результаты показывают, что WaveletGaussian достигает качества рендеринга, которое не только соперничает с лучшими существующими методами, но и значительно сокращает время обучения. Это означает, что наш подход не только эффективнее, но и экономичнее по сравнению с предшествующими работами. ## Значимость Наш подход имеет широкие области применения в изображении-основанной графике и виртуальной реальности. Он предлагает значительные преимущества, такие как высокая эффективность, качественную реконструкцию, и низкие требования к вычислительным ресурсам. Это может способствовать развитию новых технологий в области визуализации и интерактивных систем. ## Выводы Мы предложили WaveletGaussian — новый подход к диффузионной реконструкции 3D-объектов в условиях спарсе-вида. Наши результаты показали, что применение диффузии в волновом домене, вместе с эффективной стратегией маскирования, может значительно улучшить качество реконструкции и сократить время обучения. Мы планируем продолжать работу в этом направлении, ориентируясь на улучшение точности и эффективности диффузионных моделей для об

Annotation:

3D Gaussian Splatting (3DGS) has become a powerful representation for image-based object reconstruction, yet its performance drops sharply in sparse-view settings. Prior works address this limitation by employing diffusion models to repair corrupted renders, subsequently using them as pseudo ground truths for later optimization. While effective, such approaches incur heavy computation from the diffusion fine-tuning and repair steps. We present WaveletGaussian, a framework for more efficient spar...

ID: 2509.19073v1 cs.CV, eess.IV, eess.SP

arXiv PDF

📄 Vision-Based Driver Drowsiness Monitoring: Comparative Analysis of YOLOv5-v11 Models

2025-09-24

Авторы:

Dilshara Herath, Chinthaka Abeyrathne, Prabhani Jayaweera

## Контекст Дремотонность водителей остается критическим фактором в транспортных происшествиях, приводя к тысячам смертей и травм ежегодно. Это исследование сосредотачивается на разработке реального времени, неинтрузивных методов детекции дремотонности водителей с использованием компьютерного зрения. Одной из наиболее эффективных технологий в этой области являются YOLO (You Only Look Once) алгоритмы. Они используются для периодического мониторинга состояния водителей и угадывания потенциальных сигналов усталости. Несмотря на их прогресс, существуют проблемы, такие как низкая точность, высокая задержка, высокое потребление ресурсов и нехватка широкого анализа вариаций внешнего вида, таких как позы, освещение или наличие очков. Это делает необходимым поиск более эффективных решений для обеспечения безопасности на дорогах. ## Метод Для решения этой проблемы был проведен подробный анализ различных модификаций YOLO, а именно YOLOv5-v11. Алгоритмы были применены к общедоступной базе данных UTA-RLDD, которая включает в себя разнообразные условия — пол, очки, свет и тональность кожи. Метрики оценки включали точность (Precision), восстановление (Recall), mAP (Mean Average Precision) с порогом 0.5 и комплексный порог от 0.5 до 0.95. Обучение и тестирование проводились с использованием различных параметров, включая разные глубины моделей (small, large) и типы сетей. Также была реализована модель Eye Aspect Ratio (EAR) на основе лицевых точек Dlib, для сравнения производительности с YOLO. ## Результаты Проведенный эксперимент показал, что YOLOv9c демонстрирует высокую точность (mAP 0.5: 0.986, Recall: 0.978), но требует большего объема ресурсов. С другой стороны, YOLOv11n демонстрирует более оптимальную связку между точностью (mAP 0.5: 0.954) и производительностью, что делает его пригодным для применения в устройствах с ограниченными ресурсами. Модель EAR, хотя и эффективна с точки зрения вычислительных затрат, оказалась менее устойчивой к переменным условиям, таким как позы и освещение. Это свидетельствует о том, что YOLOv11n может быть использовано для реального времени приложений, таких как автомобили с поддержкой драйверского мониторинга. ## Значимость Результаты имеют значительное значение для разработки систем безопасности в автомобильной и промышленной сфере. Использование YOLOv11n обеспечивает более быструю реакцию и меньшее потребление ресурсов, что важно для внедрения в системы автоматического управления. Этот алгоритм может использоваться не только для мониторинга водителей, но также для распознавания других объектов в раз

Annotation:

Driver drowsiness remains a critical factor in road accidents, accounting for thousands of fatalities and injuries each year. This paper presents a comprehensive evaluation of real-time, non-intrusive drowsiness detection methods, focusing on computer vision based YOLO (You Look Only Once) algorithms. A publicly available dataset namely, UTA-RLDD was used, containing both awake and drowsy conditions, ensuring variability in gender, eyewear, illumination, and skin tone. Seven YOLO variants (v5s, ...

ID: 2509.17498v1 cs.CV, eess.IV

arXiv PDF

📄 Image Realness Assessment and Localization with Multimodal Features

2025-09-18

Авторы:

Lovish Kaushik, Agnij Biswas, Somdyuti Paul

#### Контекст В последние годы становление искусственного интеллекта продвигает границы возможностей в области генерирования изображений. Однако одной из главных проблем генерирующих алгоритмов является несовершенство в производстве реалистичных изображений. Несовместимые области в изображениях могут ослабить их первоначальную концепцию, что негативно сказывается на их применении в практических задачах. Было бы полезно иметь метод, который не только оценивал реалистичность изображения в целом, но также позволял идентифицировать изображения, содержащие несовпадающие сегменты. Это способствовало бы улучшению качества изображений в технологиях визуального генерирования и их более устойчивому внедрению в жизненные ситуации. #### Метод Предлагаемый метод основывается на визуально-языковых моделях, обученных на больших наборах данных. Эти модели производят текстовые описания несовместимых областей в изображениях. Их выводы используются для оценки реальности в целом и для распознавания несовпадающих регионов в изображениях. Основная часть фреймворка состоит в применении текстовых меток для определения таких регионов, чтобы получить карты реальности, которые могут быть использованы для деконструкции изображений и идентификации несовместимых сегментов. Изучаемые модели создают текстовую модель, которая понимает значимость каждого региона в изображении, и оценивает его реальность. #### Результаты Опытные тесты показали, что прогнозы реальности, основанные на предложенном подходе, демонстрируют высокую точность по сравнению с другими методами. Также в работе показаны карты реальности, которые позволяют определить наиболее несовместимые регионы в изображении. Эти карты могут использоваться для повышения качества генерирующих алгоритмов, благодаря тому, что будут использоваться во время обучения для подтверждения реальности. Это дает возможность сделать генерацию изображений более точной и реалистичной. #### Значимость Предложенный подход может применяться в различных областях, включая подтверждение реальности изображений для видеоконференций, фоторедактирования, создания графических эффектов и визуализации. Он дает не только оценку реальности в целом, но и позволяет улучшить реальность регионов, которые необходимо исправить. Эти возможности делают этот подход полезным для развития технологий визуальной генерирования и их интеграции в производственные процессы. #### Выводы В целом, предложенный подход демонстрирует высокую эффективность в оценке реальности изображений и идентификации несовмест

Annotation:

A reliable method of quantifying the perceptual realness of AI-generated images and identifying visually inconsistent regions is crucial for practical use of AI-generated images and for improving photorealism of generative AI via realness feedback during training. This paper introduces a framework that accomplishes both overall objective realness assessment and local inconsistency identification of AI-generated images using textual descriptions of visual inconsistencies generated by vision-langu...

ID: 2509.13289v1 cs.CV, eess.IV

arXiv PDF

Показано 41 - 50 из 101 записей