📚 Саммари научных статей из arXiv

Найдено 268 результатов по запросу 'eess.IV, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Explainable AI Technique in Lung Cancer Detection Using Convolutional Neural Networks

2025-08-15

Авторы:

Nishan Rai, Sujan Khatri, Devendra Risal

## Контекст Определение рака легких на ранней стадии является критически важным для улучшения прогноза болезни и повышения выживаемости пациентов. Однако традиционные методы диагностики часто требуют значительных временных и ресурсных затрат, а также зависят от опыта специалистов. Это приводит к задержкам в обнаружении и несогласованности в диагностике. Нейронные сети, особенно глубокие, показали свою эффективность в автоматизации такой диагностики. Несмотря на это, многие из них не предоставляют понятных объяснений для клинических специалистов, что ограничивает их применение в практических ситуациях. ## Метод Мы применили экзордическую архитектуру сверточных нейронных сетей (CNN), настроенную на диагностику рака легких с помощью трех классов: нормальное состояние, бенигная форма рака и малянгная форма. Использовались данные из набора IQ-OTH/NCCD (1,197 сканов). Для обучения использовалась пользовательская CNN-архитектура и три предварительно обученных модели: DenseNet121, ResNet152 и VGG19. Для борьбы с неравномерностью классов применялась техника cost-sensitive learning. Для улучшения прозрачности интерпретируемости результатов внедряется метод Shapley Additive Explanations (SHAP). ## Результаты Модели DenseNet121 и ResNet152 показали самые высокие показатели в сравнении с другими моделями. DenseNet121 демонстрировал лучшую сбалансированность в показателях precision (92%), recall (90%) и F1-score (91%). ResNet152, в свою очередь, достиг более высокой точности (97.3%). Эти модели были оценены с использованием метрик ROC-AUC, accuracy и других, что подтвердило их высокую эффективность в диагностике. Дополнительно, SHAP-анализ позволил показать, какие части изображений в CT-сканах способствуют данному прогнозу, что улучшило понимание решений модели. ## Значимость Результаты имеют большое значение для клинической практики, так как обеспечивают быструю, точную и понятную поддержку в диагностике рака легких. Это особенно важно для ресурсораспределенных сред, где доступ к экспертам ограничен. Интеграция explainability в модели не только повышает доверие к результатам, но и позволяет клиническим специалистам более эффективно использовать информацию в решениях о лечении. ## Выводы Результаты исследований показали, что CNN-модели с интегрированной explainability могут предоставить эффективную и надежную поддержку в диагностике рака легких. Область применения таких моделей включает не только клинические ситуации, но и мониторинг здоровья населения в условиях удаленного контроля. Будущие исследования будут посвящены улучшению точности моделей, расширению наборов д

Annotation:

Early detection of lung cancer is critical to improving survival outcomes. We present a deep learning framework for automated lung cancer screening from chest computed tomography (CT) images with integrated explainability. Using the IQ-OTH/NCCD dataset (1,197 scans across Normal, Benign, and Malignant classes), we evaluate a custom convolutional neural network (CNN) and three fine-tuned transfer learning backbones: DenseNet121, ResNet152, and VGG19. Models are trained with cost-sensitive learnin...

ID: 2508.10196v1 eess.IV, cs.CV, 68T07

arXiv PDF

📄 Data-Efficient Learning for Generalizable Surgical Video Understanding

2025-08-15

Авторы:

Sahar Nasirihaghighi

#### Контекст Стоимость и доступность хирургического лечения остаются ключевыми проблемами в медицинских системах по всему миру. Хирургические видеоанализаторы, обладающие высоким потенциалом для повышения качества и эффективности хирургических процедур, могут существенно улучшить оперативные работы. Однако их развитие сталкивается с рядом проблем, в том числе скупой аннотацией, высокой специфичностью процессов и большим диапазоном различий между институтами и процедурами. Целью данного исследования является создание моделей, способных эффективно применяться к разным типам хирургических процедур, обеспечивая доступность использования и стабильность в различных условиях клинического применения. #### Метод Для решения этих проблем использовались современные методы глубокого обучения, включая архитектуры сверточных нейронных сетей и рекуррентных моделей. Были проведены эксперименты с разными архитектурами для определения наиболее эффективных для решения задач распознавания фаз, действий и событий в хирургических видео. Улучшение моделей проводилось путем разработки новых архитектур и интеграции расширенных модулей. Чтобы снизить зависимость от дорогостоящих экспертных аннотаций, разработаны semi-supervised фреймворки, которые позволяют эффективно использовать большие объемы необъективных видео. Были предложены продвинутые фреймворки, такие как DIST, SemiVT-Surge и ENCORE, которые использовали минимальные объемы меток для повышения точности моделей. Также были созданы два крупных датасета: GynSurg и Cataract-1K, чтобы повысить репродуктивность исследований и способствовать продвижению области. #### Результаты Эксперименты проводились на крупных датасетах, включая GynSurg и Cataract-1K. Разработанные архитектуры показали высокую точность в распознавании фаз, действий и событий в хирургических видео. Особое внимание уделено повышению точности при минимальном количестве меток, что достигнуто благодаря использованию semi-supervised подходов. Эти результаты достигли состояния лидера над существующими методами, подтверждая эффективность использованных подходов. #### Значимость Результаты имеют широкую сферу применения в медицине, в том числе для создания интеллектуальных систем поддержки хирургических процедур, повышения точности оперативных действий и оценки их качества. Основным преимуществом является то, что модели требуют минимальных данных для обучения и могут применяться в различных клинических условиях. Это сокращает расходы на тренировку и обучение моделей, а также повышает доступность технологий для разных заболеваний и процедур. #### Выво

Annotation:

Advances in surgical video analysis are transforming operating rooms into intelligent, data-driven environments. Computer-assisted systems support full surgical workflow, from preoperative planning to intraoperative guidance and postoperative assessment. However, developing robust and generalizable models for surgical video understanding remains challenging due to (I) annotation scarcity, (II) spatiotemporal complexity, and (III) domain gap across procedures and institutions. This doctoral resea...

ID: 2508.10215v1 eess.IV, cs.CV

arXiv PDF

📄 Efficient Image Denoising Using Global and Local Circulant Representation

2025-08-15

Авторы:

Zhaoming Kong, Jiahuan Zhang, Xiaowei Yang

## Контекст Современные импульсы в области изображений, создаваемые развитием цифровых устройств и постоянным потоком новых данных, привели к усилению требований к методам обработки изображений. Одной из основных задач является денойсинг — удаление шумов с сохранением ключевых деталей в изображениях. Данная задача становится все более актуальной в связи с ростом объема изображений и требованиями к их качеству. Несмотря на развитие сложных методов, возникла потребность в эффективных, но простых алгоритмах, которые могут быстро обрабатывать большие наборы данных без ущерба качеству. ## Метод В статье предлагается метод Haar-tSVD, основывающийся на универсальных принципах тензорного сингулярного значения (t-SVD) и разложении Хаара под системой подстановок. Метод использует не только глобальные свойства изображения, но и локальные корреляции прямоугольных патчей. Эта связь достигается за счет тензорной структуры изображения и особенностей трансформации Хаара в режиме распределения циркулянтов. Избегается необходимость обучения для представления патчей, что делает алгоритм простым и распараллеливаемым. Кроме того, введена адаптивная схема оценки шума, основанная на нейросети CNN и анализе спектра. ## Результаты Проведенные эксперименты показали, что Haar-tSVD эффективно удаляет шум и сохраняет детали в различных сценариях реальных задач денойсинга. Были проанализированы различные типы шума и размеры изображений. Данные эксперименты проводились на открытых датасетах с разным квалитетным шумом. Результаты показали, что метод быстрее и эффективнее многих современных алгоритмов, таких как BM3D и WNNM. Использованные данные включают широкий спектр реальных изображений, что демонстрирует широкое применение Haar-tSVD. ## Значимость Предложенный подход может быть применен в различных областях, таких как медицинская имганирования, системы распознавания изображений, сети самоуправляющихся дронов и т.д. Он обладает высокой скоростью, чем делает его подходящим для реального времени. Необходимость в тщательном обучении и оптимизации базисных фильтров в Haar-tSVD позволяет экономить ресурсы и улучшить подход к оптимальной обработке. ## Выводы В итоге, Haar-tSVD представляет собой эффективный, простый и высокопроизводительный метод для денойсинга. Данный подход может стать основой для развития новых алгоритмов в области обработки изображений. Будущие исследования будут направлены на улучшение метода, включая его расширение для трехмерных изображений и многоканальных сцен.

Annotation:

The advancement of imaging devices and countless image data generated everyday impose an increasingly high demand on efficient and effective image denoising. In this paper, we present a computationally simple denoising algorithm, termed Haar-tSVD, aiming to explore the nonlocal self-similarity prior and leverage the connection between principal component analysis (PCA) and the Haar transform under circulant representation. We show that global and local patch correlations can be effectively captu...

ID: 2508.10307v1 eess.IV, cs.CV

arXiv PDF

📄 LWT-ARTERY-LABEL: A Lightweight Framework for Automated Coronary Artery Identification

2025-08-14

Авторы:

Shisheng Zhang, Ramtin Gharleghi, Sonit Singh, Daniel Moses, Dona Adikari, Arcot Sowmya, Susann Beier

## Контекст Коронарная артериальная болезнь (CAD) остается ведущей причиной смерти в мире, а компьютерная томография коронарной ангиографии (CTCA) является ключевым средством диагностики. Однако анализ коронарных артерий с помощью CTCA, включая идентификацию артерий при помощи вычислительных моделей, требует больших усилий и времени. Автоматическая анатомическая маркировка коронарных артерий может значительно облегчить этот процесс, но существующие методы сталкиваются с проблемами, связанными с анатомической разнообразием коронарных деревьев. Традиционные методы, основанные на познании, не полностью используют данные, в то время как новые методы на основе глубокого обучения требуют высоких ресурсов вычислений и часто не учитывают клинические знания. Мы предлагаем новую модель, которая объединяет анатомические знания и правила топологических ограничений для эффективной маркировки. Она демонстрирует лидирующие результаты на бенчмарк-датасетах и представляет собой перспективу для автоматической маркировки коронарных артерий. ## Метод Мы предлагаем LWT-ARTERY-LABEL — легковесную архитектуру с использованием правил топологических ограничений и анатомических знаний. Наша модель использует данные тренировки для научного моделирования топологии коронарных деревьев. Мы используем специальные классы слоев, которые позволяют охватить все возможные комбинации топологических структур. Решение также включает адаптивную систему, которая учитывает соотношение между артериями и важностью их расположения. Эта система позволяет эффективно идентифицировать и маркировать коронарные артерии, даже при сложной анатомической структуре. ## Результаты Мы проверили нашу модель на нескольких бенчмарк-датасетах, включая публичные CTCA-данные. Результаты показали, что LWT-ARTERY-LABEL показывает высокую точность и эффективность в маркировке коронарных артерий. Мы сравнили нашу модель с традиционными методами и новыми моделями глубокого обучения. Модель LWT-ARTERY-LABEL демонстрирует лучшие показатели как в точности, так и в скорости обработки, что делает её привлекательной для клинического применения. ## Значимость Мы увидели, что наш метод может быть применён в диагностике и оценке коронарной болезни, а также в широком круге других медицинских приложений, требующих точной анатомической маркировки. Наш подход не требует высоких ресурсов и может быть интегрирован с разными системами диагностики. Мы видим потенциал для повышения эффективности диагностики и улучшения качества здравоохранения

Annotation:

Coronary artery disease (CAD) remains the leading cause of death globally, with computed tomography coronary angiography (CTCA) serving as a key diagnostic tool. However, coronary arterial analysis using CTCA, such as identifying artery-specific features from computational modelling, is labour-intensive and time-consuming. Automated anatomical labelling of coronary arteries offers a potential solution, yet the inherent anatomical variability of coronary trees presents a significant challenge. Tr...

ID: 2508.06874v1 eess.IV, cs.CV

arXiv PDF

📄 Fusion-Based Brain Tumor Classification Using Deep Learning and Explainable AI, and Rule-Based Reasoning

2025-08-14

Авторы:

Melika Filvantorkaman, Mohsen Piri, Maral Filvan Torkaman, Ashkan Zabihi, Hamidreza Moradi

## Контекст Определение и классификация типов головного мозга важны для точного диагностического процесса и разработки эффективной терапии. Несмотря на развитие медицинской интеллектуальной системы, классификация головного мозга остается сложной, требующей высокой точности и удобоваримой транспарентности. Существуют технические вызовы, связанные с возможностью ошибки классификации и необходимостью объяснительных моделей для укрепления доверия клинических специалистов. Таким образом, целью этого исследования является разработка интерпретируемой системы классификации головного мозга, которая объединяет мощность глубокого обучения и интерпретируемость. ## Метод Предложена структура с использованием нескольких сверточных нейронных сетей (CNN), использующая MobileNetV2 и DenseNet121 для классификации трех типов головного мозга: glioma, meningioma и pituitary adenoma. Тренировка выполнялась на датасете Figshare с использованием кросс-валидации 5-классов. Для улучшения транспарентности и надежности классификации интегрирована Explainable AI (XAI) с Grad-CAM++ для визуализации классов, которая отображает важные области в изображениях MRI. Добавлена символическая модель Clinical Decision Rule Overlay (CDRO), чтобы связать предсказания модели с опытным познанием радиологов. ## Результаты Общая точность фреймворка составила 91.7%, причем точность, полнота и F1-меры равны 91.9%, 91.7% и 91.6% соответственно. Grad-CAM++ показали сильную схожесть с анатомическими регионами, с Dice-коэффициентом 0.88 и IoU 0.78. Обзоры клинических правил существенно подтвердили эти результаты, обобщая модельные выводы. Оценка интерпретируемости с помощью экспертов показала высокую оценку удобства и соответствия визуализаций к реальным радиологическим понятиям. ## Значимость Предложенная модель может быть применена в клинической практике для классификации головного мозга, повышая точность и надежность диагностики. Интеграция XAI и CDRO улучшает доверие к системе, а символическая модель помогает радиологам понять модельные выводы. Этот подход может быть применён в других областях диагностики нейрологических заболеваний. ## Выводы Разработанная система предлагает эффективное, интерпретируемое решение для классификации головного мозга. Дальнейшие исследования будут сфокусированы на повышении точности, улучшении обработки нестандартных изображений и расширении модели на другие типы головного мозга. Это будет оптимизировать диагностический процесс и улучшить выбор терапий.

Annotation:

Accurate and interpretable classification of brain tumors from magnetic resonance imaging (MRI) is critical for effective diagnosis and treatment planning. This study presents an ensemble-based deep learning framework that combines MobileNetV2 and DenseNet121 convolutional neural networks (CNNs) using a soft voting strategy to classify three common brain tumor types: glioma, meningioma, and pituitary adenoma. The models were trained and evaluated on the Figshare dataset using a stratified 5-fold...

ID: 2508.06891v1 eess.IV, cs.CV

arXiv PDF

📄 Preprocessing Algorithm Leveraging Geometric Modeling for Scale Correction in Hyperspectral Images for Improved Unmixing Performance

2025-08-14

Авторы:

Praveen Sumanasekara, Athulya Ratnayake, Buddhi Wijenayake, Keshawa Ratnayake, Roshan Godaliyadda, Parakrama Ekanayake, Vijitha Herath

########################## ## Контекст ########################## В статье рассматривается проблема спектральной вариабельности в hyperspectral images (HSI), которая может значительно снизить точность и эффективность алгоритмов hyperspectral unmixing (HUS). Хотя многие методы призваны справиться с нелинейной вариабельностью спектров, большие масштабные изменения в шкале спектральных признаков, вызванные факторами как топографии, освещением и тенями, остаются труднопреодолимой проблемой. Эти изменения приводят к ухудшению качества умешивания и усложнению моделирования. Для решения этой проблемы предлагается новый алгоритм предобработки, который исправляет масштабные изменения в спектрах, улучшая точность HUS. ########################## ## Метод ########################## Предложенный алгоритм основан на геометрической модели, которая отделяет масштабные изменения в спектре от нелинейных невзвешенных вариаций и изменений абундантности. Используя геометрические признаки, такие как албедо и положение точек на геометрической линии, алгоритм определяет и компенсирует масштабные изменения. Этот подход позволяет уменьшить ошибки в моделировании и подготовить входные данные для более точной работы HUS-алгоритмов. ########################## ## Результаты ########################## Алгоритм был проверен на двух синтетических и двух реальных HSI-наборах данных. Он был интегрирован с несколькими современными алгоритмами HUS, включая те, которые уже разработаны для обработки спектральной вариабельности. Исследования показали, что предлагаемый метод уменьшает ошибки в HUS до 50%, улучшая качество умешивания и позволяя лучше отражать особенности спектров. ########################## ## Значимость ########################## Предложенный метод может быть использован в широком круге приложений, таких как спутниковая геология, фармакология, агрономия и геодезия. Он улучшает точность и эффективность текущих HUS-алгоритмов, что делает его важным компонентом для практического использования. Благодаря усовершенствованию метода моделирования, возможности для дальнейших разработок в области HSI-анализа также расширяются. ########################## ## Выводы ########################## Предложенный алгоритм демонстрирует существенное улучшение в точности HUS, работая перед текущими методами. Он устраняет масштабные изменения, ранее не учтенные в многих алгоритмах. Будущие исследования будут фокусироваться на улучшении алгоритма, оптимизации его взаимодействия с другими моделями, и расширении его применения в различных областях.

Annotation:

Spectral variability significantly impacts the accuracy and convergence of hyperspectral unmixing algorithms. While many methods address complex spectral variability, large-scale variations in spectral signature scale caused by factors such as topography, illumination, and shadowing remain a major challenge. These variations often degrade unmixing performance and complicate model fitting. In this paper, we propose a novel preprocessing algorithm that corrects scale-induced spectral variability p...

ID: 2508.08431v1 eess.IV, cs.CV, eess.SP

arXiv PDF

📄 SharpXR: Structure-Aware Denoising for Pediatric Chest X-Rays

2025-08-14

Авторы:

Ilerioluwakiiye Abolade, Emmanuel Idoko, Solomon Odelola, Promise Omoigui, Adetola Adebanwo, Aondana Iorumbur, Udunna Anazodo, Alessandro Crimi, Raymond Confidence

Опишем максимально подробно резюме научной статьи **SharpXR: Structure-Aware Denoising for Pediatric Chest X-Rays**. ## Контекст Детское лечение чрезвычайно важно для раннего выявления инфекций, особенно в условиях недостатка доступа к современным методам диагностики. Низкодозные протоколы рентгеновской диагностики снижают радиационную нагрузку для детей, но при этом существенно ухудшают качество изображений, порождая значительный шум. Такой шум скрывает критические анатомические детали, что снижает точность диагностики. Основной проблемой является, что существующие методы динамической подавления шума часто приводят к утрате тонких анатомических деталей, которые имеют решающее значение для корректной диагностики. В статье рассматривается развитие модели **SharpXR**, которая ориентирована на поддержание диагностически значимых структур при динамическом удалении шума. ## Метод Для решения данной задачи разработана модель **SharpXR**, которая представляет собой двухдискретизационную U-Net с двумя различными декодерами. Первый декодер отвечает за удаление шума, а второй — за сохранение критических анатомических деталей. Для обеспечения точного сохранения границ изображений вводится Laplacian-guided edge-preserving decoder, который использует Laplacian-карту для определения критических границ. Для адаптивного балансирования между удалением шума и сохранением деталей вводится learnable fusion module. Данная модель обучается на имитированных данных с шумом, порождаемым моделью Poisson-Gaussian, чтобы эмулировать реальные условия низкодозной диагностики. ## Результаты Для оценки эффективности модели проведены многочисленные эксперименты на датасете Pediatric Pneumonia Chest X-ray. Группа оценочных метрик включает меру качества деталей (Structural Similarity Index, SSIM) и меру подробности (Perceptual Index, PI). Результаты показывают, что модель SharpXR превосходит все состояние технологического артефакта по всем оценочным метрикам. Более того, эти улучшенные изображения позволили повысить точность классификации инфекции легких (пневмония) с 88.8% до 92.5%, что демонстрирует практическое значение модели в улучшении диагностического процесса. ## Значимость Разработанная модель SharpXR имеет большое значение в области диагностики детских заболеваний, особенно в условиях недостатка ресурсов. Она может быть использована для улучшения точности диагностики в условиях низкодозной диагностики, что существенно снижает риск повреждения здоровья в результате высокого уровня радиационного воздействия. Эта модель также может быть применена в других областях медицинской имиджмашины, где необходимо сохранение деталей при подавлении

Annotation:

Pediatric chest X-ray imaging is essential for early diagnosis, particularly in low-resource settings where advanced imaging modalities are often inaccessible. Low-dose protocols reduce radiation exposure in children but introduce substantial noise that can obscure critical anatomical details. Conventional denoising methods often degrade fine details, compromising diagnostic accuracy. In this paper, we present SharpXR, a structure-aware dual-decoder U-Net designed to denoise low-dose pediatric X...

ID: 2508.08518v1 eess.IV, cs.CV

arXiv PDF

📄 Frequency-Assisted Adaptive Sharpening Scheme Considering Bitrate and Quality Tradeoff

2025-08-14

Авторы:

Yingxue Pang, Shijie Zhao, Haiqiang Wang, Gen Zhan, Junlin Li, Li Zhang

## Контекст Sharpening техника, широко используемая для улучшения качества видео, помогает подчеркнуть текстуры и уменьшить размытие. Однако повышение уровня сглаживания приводит к увеличению битрейта видео, что может привести к затруднению обеспечения качества услуг (QoS). Более того, прирастающий уровень сглаживания не всегда приводит к улучшению качества, что приводит к проблеме переобразования (over-sharpening). Таким образом, необходимо найти оптимальный уровень сглаживания, который даст хорошее качество видео, при этом не приведет к неэффективному потреблению пропускной способности. Данная работа предлагает новый подход, основанный на помощи частотного анализа, для предсказания оптимального уровня сглаживания (FreqSP). ## Метод Предлагаемый FreqSP работает на основе сочетания CNN-фич и высокочастотных компонент видео. Для обучения предлагаемой модели в качестве входных данных используются несжатые видео. Модель обучается на отметках уровня сглаживания, которые связаны с оптимальным битрейтом и качеством видео. Алгоритм предлагает использовать CNN для извлечения интересных видео-признаков, а затем включает информацию о высоких частотах, чтобы прогнозировать оптимальный уровень сглаживания. Это позволяет эффективно сбалансировать качество видео и битрейт. ## Результаты В данной работе проведены многочисленные эксперименты, используя различные видео-данные с различными уровнями сглаживания. Модель FreqSP сравнивалась с другими подходами, и демонстрируется, что она дает лучшие результаты по оптимальной комбинации битрейта и качества. Например, в данных экспериментах, сглаживание с высоким уровнем частотного анализа показало значительное улучшение качества видео с наименьшим потреблением битрейта. ## Значимость Предлагаемый подход может применяться во многих областях, включая потоковую передачу видео, хранение и обработку видеоданных. Он позволяет эффективно сбалансировать битрейт и качество видео, сократив накладные расходы на трансляцию. Благодаря использованию CNN и высоких частотных компонент, FreqSP предлагает более точный и эффективный подход к решению проблемы сглаживания видео. Это может привести к значительным улучшениям в качестве услуг в цифровой сфере. ## Выводы В целом, FreqSP демонстрирует свою эффективность в предсказании оптимального уровня сглаживания для улучшения качества видео. Это может привести к появлению новых методов для улучшения видеоданных с минимальными затратами на пропускную способность. Будущие исследования будут сконцентрированы на улучшении модели FreqSP для более сложных видео-

Annotation:

Sharpening is a widely adopted technique to improve video quality, which can effectively emphasize textures and alleviate blurring. However, increasing the sharpening level comes with a higher video bitrate, resulting in degraded Quality of Service (QoS). Furthermore, the video quality does not necessarily improve with increasing sharpening levels, leading to issues such as over-sharpening. Clearly, it is essential to figure out how to boost video quality with a proper sharpening level while als...

ID: 2508.08854v1 eess.IV, cs.CV, cs.MM

arXiv PDF

📄 A new dataset and comparison for multi-camera frame synthesis

2025-08-14

Авторы:

Conall Daly, Anil Kokaram

## Контекст Рамки интерполяции и видовых синтеза — это ключевые подходы к созданию новых кадров в изображениях серий. Они адресуют одну и ту же задачу: интерполяцию кадра с учетом окружающих его кадров во времени или пространстве. Интерполяция кадров обычно связана с временными сдвигами, в то время как видовый синтез чаще всего используется для оценки глубины в решениях типа 3D. Однако существующие наборы данных для интерполяции кадров сосредоточены на временных сдвигах, в то время как данные для видового синтеза сконцентрированы на 3D-глубине. Это не позволяет проводить адекватное сравнение этих подходов. Наша цель — разработать новый набор данных, который будет обеспечивать честное сравнение для этих подходов. Мы используем устройство сгорания камер, которое позволяет создать детальные многокамерные последовательности изображений. ## Метод Мы разработали новый набор данных, используя настраиваемый линейный детальный камерный массив. Этот массив создает последовательности изображений с высокой точностью, которые могут использоваться для сравнения различных методов интерполяции и видового синтеза. Мы использовали этот массив для сравнения классических и глубоких алгоритмов интерполяции кадров с технологией 3D Gaussian Splatting для задачи видовой интерполяции. ## Результаты Мы провели эксперимент, сравнивая классические и глубокие алгоритмы интерполяции кадров с технологией 3D Gaussian Splatting. На реальных данных глубокие алгоритмы не становятся значительно лучше классических, в то время как 3D Gaussian Splatting оказывается менее эффективным, показывая до 3.5 dB ниже PSNR в сравнении с фрейм-интерполяторами. Однако в синтетических сценах результаты обратны: 3D Gaussian Splatting показывает выигрыш возрастающий до 5 dB PSNR после 95%-го уровня доверия. ## Значимость Наш набор данных и эксперименты позволяют честно сравнивать временную и пространственную работу интерполяции в разных задачах. Они также показывают, что, хотя глубокие алгоритмы имеют преимущество в виртуальных сценах, классические методы остаются эффективными в реальных сценах. Это делает нашу работу важной для развития инструментов для глубокого разбора интерполяции кадров. ## Выводы Мы разработали новый многокамерный набор данных, который обеспечивает лучшую честность в сравнении методов интерполяции и видового синтеза. Мы обнаружили, что глубокие алгоритмы не всегда превосходят классические методы в реальных условиях, но имеют преимущество в синтетических сценах. Наша работа открывает путь для будущих исследований в области разработки б

Annotation:

Many methods exist for frame synthesis in image sequences but can be broadly categorised into frame interpolation and view synthesis techniques. Fundamentally, both frame interpolation and view synthesis tackle the same task, interpolating a frame given surrounding frames in time or space. However, most frame interpolation datasets focus on temporal aspects with single cameras moving through time and space, while view synthesis datasets are typically biased toward stereoscopic depth estimation u...

ID: 2508.09068v1 eess.IV, cs.CV

arXiv PDF

📄 Efficient motion-based metrics for video frame interpolation

2025-08-14

Авторы:

Conall Daly, Darren Ramsook, Anil Kokaram

#### Контекст Видео фрейм интерполяция (VFI) является методом генерирования промежуточных кадров между парами соседних кадров видео-потока. Несмотря на то, что недавно было достигнуто значительное успешное развитие алгоритмов интерполяции кадров, оценка перцептивного качества генерируемого видео-контента остается актуальной проблемой. Эта проблема возникает из-за того, что обычные метрики, такие как PSNR и SSIM, часто не соотносятся с перцептивной оценкой качества. В данной статье рассматриваются простые подходы к обработке потока движения кадров, которые могут повысить точность мерки качества интерполированных кадров. #### Метод Методология основывается на изучении и обработке потоков движения кадров. Основная идея заключается в том, чтобы использовать разность движений (motion field divergence), чтобы определять качество интерполированных кадров. Данный подход был описан и протестирован на данных BVI-VFI, который содержит перцептивные оценки промежуточных кадров. Метод реализован как более быстрая альтернатива FloLPIPS, включая ускорение в 2.7 раз. Изученные метрики показывают приемлемую корреляцию с перцептивными оценками (PLCC = 0.51). Изучены различные новые подходы к интерполяции, включая современные стандарты. #### Результаты Проведенные эксперименты показали, что данная методика дает более "человеческую" оценку качества видео-снимков, чем существующие методы, которые часто ориентируются на математические мерки качества (PSNR и SSIM). Интерполированные кадры, которые показываются более приятными для человека, могут не иметь высокой оценки в PSNR или SSIM. Метрики, основанные на разности движения, дают более точную оценку качества интерполированных кадров. #### Значимость Данные результаты могут быть применены в различных областях, включая обучение моделей интерполяции кадров, оценку качества видео-контента, интернет-видео-трансляций, медиа-редактировании и AR/VR-системах. Основным преимуществом новой методики является высокая скорость и точность в оценке качества, что дает потенциал для её использования в реальном времени. #### Выводы Разработанные в данной работе метрики дают новый взгляд на оценку качества интерполированных кадров в видео-потоках. Они предлагают более перцептивно-приятные результаты, чем существующие методы. Будущие исследования будут сфокусированы на расширении этой методики для других областей, таких как AR и VR, а также на работе с более сложными сценариями интерполяции.

Annotation:

Video frame interpolation (VFI) offers a way to generate intermediate frames between consecutive frames of a video sequence. Although the development of advanced frame interpolation algorithms has received increased attention in recent years, assessing the perceptual quality of interpolated content remains an ongoing area of research. In this paper, we investigate simple ways to process motion fields, with the purposes of using them as video quality metric for evaluating frame interpolation algo...

ID: 2508.09078v1 eess.IV, cs.CV

arXiv PDF

1
2
21
22
23
24
25
26
27

Показано 221 - 230 из 268 записей