📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Shuoyan Wei, Feng Li, Shengeng Tang, Runmin Cong, Yao Zhao, Meng Wang, Huihui Bai

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Continuous space-time video super-resolution (C-STVSR) has garnered increasing interest for its capability to reconstruct high-resolution and high-frame-rate videos at arbitrary spatial and temporal scales. However, prevailing methods often generalize poorly, producing unsatisfactory results when applied to out-of-distribution (OOD) scales. To overcome this limitation, we present EvEnhancer, a novel approach that marries the unique properties of high temporal resolution and high dynamic range en...
ID: 2510.03833v1 eess.IV, cs.CV, cs.MM
Авторы:

Conall Daly, Darren Ramsook, Anil Kokaram

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Video frame interpolation is a fundamental tool for temporal video enhancement, but existing quality metrics struggle to evaluate the perceptual impact of interpolation artefacts effectively. Metrics like PSNR, SSIM and LPIPS ignore temporal coherence. State-of-the-art quality metrics tailored towards video frame interpolation, like FloLPIPS, have been developed but suffer from computational inefficiency that limits their practical application. We present $\text{PSNR}_{\text{DIV}}$, a novel full...
ID: 2510.01361v1 eess.IV, cs.CV, cs.MM
Авторы:

Jiaye Fu, Qiankun Gao, Chengxiang Wen, Yanmin Wu, Siwei Ma, Jiaqi Zhang, Jian Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Online free-viewpoint video (FVV) reconstruction is challenged by slow per-frame optimization, inconsistent motion estimation, and unsustainable storage demands. To address these challenges, we propose the Reconfigurable Continuum Gaussian Stream, dubbed ReCon-GS, a novel storage-aware framework that enables high fidelity online dynamic scene reconstruction and real-time rendering. Specifically, we dynamically allocate multi-level Anchor Gaussians in a density-adaptive fashion to capture inter-f...
ID: 2509.24325v1 eess.IV, cs.CV, cs.MM
Авторы:

Babak Naderi, Ross Cutler

## Контекст Subjective video quality assessment (VQA) является золотым стандартом для измерения опыта пользователя в различных жанрах коммуникации, стриминга и создания пользовательского контента (User Generated Content, UGC). Несмотря на высокую точность лабораторных испытаний, когортизация позволяет более эффективно измерять качество видео, обеспечивая быстрый, доступный и дешевый подход. Однако она склонна к недостоверным ответам от участников, которые игнорируют инструкции или коптут систему в своих интересах. Недавние исследования показали, что участники прибегают к разным техникам, например, использованию метаданных видео и удаленных рабочих столов (Remote Desktop, RD), что приводит к дисторсии результатов. Этот анализ охватывает два типичных платформы для crowdsourcing'а и выявляет их уязвимость к этим проблемам, а также предлагает способы их устранения. ## Метод Исследование использует различные методы для выявления и контроля недостоверных ответов в субъективных тестах качества видео. Это включает в себя использование алгоритмов для определения нетрадиционных устройств, таких как RD-соединения, а также поиск способов контроля поведения участников. Особое внимание уделено разработке статистических и алгоритмических моделей, которые позволяют отличить реальные от специально созданных ответов. Архитектура исследования включает в себя систему мониторинга и анализа данных в реальном времени, чтобы обеспечить надежность процесса. ## Результаты Исследования показали, что участники, использующие RD-соединения, часто приводят к дисторсии результатов, поэтому для их определения используются специальные детекторы. В ходе экспериментов на двух платформах было обнаружено, что одна из них более уязвима к недостоверным ответам, но и обе требуют дополнительных мер контроля. Оптимизированные методы дали результаты, позволяющие существенно повысить уровень достоверности данных, исключив многочисленные случаи мошенничества. ## Значимость Предложенные методы могут быть использованы в различных областях, где необходимо высокое качество субъективных тестов, включая тестирование видео, телекоммуникации и потоковые сервисы. Использование этих методов позволяет повысить точность исследований, снизить риск мошенничества и обеспечить надежный выбор участников. Последствиями использования этого подхода является улучшение качества сервисов, более точное измерение пользовательского опыта и повышение доверия к субъективным испытаниям в различных технологических сферах. ## Выводы Результаты данного исследования показывают, что субъективные тесты качества видео могут быть оптимиз
Annotation:
Subjective video quality assessment (VQA) is the gold standard for measuring end-user experience across communication, streaming, and UGC pipelines. Beyond high-validity lab studies, crowdsourcing offers accurate, reliable, faster, and cheaper evaluation-but suffers from unreliable submissions by workers who ignore instructions or game rewards. Recent tests reveal sophisticated exploits of video metadata and rising use of remote-desktop (RD) connections, both of which bias results. We propose ob...
ID: 2509.20001v1 eess.IV, cs.CV, cs.MM
Авторы:

Zhuoyuan Li, Jiacheng Li, Yao Li, Jialin Li, Li Li, Dong Liu, Feng Wu

#### Контекст Видеокодирование является ключевым элементом современных технологий по трансляции и хранению видео. Одним из основных задачей видеокодирования является уменьшение визуальных артефактов и повышение качества изображения. Для этих целей применяется in-loop filtering (ILF), способ, который интегрируется в цикл кодирования для уменьшения ошибок и повышения качества видео. Недавно, нейронные сети-на основе (DNN) были применены к ILF и показали впечатляющие результаты в повышении качества. Однако, использование DNN приводит к высокой сложности вычислений и требованиям к высокопроизводительному оборудованию, что ограничивает применение таких схем в реальных условиях. Мы исследуем решение, основанное на использовании look-up tables (LUTs), которое позволяет реализовать ILF с меньшей сложностью и затратами. #### Метод Мы предлагаем LUT-ILF++, универсальную систему ILF, основанную на LUTs, для видеокодирования. Процесс включает несколько ключевых этапов: 1. **Обучение DNN с ограниченным диапазоном входных данных** для генерирования эффективных LUTs. 2. **Индексация LUTs** с использованием пользовательских механизмов, позволяющих хранить необходимую информацию с минимальными затратами. 3. **Кросс-компонентный механизм** для объединения работы с разными цветовыми компонентами. 4. **LUT-схема сжатия**, позволяющая уменьшить затраты на хранение LUTs. LUT-ILF++ был реализован в VVC reference software, что позволило провести эксперименты с реальными данными. #### Результаты Проведенные эксперименты показали, что LUT-ILF++ дает следующие результаты: - **0.82%/2.97%/1.63%** снижение битрейта при использовании AI/RA/BA конфигураций. - **0.85%/4.11%/2.06%** снижение битрейта для более сложных сценариев. - Значительно меньшее время выполнения и требования к оборудованию по сравнению с DNN-решениями. #### Значимость Предложенная система LUT-ILF++ может быть применена в различных областях, включая реальное время видеокодирование в телекоммуникационных сетях и потоковое видео. Она обеспечивает значительное сокращение затрат на вычисления и хранение по сравнению с DNN-решениями. Это делает ее привлекательной для следующих поколений видеокодирования. #### Выводы LUT-ILF++ демонстрирует эффективность в ILF, обеспечивая высокое качество изображения с низкой сложностью вычислений и затратами на хранение. В дальнейших исследованиях мы планируем расширить применение LUTs в другие аспекты видеокодирования и изучить возможности повышения производительности на более широком наборе данных.
Annotation:
In-loop filtering (ILF) is a key technology in video coding standards to reduce artifacts and enhance visual quality. Recently, neural network-based ILF schemes have achieved remarkable coding gains, emerging as a powerful candidate for next-generation video coding standards. However, the use of deep neural networks (DNN) brings significant computational and time complexity or high demands for dedicated hardware, making it challenging for general use. To address this limitation, we study a pract...
ID: 2509.09494v1 eess.IV, cs.CV, cs.MM
Авторы:

Jessica Kinnevan, Naifa Alqahtani, Toral Chauhan

#### Контекст Light Detection and Ranging (LiDAR) — это технология, ранее применявшаяся в промышленных системах, но недавно вошла в повседневные приложения с помощью потребительских устройств, таких как iPhone 15 Pro Max. Одной из областей применения является фотография и видео, где LiDAR обеспечивает эффективное и точное разделение предметов от фона. Традиционные методы, такие как chroma keying или обученные модели ИИ, часто требуют дополнительных ресурсов или имеют ограничения в условиях низкого освещения. LiDAR, в свою очередь, основывается на измерении глубины пространства, что делает его независимым от цветовых характеристик и освещения. Мотивацией исследования является расширение возможностей LiDAR для реализации реального времени в 2D-видеопотоках без качественных потерь. #### Метод В статье рассматривается интеграция LiDAR с цветовой камерой iPhone 15 Pro Max для реализации технологии разделения фона. Использованы SwiftUI и Swift для разработки пользовательского интерфейса, Metal Shader Language (MSL) для реализации GPU-оптимизированных алгоритмов реального времени. Модель обработки изображений работает на стандартной частоте кадров 60 FPS. Ограничения заключаются в том, что данные глубины текут с меньшей частотой (320x240), чем цветовые кадры, и что некоторые материалы могут отражаться неточно. Эти ограничения были обоснованы в рамках бюджетных технологий пассивного Измерения Глубины (Passive Depth Sensing). #### Результаты Исследования проводились с использованием iPhone 15 Pro Max в сценах с разным освещением. Результаты показали, что LiDAR эффективно работает в любых условиях, включая низкоконтрастные и низкоосвещенные сцены. Фоновый режект производился с высокой точностью, что демонстрирует преимущества этого подхода. Однако решение чувствительно к материалам, отражающим Инфракрасное излучение LiDAR. Например, стекло и пластик могут вызывать неточности в глубинных картах. #### Значимость Области применения включают широкий спектр технических задач, начиная от живого видеопотока и до пост-продакшн-фотографии. Технология обеспечивает высокую точность и быстроту, а также независимость от световых условий. Ее потенциал включает экономию ресурсов в отличие от AI-моделей, а также повышение удобства в использовании, так как не требует дополнительных оборудований для качественного светового освещения. #### Выводы Метод, описанный в статье, доказывает высокую эффективность и потенциал мобильных технологий в области разделения фона. Направления будущих исследований включают улучшение резолюции глубинных карт LiDAR до соответствия цветовым кадрам, а также развитие м
Annotation:
Light Detection and Ranging (LiDAR) technology in consumer-grade mobile devices can be used as a replacement for traditional background removal and compositing techniques. Unlike approaches such as chroma keying and trained AI models, LiDAR's depth information is independent of subject lighting, and performs equally well in low-light and well-lit environments. We integrate the LiDAR and color cameras on the iPhone 15 Pro Max with GPU-based image processing. We use Apple's SwiftUI and Swift frame...
ID: 2508.20250v1 eess.IV, cs.CV, cs.MM, 68T45, 68U10, I.4.6; I.4.8; H.5.1; I.2.10
Авторы:

Xiangfei Sheng, Zhichao Duan, Xiaofeng Pan, Yipo Huang, Zhichao Yang, Pengfei Chen, Leida Li

## Контекст Livestreaming является важной формой современной визуальной коммуникации, где автоматическая настройка качества камеры критична для обеспечения высокого уровня Quality of Experience (QoE) пользователей. Это делает необходимым точное безупречное цветокорректировка (BIQA), чтобы оптимизировать параметры камеры. Тем не менее, существующие BIQA-модели обычно предоставляют только общую оценку качества, которая недостаточна для точного управления параметрами. Это ограничение мотивирует развитие моделей, которые могут предоставлять более детальный анализ качества изображений для более точной настройки. ## Метод Мы разработали FGLive-10K, новый датасет, содержащий 10 185 высокорезольвентных изображений, полученных при различных настройках камеры во время livestreaming. Датасет включает 50 925 многоатрибутных оценок качества и 19 234 оценок предпочтений. На основе этого датасета мы разработали TuningIQA — метрику BIQA, которая использует человеко-ориентированное извлечение признаков и графовые методы для объединения камерных параметров. Таким образом, TuningIQA предоставляет более тонкую оценку качества, которая отсутствует в существующих моделях. ## Результаты Мы провели тщательные эксперименты для сравнения TuningIQA с лучшими существующими BIQA-методами. Эксперименты показали, что TuningIQA показывает значительно более высокую точность в регрессии качества и в точной оценке предпочтений. Эта улучшенная точность делает TuningIQA пригодным для применения в livestreaming, где точное управление качеством изображений критично. ## Значимость Полученный датасет и метрика могут быть применены не только в livestreaming, но и в других областях, где требуется точное безупречное цветокорректировка. Их преимущества заключаются в том, что они улучшают качество изображений, повышают QoE и могут иметь потенциал для дальнейшего развития технологий видеообработки. ## Выводы Разработанная TuningIQA-метрика достигла значительных улучшений в точной оценке качества изображений. Это открывает новые возможности для повышения качества livestreaming и может стать ключевым инструментом для будущих исследований в области видеообработки и цветокорректировки.
Annotation:
Livestreaming has become increasingly prevalent in modern visual communication, where automatic camera quality tuning is essential for delivering superior user Quality of Experience (QoE). Such tuning requires accurate blind image quality assessment (BIQA) to guide parameter optimization decisions. Unfortunately, the existing BIQA models typically only predict an overall coarse-grained quality score, which cannot provide fine-grained perceptual guidance for precise camera parameter tuning. To br...
ID: 2508.17965v1 eess.IV, cs.CV, cs.MM
Авторы:

Andrew C. Freeman

#### Контекст Современные системы видеопотоков обычно основываются на классических подходах, таких как потерятельная сжатия и регулирование скорости потока. Однако в последние годы появились новые типы журналирующих сенсоров, которые записывают видео с помощью асинхронных отдельных выборок пикселей, а не целых изображений. Эти сенсоры, известные как **neuromorphic event sensors**, разработаны специально для компьютерного зрения, а не для традиционного просмотра видео. Несмотря на их потенциал, исследования в этой области сосредоточены преимущественно на приложениях, в то время как проблема передачи данных остается нерешенной. В настоящей работе мы обозначаем ландшафт существующих систем потоковой передачи видео, рассматриваем технические проблемы в работе по потоковой передаче асинхронных данных, и предлагаем новую архитектуру для низкозадержки потоковой передачи на основе последних рекомендаций протокола **Media Over QUIC**. #### Метод Методология, рассматриваемая в работе, включает в себя следующее: 1. **Анализ существующих систем**: Мы проводим обзор существующих технологий потоковой передачи, сравнивая их с требованиями к потоковой передаче данных асинхронного видео. 2. **Технические решения**: Мы предлагаем новую архитектуру для создания низкозадержканого потокового видео. Основные черты этой архитектуры заключаются в: - Использование **Media Over QUIC** для быстрого и надежного транспорта данных. - Разработка **scalable encoding**, которая позволяет регулировать скорость потока в зависимости от нагрузки сети. - **Rate-adaptive streaming**, использующий модель **MoQ (Media over QUIC)** для расширяемости и эффективности. 3. **Архитектура**: Архитектура включает в себя следующие компоненты: - **Event-based encoder**: Обрабатывает асинхронные данные сенсора и кодирует их в низкозадержканый формат. - **Streaming server**: Обеспечивает распространение потока по сети с помощью **Media Over QUIC**. - **Client-side decoder**: Устройство, получающее данные и реконструирующее изображения на основе потока событий. #### Результаты Для оценки эффективности предложенной системы мы проводили эксперименты на нескольких сценариях: 1. **Latency measurements**: Мы измеряли задержку потока в различных условиях сети, включая высокую нагрузку и низкий трафик. 2. **Data throughput**: Мы измеряли скорость передачи данных по сети в различных режимах сжатия. 3. **Quality of Experience (QoE)**: Мы оценивали качество воспроизведения видео на клиентской стороне, измеряя уровень потерь видеоданных и качество изображения. Полученные результаты показывают, что наша архитектура позволяет достичь низкой задержки (менее 50 мс) и высокой эффективности переда
Annotation:
Lossy compression and rate-adaptive streaming are a mainstay in traditional video steams. However, a new class of neuromorphic ``event'' sensors records video with asynchronous pixel samples rather than image frames. These sensors are designed for computer vision applications, rather than human video consumption. Until now, researchers have focused their efforts primarily on application development, ignoring the crucial problem of data transmission. We survey the landscape of event-based video s...
ID: 2508.15003v1 eess.IV, cs.CV, cs.MM
Авторы:

Xiangfei Sheng, Xiaofeng Pan, Zhichao Yang, Pengfei Chen, Leida Li

#### Контекст Область исследования, состоящая из нескольких разделов, фокусируется на проблемах в области интеллектуального анализа данных и информатики. Одной из ключевых проблем является недостаточная точность существующих методик оценки качества изображений, особенно в условиях высоких требований к точности восстановления. Высокий спрос на усовершенствования методов оценки качества восстановленных изображений возник из-за развития технологий в области интеллектуального анализа. Эти технологии требуют точных инструментов для сравнения и оптимизации алгоритмов восстановления изображений. Недостаточная точность оценки качества может привести к неточным выводам, что снижает эффективность восстановления. #### Метод Методология основывается на разработке новых методов оценки качества изображений, ориентированных на точность и тонкость различения качества восстановленных изображений. Архитектура основывается на сочетании методов регрессии для оценки качества на более широком масштабе и методов классификации для тонкой оценки ранжирования качества. Исследование включает разработку данных для обучения и проверки, которые представляют собой комплексные наборы данных, содержащие восстановленные изображения со всевозможными дефектами. Эти данные использовались для наглядного демонстрирования влияния различных факторов на качество восстановленных изображений. #### Результаты Проведенные эксперименты показали, что новый подход к оценке качества изображений дает более точные результаты по сравнению с существующими методами. Используя данные FGRestore, проводилась сравнительная оценка существующих методов оценки качества изображений. Результаты показали, что разработанная модель способна точнее распознавать тонкие различия в качестве восстановленных изображений, чем современные методы. Результаты также подтвердили, что существующие методы часто неточны в оценке тонких различий, что может привести к ошибочным выводам в процессе оптимизации. #### Значимость Разработанная модель может быть применена в различных областях, таких как ИИ, медицина, графика, где точность оценки качества восстановленных изображений критична. Основное преимущество нового подхода заключается в том, что он позволяет улучшить точность используемых методов восстановления и сократить время, необходимое для их оптимизации. Будущие исследования будут направлены на расширение возможностей модели, включая учет дополнительных факторов в оценке качества изображений. #### Выводы Результаты исследований показали, что разработанная модель обеспечивает более точную и тонкую оценку качества восстановленных изображени
Annotation:
Recent years have witnessed remarkable achievements in perceptual image restoration (IR), creating an urgent demand for accurate image quality assessment (IQA), which is essential for both performance comparison and algorithm optimization. Unfortunately, the existing IQA metrics exhibit inherent weakness for IR task, particularly when distinguishing fine-grained quality differences among restored images. To address this dilemma, we contribute the first-of-its-kind fine-grained image quality asse...
ID: 2508.14475v1 eess.IV, cs.CV, cs.MM
Авторы:

Xinyi Wang, Angeliki Katsenou, David Bull

## Контекст Качество видео является ключевым фактором для удовлетворяемости пользователей в современных приложениях для социальных сетей и видеотрансляций. В случае пользовательских видео (UGC), существуют проблемы с доступностью пригодных для сравнения референсных видео, что приводит к потребности в моделях **no-reference (NR) perceptual video quality assessment (VQA)**. Однако, существующие модели часто неэффективны, неточны или слишком требовательны к ресурсам. Необходима модель, которая обеспечивала бы высокую точность, низкую сложность вычислений и эффективность в анализе видео. ## Метод Предложена модель **DIVA-VQA**, основанная на разложении видео на фрагменты, учитывающие интер-фреймные изменения. Метод работает на уровнях: кадров, патчей и разложенных кадров. Он интегрирует 2D и 3D признаки, отражающие локальные и глобальные вариации. Для анализа используются **residuals**, отражающие изменения между фреймами и внутри них. Архитектура DIVA-VQA эффективно обрабатывает как статичные, так и динамические изменения качества видео, обеспечивая комплексный подход к их оценке. ## Результаты Модель была тестирована на пяти датасетах UGC и сравнивалась с тремя современными моделями. Результаты показали, что DIVA-VQA отличается высоким **rank correlation** (DIVA-VQA-L: 0.898, DIVA-VQA-B: 0.886), что делает её одной из лучших в этой области. Она также обеспечивает низкую сложность вычислений, становясь одной из самых быстрых моделей. Эти результаты подтверждают высокую эффективность DIVA-VQA в реальных условиях, где требуется быстрая и точная оценка качества видео. ## Значимость Предлагаемая модель имеет широкие применения в мониторинге качества видео на платформах социальных сетей и видеотрансляций. Она позволяет эффективно оценивать качество видео при отсутствии референсных фреймов, что является ключевой проблемой для широкого спектра приложений. Дополнительно, модель обладает низкой сложностью вычислений, что делает её привлекательной для реализации в реальном времени. ## Выводы Результаты показали, что DIVA-VQA стала одной из лидеров в области NR-VQA, обеспечивая точность и эффективность, необходимые для мониторинга качества видео. Будущие исследования будут направлены на улучшение модели, включая расширение её возможностей для анализа более сложных видео структур и увеличение её универсальности в различных условиях.
Annotation:
The rapid growth of user-generated (video) content (UGC) has driven increased demand for research on no-reference (NR) perceptual video quality assessment (VQA). NR-VQA is a key component for large-scale video quality monitoring in social media and streaming applications where a pristine reference is not available. This paper proposes a novel NR-VQA model based on spatio-temporal fragmentation driven by inter-frame variations. By leveraging these inter-frame differences, the model progressively ...
ID: 2508.10605v1 eess.IV, cs.CV, cs.MM
Показано 11 - 20 из 21 записей