OmniSense: Towards Edge-Assisted Online Analytics for 360-Degree Videos

2508.14237v1 cs.NI, cs.CV, cs.MM, eess.IV 2025-08-22
Авторы:

Miao Zhang, Yifei Zhu, Linfeng Shen, Fangxin Wang, Jiangchuan Liu

Резюме на русском

## Контекст Обширный рост технологий расширенной реальности (XR) привел к появлению большого количества $360^\circ$ видео, которые требуют усовершенствованных методов анализа для выявления полезной информации. Однако работа с такими видео характеризуется высокими требованиями к вычислительным ресурсам и сетевым затратам. Это ставит под угрозу эффективность и качество анализа. Дополнительно, существуют значительные ограничения в скорости обработки и доступности сетевых ресурсов, что затрудняет обработку видео в реальном времени. Направленная на эти проблемы работа призвана развить новые подходы к эффективной и реальному времени обработке $360^\circ$ видео, учитывая ограничения ресурсов и требования к качеству. ## Метод OmniSense представляет собой инновационный подход к обработке $360^\circ$ видео, основанный на работе с ресурсами на краях сети. Он включает в себя алгоритм предсказания зоны интереса (SRoI), позволяющий уменьшить объем обрабатываемой информации, оптимизируя использование вычислительных мощностей. Этот алгоритм строится на основе визуальных признаков и динамики сети. Для достижения баланса между скоростью и точностью обработки, OmniSense расширяет и тюнит модели глубокого обучения, адаптируя их к ресурсам доступных на краевых устройствах. Также разработана архитектура, в которой используются устройства на краях, обеспечивая оптимальную скорость и высокую точность в реальном времени. ## Результаты Проведенные эксперименты использовали реально собранные $360^\circ$ видео для оценки эффективности OmniSense. Набор данных включал видео различных тематик, которые были обработаны с помощью прототипа OmniSense и сравнивались с базовыми ресурсно-независимыми моделями. Результаты показали, что OmniSense увеличивает точность анализа видео на 19,8% -- 114,6%, сравнительно с традиционными подходами. Он также обеспечивает скоростные повышения в пределах $2,0 \times$ -- $2,4 \times$ при сохранении точности на уровне высоких базовых моделей. Такие результаты демонстрируют эффективность OmniSense в сочетании мгновенного отклика с высоким качеством анализа. ## Значимость Предлагаемый подход может быть применен в сферах, требующих быстрого и точного анализа $360^\circ$ видео, таких как медицина, розыск, образование, и XR-приложения. Особые преимущества OmniSense заключаются в низких затратах на ресурсы, высокой скорости и точности, что делает его привлекательным для реального времени приложений. Будущие исследования будут сфокусированы на улучшении моделей, увеличении скорости обработки, и расширении приложений в различных отраслях.

Abstract

With the reduced hardware costs of omnidirectional cameras and the proliferation of various extended reality applications, more and more $360^\circ$ videos are being captured. To fully unleash their potential, advanced video analytics is expected to extract actionable insights and situational knowledge without blind spots from the videos. In this paper, we present OmniSense, a novel edge-assisted framework for online immersive video analytics. OmniSense achieves both low latency and high accuracy, combating the significant computation and network resource challenges of analyzing $360^\circ$ videos. Motivated by our measurement insights into $360^\circ$ videos, OmniSense introduces a lightweight spherical region of interest (SRoI) prediction algorithm to prune redundant information in $360^\circ$ frames. Incorporating the video content and network dynamics, it then smartly scales vision models to analyze the predicted SRoIs with optimized resource utilization. We implement a prototype of OmniSense with commodity devices and evaluate it on diverse real-world collected $360^\circ$ videos. Extensive evaluation results show that compared to resource-agnostic baselines, it improves the accuracy by $19.8\%$ -- $114.6\%$ with similar end-to-end latencies. Meanwhile, it hits $2.0\times$ -- $2.4\times$ speedups while keeping the accuracy on par with the highest accuracy of baselines.

Ссылки и действия