OmniSense: Towards Edge-Assisted Online Analytics for 360-Degree Videos
2508.14237v1
cs.NI, cs.CV, cs.MM, eess.IV
2025-08-22
Авторы:
Miao Zhang, Yifei Zhu, Linfeng Shen, Fangxin Wang, Jiangchuan Liu
Резюме на русском
## Контекст
Обширный рост технологий расширенной реальности (XR) привел к появлению большого количества $360^\circ$ видео, которые требуют усовершенствованных методов анализа для выявления полезной информации. Однако работа с такими видео характеризуется высокими требованиями к вычислительным ресурсам и сетевым затратам. Это ставит под угрозу эффективность и качество анализа. Дополнительно, существуют значительные ограничения в скорости обработки и доступности сетевых ресурсов, что затрудняет обработку видео в реальном времени. Направленная на эти проблемы работа призвана развить новые подходы к эффективной и реальному времени обработке $360^\circ$ видео, учитывая ограничения ресурсов и требования к качеству.
## Метод
OmniSense представляет собой инновационный подход к обработке $360^\circ$ видео, основанный на работе с ресурсами на краях сети. Он включает в себя алгоритм предсказания зоны интереса (SRoI), позволяющий уменьшить объем обрабатываемой информации, оптимизируя использование вычислительных мощностей. Этот алгоритм строится на основе визуальных признаков и динамики сети. Для достижения баланса между скоростью и точностью обработки, OmniSense расширяет и тюнит модели глубокого обучения, адаптируя их к ресурсам доступных на краевых устройствах. Также разработана архитектура, в которой используются устройства на краях, обеспечивая оптимальную скорость и высокую точность в реальном времени.
## Результаты
Проведенные эксперименты использовали реально собранные $360^\circ$ видео для оценки эффективности OmniSense. Набор данных включал видео различных тематик, которые были обработаны с помощью прототипа OmniSense и сравнивались с базовыми ресурсно-независимыми моделями. Результаты показали, что OmniSense увеличивает точность анализа видео на 19,8% -- 114,6%, сравнительно с традиционными подходами. Он также обеспечивает скоростные повышения в пределах $2,0 \times$ -- $2,4 \times$ при сохранении точности на уровне высоких базовых моделей. Такие результаты демонстрируют эффективность OmniSense в сочетании мгновенного отклика с высоким качеством анализа.
## Значимость
Предлагаемый подход может быть применен в сферах, требующих быстрого и точного анализа $360^\circ$ видео, таких как медицина, розыск, образование, и XR-приложения. Особые преимущества OmniSense заключаются в низких затратах на ресурсы, высокой скорости и точности, что делает его привлекательным для реального времени приложений. Будущие исследования будут сфокусированы на улучшении моделей, увеличении скорости обработки, и расширении приложений в различных отраслях.
Abstract
With the reduced hardware costs of omnidirectional cameras and the
proliferation of various extended reality applications, more and more
$360^\circ$ videos are being captured. To fully unleash their potential,
advanced video analytics is expected to extract actionable insights and
situational knowledge without blind spots from the videos. In this paper, we
present OmniSense, a novel edge-assisted framework for online immersive video
analytics. OmniSense achieves both low latency and high accuracy, combating the
significant computation and network resource challenges of analyzing
$360^\circ$ videos. Motivated by our measurement insights into $360^\circ$
videos, OmniSense introduces a lightweight spherical region of interest (SRoI)
prediction algorithm to prune redundant information in $360^\circ$ frames.
Incorporating the video content and network dynamics, it then smartly scales
vision models to analyze the predicted SRoIs with optimized resource
utilization. We implement a prototype of OmniSense with commodity devices and
evaluate it on diverse real-world collected $360^\circ$ videos. Extensive
evaluation results show that compared to resource-agnostic baselines, it
improves the accuracy by $19.8\%$ -- $114.6\%$ with similar end-to-end
latencies. Meanwhile, it hits $2.0\times$ -- $2.4\times$ speedups while keeping
the accuracy on par with the highest accuracy of baselines.