CompressAI-Vision: Open-source software to evaluate compression methods for computer vision tasks
2509.20777v1
cs.CV, eess.IV
2025-09-27
Авторы:
Hyomin Choi, Heeji Han, Chris Rosewarne, Fabien Racapé
Резюме на русском
## Контекст
С появлением широкого распространения сетей нервных сети (NN) в компьютерном зрении, которые обрабатывают изображения и видео, возникла необходимость в оптимизации технологий сжатия видео, адаптированных к компьютерному зрению. Наборы данных, модели и задачи в компьютерном зрении различны, поэтому требуется универсальная платформа, которая служила бы основой для реализации и оценки методов сжатия, оптимизированных для последующих задач компьютерного зрения. Проблема состоит в том, что существующие кодеки недостаточно эффективны для задач компьютерного зрения, так как они выстроены в первую очередь для потребления видео в развлекательных целях, а не для задач, требующих высокой точности распознавания объектов или других виджетных обработок.
## Метод
CompressAI-Vision представляет собой оценочную платформу, способную эффективно исследовать методы сжатия для компьютерного зрения. Она поддерживает две сценарии использования: "удаленное" и "разделенное" обработки. В первом случае видео- или изображения-данные сжимаются на удаленном сервере и отправляются в виде потока на клиентское устройство. Во втором случае сжатие происходит на клиентском устройстве, а данные передаются на сервер. Для оценки того, насколько эффективно сжатие влияет на точность распознавания, используются стандартные кодеки, а также специальные, индивидуально разработанные для компьютерного зрения. Оценка проводится с учетом различных датасетов и показателя точности в зависимости от коэффициента сжатия.
## Результаты
Платформа CompressAI-Vision демонстрирует мощь своих методов, оптимизированных для компьютерного зрения, с помощью различных датасетов. На основе экспериментов были определены оптимальные конфигурации для различных задач, включая обнаружение объектов и распознавание лица. Например, на датасете COCO, сжатие видео с помощью оптимизированных методов позволяет повысить точность распознавания, не приводя к существенной потери качества изображения. Также были проведены сравнительные исследования с традиционными кодеками, показав преимущества новых методов в условиях ограниченных ширины канала.
## Значимость
CompressAI-Vision открывает новые возможности для развития компьютерного зрения, особенно для сценариев удаленной обработки и разделенной архитектуры. Его применение может привести к повышению эффективности хранения и передачи видео и изображений в компьютерных системах зрения, благодаря оптимизированным методах сжатия. Это может быть применено в различных областях, таких как робототехника, медицина, а также в системах ана
Abstract
With the increasing use of neural network (NN)-based computer vision
applications that process image and video data as input, interest has emerged
in video compression technology optimized for computer vision tasks. In fact,
given the variety of vision tasks, associated NN models and datasets, a
consolidated platform is needed as a common ground to implement and evaluate
compression methods optimized for downstream vision tasks. CompressAI-Vision is
introduced as a comprehensive evaluation platform where new coding tools
compete to efficiently compress the input of vision network while retaining
task accuracy in the context of two different inference scenarios: "remote" and
"split" inferencing. Our study showcases various use cases of the evaluation
platform incorporated with standard codecs (under development) by examining the
compression gain on several datasets in terms of bit-rate versus task accuracy.
This evaluation platform has been developed as open-source software and is
adopted by the Moving Pictures Experts Group (MPEG) for the development the
Feature Coding for Machines (FCM) standard. The software is available publicly
at https://github.com/InterDigitalInc/CompressAI-Vision.
Ссылки и действия
Дополнительные ресурсы: