CompressAI-Vision: Open-source software to evaluate compression methods for computer vision tasks

2509.20777v1 cs.CV, eess.IV 2025-09-27
Авторы:

Hyomin Choi, Heeji Han, Chris Rosewarne, Fabien Racapé

Резюме на русском

## Контекст С появлением широкого распространения сетей нервных сети (NN) в компьютерном зрении, которые обрабатывают изображения и видео, возникла необходимость в оптимизации технологий сжатия видео, адаптированных к компьютерному зрению. Наборы данных, модели и задачи в компьютерном зрении различны, поэтому требуется универсальная платформа, которая служила бы основой для реализации и оценки методов сжатия, оптимизированных для последующих задач компьютерного зрения. Проблема состоит в том, что существующие кодеки недостаточно эффективны для задач компьютерного зрения, так как они выстроены в первую очередь для потребления видео в развлекательных целях, а не для задач, требующих высокой точности распознавания объектов или других виджетных обработок. ## Метод CompressAI-Vision представляет собой оценочную платформу, способную эффективно исследовать методы сжатия для компьютерного зрения. Она поддерживает две сценарии использования: "удаленное" и "разделенное" обработки. В первом случае видео- или изображения-данные сжимаются на удаленном сервере и отправляются в виде потока на клиентское устройство. Во втором случае сжатие происходит на клиентском устройстве, а данные передаются на сервер. Для оценки того, насколько эффективно сжатие влияет на точность распознавания, используются стандартные кодеки, а также специальные, индивидуально разработанные для компьютерного зрения. Оценка проводится с учетом различных датасетов и показателя точности в зависимости от коэффициента сжатия. ## Результаты Платформа CompressAI-Vision демонстрирует мощь своих методов, оптимизированных для компьютерного зрения, с помощью различных датасетов. На основе экспериментов были определены оптимальные конфигурации для различных задач, включая обнаружение объектов и распознавание лица. Например, на датасете COCO, сжатие видео с помощью оптимизированных методов позволяет повысить точность распознавания, не приводя к существенной потери качества изображения. Также были проведены сравнительные исследования с традиционными кодеками, показав преимущества новых методов в условиях ограниченных ширины канала. ## Значимость CompressAI-Vision открывает новые возможности для развития компьютерного зрения, особенно для сценариев удаленной обработки и разделенной архитектуры. Его применение может привести к повышению эффективности хранения и передачи видео и изображений в компьютерных системах зрения, благодаря оптимизированным методах сжатия. Это может быть применено в различных областях, таких как робототехника, медицина, а также в системах ана

Abstract

With the increasing use of neural network (NN)-based computer vision applications that process image and video data as input, interest has emerged in video compression technology optimized for computer vision tasks. In fact, given the variety of vision tasks, associated NN models and datasets, a consolidated platform is needed as a common ground to implement and evaluate compression methods optimized for downstream vision tasks. CompressAI-Vision is introduced as a comprehensive evaluation platform where new coding tools compete to efficiently compress the input of vision network while retaining task accuracy in the context of two different inference scenarios: "remote" and "split" inferencing. Our study showcases various use cases of the evaluation platform incorporated with standard codecs (under development) by examining the compression gain on several datasets in terms of bit-rate versus task accuracy. This evaluation platform has been developed as open-source software and is adopted by the Moving Pictures Experts Group (MPEG) for the development the Feature Coding for Machines (FCM) standard. The software is available publicly at https://github.com/InterDigitalInc/CompressAI-Vision.

Ссылки и действия