Local Scale Equivariance with Latent Deep Equilibrium Canonicalizer

2508.14187v1 cs.CV, cs.GR, cs.LG 2025-08-22
Авторы:

Md Ashiqur Rahman, Chiao-An Yang, Michael N. Cheng, Lim Jun Hao, Jeremiah Jiang, Teck-Yian Lim, Raymond A. Yeh

Резюме на русском

## Контекст Scale variation является одной из фундаментальных проблем в области компьютерного зрения. Объекты одного класса могут различаться по размеру, а размер, воспринимаемый зрительно, также зависит от дистанции до камеры. Эти различия локальны для объектов, т.е., разные размеры объектов могут изменяться по-разному внутри одного и того же изображения. Для эффективного управления этими различиями мы предлагаем глубокий инструмент нормализации (DEC), который позволяет улучшить локальную согласованность масштабов в модели. Это решение может легко добавляться к существующим архитектурам и использоваться с предобученными моделями. Мы продемонстрировали, что на бенчмарке ImageNet, DEC улучшает качество моделей и локальную согласованность масштабов во всех четырех анализируемых моделях, включая ViT, DeiT, Swin и BEiT. Наш код доступен по адресу: https://github.com/ashiq24/local-scale-equivariance. ## Метод Мы предлагаем глубокую операцию балансировки масштабов (DEC), которая использует динамический иглауровень, чтобы обеспечивать локальную согласованность масштабов. Модель DEC основывается на глубоком стеке статического и глубоком стеке динамического решений. Мы используем нейросетевые техники, чтобы включить в DEC функции информации о масштабе, чтобы предотвратить потерю локальных сдвигов. Также мы провели тщетное уточнение, чтобы оптимизировать DEC для включенных моделей. ## Результаты Мы провели эксперименты на бенчмарке ImageNet, используя четыре предобученных модели: ViT, DeiT, Swin и BEiT. Мы установили, что DEC улучшает точность классификации и согласованность масштабов во всех моделях. Например, на ViT-Base, DEC улучшил точность на 1.2%, при этом сохранив локальную согласованность масштабов. Были проведены дополнительные эксперименты на других данных, подтверждающие эффективность DEC на различных задачах. ## Значимость DEC может применяться во многих областях компьютерного зрения, включая обнаружение объектов, обозначение сегментов, а также работу с видео. Это решение имеет преимущества в том, что оно легко интегрируется с существующими моделями и не требует изменения их структуры. DEC влияет на модели, улучшая их точность и локальную согласованность, что может оказаться полезным для задач, где точность классификации и консистентность масштабов критичны. ## Выводы Мы предложили новый подход для улучшения локальной согласованности масштабов в компьютерном зрении. Наши эксперименты показали, что DEC может легко внедряться в существующие модели и повышать их точность и согласованность. Мы полагаем, что будущие исследова

Abstract

Scale variation is a fundamental challenge in computer vision. Objects of the same class can have different sizes, and their perceived size is further affected by the distance from the camera. These variations are local to the objects, i.e., different object sizes may change differently within the same image. To effectively handle scale variations, we present a deep equilibrium canonicalizer (DEC) to improve the local scale equivariance of a model. DEC can be easily incorporated into existing network architectures and can be adapted to a pre-trained model. Notably, we show that on the competitive ImageNet benchmark, DEC improves both model performance and local scale consistency across four popular pre-trained deep-nets, e.g., ViT, DeiT, Swin, and BEiT. Our code is available at https://github.com/ashiq24/local-scale-equivariance.

Ссылки и действия