I-Segmenter: Integer-Only Vision Transformer for Efficient Semantic Segmentation

2509.10334v1 cs.CV, cs.AI, cs.LG 2025-09-16

Авторы:

Jordan Sassoon, Michal Szczepanski, Martyna Poreba

Резюме на русском

## Контекст Vision Transformers (ViTs) стали одним из ведущих подходов в области зрелых искусственных нейронных сетей для семантической сегментации. Однако, их производительность и эффективность ограничиваются высоким расходом ресурсов, который не позволяет использовать такие модели на устройствах с ограниченными ресурсами. Это приводит к значительным проблемам при развертывании ViTs в реальных сценариях, где необходимо минимизировать объем вычислительных операций и уменьшить потребление памяти. Недостаточная стабильность ViT-моделей при использовании низкой точности аппаратной поддержки далее усложняет их применение. Мы предлагаем I-Segmenter, первую в мире полностью integer-only ViT модель для сегментации. Она разработана на основе Segmenter и значительно улучшает эффективность, оптимизируя использование ресурсов и уменьшая затраты на вычисления. ## Метод I-Segmenter использует весь граф вычислений в integer-only режиме, включая активации, нормализацию, интерполяцию, и все операции свертки. Для улучшения вычислительной стабильности мы предлагаем новую активацию $\lambda$-ShiftGELU, которая эффективно справляется с вызовами, связанными с низкой точностью, и стабилизирует обучение и выполнение модели. Мы также удаляем L2-нормализацию и заменяем bilinear interpolation на nearest neighbor upsampling, чтобы получить integer-only реализацию во всей модели. Эта интересная комбинация техник позволяет I-Segmenter работать в integer-only режиме, уменьшая вычислительные затраты и улучшая производительность. ## Результаты Мы провели обширные эксперименты с использованием различных данных для сегментации и сравнили I-Segmenter с другими моделями. Модель показала внутри-маргинальные отклонения от baseline-результатов (5.1% в среднем) при уменьшении размера модели на 3.8x и увеличении скорости выполнения до 1.2x. Мы также проверили I-Segmenter на условиях one-shot post-training quantization (PTQ), и она показала высокую точность даже при одном калибровочном изображении, что демонстрирует ее практичность для реального развертывания. ## Значимость I-Segmenter может быть использована в различных приложениях, где требуется эффективная сегментация изображений на ресурс-ограниченных устройствах, таких как мобильные устройства, IoT-устройства, и автомобильная техника. Основные преимущества включают высокую производительность, минимальные затраты на вычисления, и стабильность работы в низкой точности. Это открывает пути для широкого применения ViTs в сценариях, где до недавнего времени такие модели были неприменимы. ## Выводы Мы представили I-Segmenter, первую integer-only ViT модель для сегментации, которая эффективно решает проблемы с вычислительной стоимостью и расходом памяти. Наши результаты показывают, что I-Segmenter со

Abstract

Vision Transformers (ViTs) have recently achieved strong results in semantic segmentation, yet their deployment on resource-constrained devices remains limited due to their high memory footprint and computational cost. Quantization offers an effective strategy to improve efficiency, but ViT-based segmentation models are notoriously fragile under low precision, as quantization errors accumulate across deep encoder-decoder pipelines. We introduce I-Segmenter, the first fully integer-only ViT segmentation framework. Building on the Segmenter architecture, I-Segmenter systematically replaces floating-point operations with integer-only counterparts. To further stabilize both training and inference, we propose $\lambda$-ShiftGELU, a novel activation function that mitigates the limitations of uniform quantization in handling long-tailed activation distributions. In addition, we remove the L2 normalization layer and replace bilinear interpolation in the decoder with nearest neighbor upsampling, ensuring integer-only execution throughout the computational graph. Extensive experiments show that I-Segmenter achieves accuracy within a reasonable margin of its FP32 baseline (5.1 % on average), while reducing model size by up to 3.8x and enabling up to 1.2x faster inference with optimized runtimes. Notably, even in one-shot PTQ with a single calibration image, I-Segmenter delivers competitive accuracy, underscoring its practicality for real-world deployment.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

I-Segmenter: Integer-Only Vision Transformer for Efficient Semantic Segmentation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация