Vision-Language Alignment from Compressed Image Representations using 2D Gaussian Splatting

2509.22615v1 cs.CV, cs.AI, cs.CL 2025-09-30
Авторы:

Yasmine Omri, Connor Ding, Tsachy Weissman, Thierry Tambe

Резюме на русском

#### Контекст Modern vision-language pipelines, вдохновленные моделями типа CLIP, возникли как решение задач, требующих сильного переноса между задачами и высокой гибкостью. Они построены на визуальных представлениях, полученных в результате обучения RGB-вендоров на больших корпусах изображений и текстов. Тем не менее, эти представления имеют две существенные неэффективности: (i) передача плотных RGB-оттенков на платформах с ограниченными ресурсами — дорогостоящая и энергоемкая операция, и (ii) токенизация пикселей на чанки — это приводит к гигантскому потоку данных, накладывающему ограничения на контекстную модель и напряжающему бюджет аутентификации. Наша исследовательская мотивация заключается в оценке может ли 2D Gaussian Splatting (2DGS), более эффективная и сжатая визуальная модель, стать альтернативой RGB-визуализации для vision-language моделей. #### Метод Методология основывается на разработке и оптимизации 2DGS-представлений, используя структурированный подход: (i) **инициализация**, ориентированная на многоугольники, чтобы воспроизвести пиксельные тензы; (ii) **удаление яркости света**, чтобы уменьшить количество Гауссианских сплатов; (iii) **батч-оптимизация CUDA-ядер**, чтобы увеличить эффективность GPU. Мы также фиксировали RGB-трансформер CLIP и разработали **адаптивный подход**, включающий: (i) лёгкую структуру входа, приспособленную к 2DGS, и (ii) **перцептр-ресемплер**, который позволяет повторно использовать 85% параметров CLIP. Таким образом, мы можем тренировать только 7% параметров модели, оставив остальные параметры замороженными. #### Результаты Мы провели эксперименты на DataComp, сравнивая полученные 2DGS-представления с исходными RGB-представлениями. 2DGS эффективно сжимает данные: от 3 до 20 раз по сравнению с RGB-пикселями. Мы получили неплохие значения zero-shot ImageNet-1K, что демонстрирует способность 2DGS генерировать смысловые представления. Однако в то же время, актуальные результаты в ImageNet-1K намного хуже, чем у RGB-визуализаций. Это предоставляет возможность определить будущие направления по улучшению эффективности 2DGS. #### Значимость 2DGS-представления могут использоваться во многих областях, в том числе: 1. **Низкоэнергоёмкие платформы** — решение для сенсорных и ограниченных ресурсных устройств, таких как мобильные телефоны и AR/VR-головные устройства. 2. **Визуально-текстовые модели** — 2DGS может стать более эффективной альтернативой RGB-визуализации для обучения моделей с широким покрытием задач. 3. **Энергоносительные технологии** — 2DGS предлагает эффективно

Abstract

Modern vision language pipelines are driven by RGB vision encoders trained on massive image text corpora. While these pipelines have enabled impressive zero shot capabilities and strong transfer across tasks, they still inherit two structural inefficiencies from the pixel domain: (i) transmitting dense RGB images from edge devices to the cloud is energy intensive and costly, and (ii) patch based tokenization explodes sequence length, stressing attention budgets and context limits. We explore 2D Gaussian Splatting (2DGS) as an alternative visual substrate for alignment: a compact, spatially adaptive representation that parameterizes images by a set of colored anisotropic Gaussians. We develop a scalable 2DGS pipeline with structured initialization, luminance aware pruning, and batched CUDA kernels, achieving over 90x faster fitting and about 97% GPU utilization compared to prior implementations. We further adapt contrastive language image pretraining (CLIP) to 2DGS by reusing a frozen RGB-based transformer backbone with a lightweight splat aware input stem and a perceiver resampler, training only about 7% of the total parameters. On large DataComp subsets, GS encoders yield meaningful zero shot ImageNet-1K performance while compressing inputs 3 to 20x relative to pixels. While accuracy currently trails RGB encoders, our results establish 2DGS as a viable multimodal substrate, pinpoint architectural bottlenecks, and open a path toward representations that are both semantically powerful and transmission efficient for edge cloud learning.

Ссылки и действия