Vision-Language Alignment from Compressed Image Representations using 2D Gaussian Splatting
2509.22615v1
cs.CV, cs.AI, cs.CL
2025-09-30
Авторы:
Yasmine Omri, Connor Ding, Tsachy Weissman, Thierry Tambe
Резюме на русском
#### Контекст
Modern vision-language pipelines, вдохновленные моделями типа CLIP, возникли как решение задач, требующих сильного переноса между задачами и высокой гибкостью. Они построены на визуальных представлениях, полученных в результате обучения RGB-вендоров на больших корпусах изображений и текстов. Тем не менее, эти представления имеют две существенные неэффективности: (i) передача плотных RGB-оттенков на платформах с ограниченными ресурсами — дорогостоящая и энергоемкая операция, и (ii) токенизация пикселей на чанки — это приводит к гигантскому потоку данных, накладывающему ограничения на контекстную модель и напряжающему бюджет аутентификации. Наша исследовательская мотивация заключается в оценке может ли 2D Gaussian Splatting (2DGS), более эффективная и сжатая визуальная модель, стать альтернативой RGB-визуализации для vision-language моделей.
#### Метод
Методология основывается на разработке и оптимизации 2DGS-представлений, используя структурированный подход: (i) **инициализация**, ориентированная на многоугольники, чтобы воспроизвести пиксельные тензы; (ii) **удаление яркости света**, чтобы уменьшить количество Гауссианских сплатов; (iii) **батч-оптимизация CUDA-ядер**, чтобы увеличить эффективность GPU. Мы также фиксировали RGB-трансформер CLIP и разработали **адаптивный подход**, включающий: (i) лёгкую структуру входа, приспособленную к 2DGS, и (ii) **перцептр-ресемплер**, который позволяет повторно использовать 85% параметров CLIP. Таким образом, мы можем тренировать только 7% параметров модели, оставив остальные параметры замороженными.
#### Результаты
Мы провели эксперименты на DataComp, сравнивая полученные 2DGS-представления с исходными RGB-представлениями. 2DGS эффективно сжимает данные: от 3 до 20 раз по сравнению с RGB-пикселями. Мы получили неплохие значения zero-shot ImageNet-1K, что демонстрирует способность 2DGS генерировать смысловые представления. Однако в то же время, актуальные результаты в ImageNet-1K намного хуже, чем у RGB-визуализаций. Это предоставляет возможность определить будущие направления по улучшению эффективности 2DGS.
#### Значимость
2DGS-представления могут использоваться во многих областях, в том числе:
1. **Низкоэнергоёмкие платформы** — решение для сенсорных и ограниченных ресурсных устройств, таких как мобильные телефоны и AR/VR-головные устройства.
2. **Визуально-текстовые модели** — 2DGS может стать более эффективной альтернативой RGB-визуализации для обучения моделей с широким покрытием задач.
3. **Энергоносительные технологии** — 2DGS предлагает эффективно
Abstract
Modern vision language pipelines are driven by RGB vision encoders trained on
massive image text corpora. While these pipelines have enabled impressive zero
shot capabilities and strong transfer across tasks, they still inherit two
structural inefficiencies from the pixel domain: (i) transmitting dense RGB
images from edge devices to the cloud is energy intensive and costly, and (ii)
patch based tokenization explodes sequence length, stressing attention budgets
and context limits. We explore 2D Gaussian Splatting (2DGS) as an alternative
visual substrate for alignment: a compact, spatially adaptive representation
that parameterizes images by a set of colored anisotropic Gaussians. We develop
a scalable 2DGS pipeline with structured initialization, luminance aware
pruning, and batched CUDA kernels, achieving over 90x faster fitting and about
97% GPU utilization compared to prior implementations. We further adapt
contrastive language image pretraining (CLIP) to 2DGS by reusing a frozen
RGB-based transformer backbone with a lightweight splat aware input stem and a
perceiver resampler, training only about 7% of the total parameters. On large
DataComp subsets, GS encoders yield meaningful zero shot ImageNet-1K
performance while compressing inputs 3 to 20x relative to pixels. While
accuracy currently trails RGB encoders, our results establish 2DGS as a viable
multimodal substrate, pinpoint architectural bottlenecks, and open a path
toward representations that are both semantically powerful and transmission
efficient for edge cloud learning.
Ссылки и действия
Дополнительные ресурсы: