Probing the Representational Power of Sparse Autoencoders in Vision Models

2508.11277v1 cs.CV, cs.LG 2025-08-19
Авторы:

Matthew Lyle Olson, Musashi Hinck, Neale Ratzlaff, Changbai Li, Phillip Howard, Vasudev Lal, Shao-Yen Tseng

Резюме на русском

## Контекст В последние годы скрытые слои глубоких нейронных сетей стали получать всё больше внимания как источники репрезентативности, которые могут объяснить, как такие модели обрабатывают входные данные. Sparse Autoencoders (SAEs), являющиеся одним из таких инструментов, используются для расширения понимания скрытых слоев. Они обучаются восстанавливать активации из сжатой блокированной сети, чтобы выявить понятные признаки в высоком размерности. Хотя SAEs особенно популярны в области языковых моделей (LLMs), их потенциал в области визуальных моделей остается нередко недооцененным. Это делает важной целью этой работы провести подробное исследование и оценить характеристики SAEs в контексте визуальных моделей. ## Метод Для оценки мощности скрытых представлений SAEs в визуальных моделях была разработана многоэтапная методология. Во-первых, мы использовали трёхмерные модели визуального понимания, включая виджет-модели, многомодальные модели типа LMMы и диффузионные модели. Во-вторых, мы проводили эксперименты на различных образцах: OOD-обнаружении, построении онтологической структуры и контролируемой генерации. Мы разработали опытную процедуру для изучения того, как SAEs могут восстанавливать онтологическую структуру в LLMs. Для диффузионных моделей, мы использовали методы манипуляции текстовых энкодеров для управления генерацией и разработали автоматизированный канал для выявления человекопонятных признаков. В последнем этапе мы проводили исследования на многомодальных моделях типа LMM, чтобы исследовать, как SAEs могут обнаруживать взаимосвязи между визуальными и языковыми моделями. ## Результаты Наши эксперименты показали, что SAE-функции имеют сильную семантическую структуру и помогают в улучшении OOD-обнаружения. В моделях визуального понимания мы обнаружили, что SAEs могут восстановить онтологическую структуру внутренних представлений модели. В работе с диффузионными моделями мы разработали автоматический канал для выявления человекопонятных признаков и улучшили контролируемую генерацию изображений. Наконец, в многомодальных моделях типа LMM мы обнаружили, что SAEs могут выявлять общие представления между визуальными и языковыми моделями. Эти результаты показывают, что SAEs имеют высокую потенциальную ценность для улучшения интерпретируемости, общезначимости и управляемости визуальных моделей. ## Значимость Результаты этого исследования открывают путь к новым возможностям в области визуальных моделей, включая vision embedding models, multi-modal LLMs и diffusion models. SAEs могут быть использованы для улучшения интерпретируемости моделей, уве

Abstract

Sparse Autoencoders (SAEs) have emerged as a popular tool for interpreting the hidden states of large language models (LLMs). By learning to reconstruct activations from a sparse bottleneck layer, SAEs discover interpretable features from the high-dimensional internal representations of LLMs. Despite their popularity with language models, SAEs remain understudied in the visual domain. In this work, we provide an extensive evaluation the representational power of SAEs for vision models using a broad range of image-based tasks. Our experimental results demonstrate that SAE features are semantically meaningful, improve out-of-distribution generalization, and enable controllable generation across three vision model architectures: vision embedding models, multi-modal LMMs and diffusion models. In vision embedding models, we find that learned SAE features can be used for OOD detection and provide evidence that they recover the ontological structure of the underlying model. For diffusion models, we demonstrate that SAEs enable semantic steering through text encoder manipulation and develop an automated pipeline for discovering human-interpretable attributes. Finally, we conduct exploratory experiments on multi-modal LLMs, finding evidence that SAE features reveal shared representations across vision and language modalities. Our study provides a foundation for SAE evaluation in vision models, highlighting their strong potential improving interpretability, generalization, and steerability in the visual domain.

Ссылки и действия