Smoothing Slot Attention Iterations and Recurrences
2508.05417v1
cs.CV
2025-08-09
Авторы:
Rongzhen Zhao, Wenyan Yang, Juho Kannala, Joni Pajarinen
Резюме на русском
Объектно-ориентированное разделение изображений и видео часто тем не менее сталкивается с проблемами при обработке первых кадров изображений и видео. Эти проблемы возникают из-за отсутствия специфичных признаков в начальных этапах агрегации слотов. Мы предлагаем SmoothSA, решение, которое адресует эти проблемы. Оно представляет собой подход, который улучшает изначальную фазу агрегации слотов за счет предобученного модуля, который генерирует более информативные начальные слоты на основе входных признаков. Для видео, мы различаем трансформации слотов в первых и последующих кадрах, учитывая различия в задачах. Это позволяет повысить точность обработки кадров и уменьшить повторяемость алгоритма. Мы проверили эффективность SmoothSA на множестве задач объектного распознавания и обнаружения, получив улучшения по сравнению с текущими методами. Наш алгоритм также обеспечивает более стабильное обучение и повышенную точность для обработки видео.
Abstract
Slot Attention (SA) and its variants lie at the heart of mainstream
Object-Centric Learning (OCL). Objects in an image can be aggregated into
respective slot vectors, by \textit{iteratively} refining cold-start query
vectors, typically three times, via SA on image features. For video, such
aggregation is \textit{recurrently} shared across frames, with queries
cold-started on the first frame while transitioned from the previous frame's
slots on non-first frames. However, the cold-start queries lack sample-specific
cues thus hinder precise aggregation on the image or video's first frame; Also,
non-first frames' queries are already sample-specific thus require transforms
different from the first frame's aggregation. We address these issues for the
first time with our \textit{SmoothSA}: (1) To smooth SA iterations on the image
or video's first frame, we \textit{preheat} the cold-start queries with rich
information of input features, via a tiny module self-distilled inside OCL; (2)
To smooth SA recurrences across all video frames, we \textit{differentiate} the
homogeneous transforms on the first and non-first frames, by using full and
single iterations respectively. Comprehensive experiments on object discovery,
recognition and downstream benchmarks validate our method's effectiveness.
Further analyses intuitively illuminate how our method smooths SA iterations
and recurrences. Our code is available in the supplement.
Ссылки и действия
Дополнительные ресурсы: