Learning Partially-Decorrelated Common Spaces for Ad-hoc Video Search

2508.02340v1 cs.CV, cs.IR, cs.MM 2025-08-09
Авторы:

Fan Hu, Zijie Xin, Xirong Li

Резюме на русском

**Резюме** **Проблема:** Ад-хок Video Search (AVS) предполагает использование текстового запроса для поиска видео, отвечающих условию, в большой коллекции неотмеченных коротких видеороликов. Основная сложность заключается в том, что ответные видео могут отличаться сильно по характеристикам, что создает сложности для эффективного поиска. Например, короткий запрос, такой как "Найди видео с танцующими мужчиной и женщиной внутри", может включать в себя видео из разных среды, обстановки и даже стилей (например, ярких залов, теневых баров или черновозного анимации). Таким образом, для покрытия такого широкого круга вариантов необходимо давать результаты, которые будут как можно более разнообразными. **Решение:** Для улучшения системы поиска и увеличения разнообразия результатов, предлагается новый подход, названный LPD (Learning Partially Decorrelated Common Spaces), который стремится к построению раздельных пространств для каждого из видео и текстовых признаков. Основные новинки в данном подходе заключаются в том, что каждая компонента системы имеет свой собственный пространство, а также в том, что система использует новую форму уровня неравномерности (de-correlation loss) для разнообразия отрицательных выборок внутри каждого пространства. Для обеспечения согласованности между разными пространствами, предлагается использовать информационный метод, основанный на энтропии, чтобы эффективно сформировать общий поисковый пространство. **Основные выводы:** На основании экспериментов на данных TRECVID AVS (2016-2023), показано, что LPD повышает точность поиска и увеличивает разнообразие результатов. Анализ пространств в LPD также подтверждает, что этот подход эффективно работает на различных видах видео, давая более разнообразные результаты.

Abstract

Ad-hoc Video Search (AVS) involves using a textual query to search for multiple relevant videos in a large collection of unlabeled short videos. The main challenge of AVS is the visual diversity of relevant videos. A simple query such as "Find shots of a man and a woman dancing together indoors" can span a multitude of environments, from brightly lit halls and shadowy bars to dance scenes in black-and-white animations. It is therefore essential to retrieve relevant videos as comprehensively as possible. Current solutions for the AVS task primarily fuse multiple features into one or more common spaces, yet overlook the need for diverse spaces. To fully exploit the expressive capability of individual features, we propose LPD, short for Learning Partially Decorrelated common spaces. LPD incorporates two key innovations: feature-specific common space construction and the de-correlation loss. Specifically, LPD learns a separate common space for each video and text feature, and employs de-correlation loss to diversify the ordering of negative samples across different spaces. To enhance the consistency of multi-space convergence, we designed an entropy-based fair multi-space triplet ranking loss. Extensive experiments on the TRECVID AVS benchmarks (2016-2023) justify the effectiveness of LPD. Moreover, diversity visualizations of LPD's spaces highlight its ability to enhance result diversity.

Ссылки и действия