Test-Time Adaptation for Video Highlight Detection Using Meta-Auxiliary Learning and Cross-Modality Hallucinations
2508.04924v1
cs.CV
2025-08-09
Авторы:
Zahidul Islam, Sujoy Paul, Mrigank Rochan
Резюме на русском
Видео-хайлайт-детекция — задача, требующая высокой точности и устойчивости в работе с различными тестовыми видео. Несмотря на развитие существующих методов, они часто сталкиваются с проблемой неустойчивости на незнакомых видео-контентах. Чтобы решить эту проблему, авторы предлагают Highlight-TTA — рамформу тестовой адаптации, которая использует meta-auxiliary learning и cross-modality hallucinations. Эта фреймворк dynamicаlly аdapts the model during testing, aligning его with unique characteristics of each video. Основной задачей остается highlight detection, но зато auxiliary task помогает улучшить generalization. Тесты на трех бенчмарковых датасетах и трех существующих моделях показали, что Highlight-TTA существенно повышает производительность этих моделей, демонстрируя значительный выигрыш в точности и устойчивости в детекции хайлайтов.
Abstract
Existing video highlight detection methods, although advanced, struggle to
generalize well to all test videos. These methods typically employ a generic
highlight detection model for each test video, which is suboptimal as it fails
to account for the unique characteristics and variations of individual test
videos. Such fixed models do not adapt to the diverse content, styles, or audio
and visual qualities present in new, unseen test videos, leading to reduced
highlight detection performance. In this paper, we propose Highlight-TTA, a
test-time adaptation framework for video highlight detection that addresses
this limitation by dynamically adapting the model during testing to better
align with the specific characteristics of each test video, thereby improving
generalization and highlight detection performance. Highlight-TTA is jointly
optimized with an auxiliary task, cross-modality hallucinations, alongside the
primary highlight detection task. We utilize a meta-auxiliary training scheme
to enable effective adaptation through the auxiliary task while enhancing the
primary task. During testing, we adapt the trained model using the auxiliary
task on the test video to further enhance its highlight detection performance.
Extensive experiments with three state-of-the-art highlight detection models
and three benchmark datasets show that the introduction of Highlight-TTA to
these models improves their performance, yielding superior results.
Ссылки и действия
Дополнительные ресурсы: