Less is More: Token-Efficient Video-QA via Adaptive Frame-Pruning and Semantic Graph Integration

2508.03337v2 cs.CV 2025-08-09
Авторы:

Shaoguang Wang, Jianxiang He, Yijie Xu, Ziyang Chen, Weiyu Guo, Hui Xiong

Резюме на русском

В статье предлагается метод Less is More для эффективного решения задачи Video Question Answering (Video-QA) с помощью Multimodal Large Language Models (MLLMs). Затруднение применения MLLMs в Video-QA заключается в высокой стоимости токенов при обработке большого количества кадров видео. Обнаружено, что прирост числа используемых кадров не всегда приводит к улучшению результатов из-за утонения контекста, тогда как современные методы выбора ключевых кадров оставляют временную неоднородность («визуальные эхои»). Разработан метод Adaptive Frame-Pruning (AFP), который использует адаптивный кластеринг для объединения этих эхов и сокращения размера выборки кадров. Для компенсации потерь информации вводится легкий граф семантики на основе текста. Эксперименты показали, что AFP снижает количество используемых кадров и токенов ввода до 86,9% и 83,2% соответственно, при этом обеспечивая лучшую точность или эквивалентную по сравнению с базовыми методами, работающими с более крупными выборками.

Abstract

The practical application of Multimodal Large Language Models (MLLMs) to Video Question Answering (Video-QA) is severely hindered by the high token cost of processing numerous video frames. While increasing the number of sampled frames is a common strategy, we observe a "less is more" phenomenon where excessive frames can paradoxically degrade performance due to context dilution. Concurrently, state-of-the-art keyframe selection methods, while effective, still yield significant temporal redundancy, which we term 'visual echoes'. To address these dual challenges, we propose Adaptive Frame-Pruning (AFP), a novel post-processing method that intelligently prunes the selected keyframes. AFP employs an adaptive hierarchical clustering algorithm on a fused ResNet-50 and CLIP feature space to identify and merge these echoes into single representatives. To compensate for information loss, we then introduce a lightweight, text-based semantic graph that provides critical context with minimal token overhead. Conducting extensive experiments on the LongVideoBench and VideoMME benchmarks across multiple leading MLLMs, our full approach demonstrates a drastic reduction in required frames by up to 86.9% and total input tokens by up to 83.2%. Crucially, by providing a concise, high-quality set of frames, our method not only enhances efficiency but often improves accuracy over baselines that use more frames. The code will be released upon publication.

Ссылки и действия