Less is More: Token-Efficient Video-QA via Adaptive Frame-Pruning and Semantic Graph Integration
2508.03337v2
cs.CV
2025-08-09
Авторы:
Shaoguang Wang, Jianxiang He, Yijie Xu, Ziyang Chen, Weiyu Guo, Hui Xiong
Резюме на русском
В статье предлагается метод Less is More для эффективного решения задачи Video Question Answering (Video-QA) с помощью Multimodal Large Language Models (MLLMs). Затруднение применения MLLMs в Video-QA заключается в высокой стоимости токенов при обработке большого количества кадров видео. Обнаружено, что прирост числа используемых кадров не всегда приводит к улучшению результатов из-за утонения контекста, тогда как современные методы выбора ключевых кадров оставляют временную неоднородность («визуальные эхои»). Разработан метод Adaptive Frame-Pruning (AFP), который использует адаптивный кластеринг для объединения этих эхов и сокращения размера выборки кадров. Для компенсации потерь информации вводится легкий граф семантики на основе текста. Эксперименты показали, что AFP снижает количество используемых кадров и токенов ввода до 86,9% и 83,2% соответственно, при этом обеспечивая лучшую точность или эквивалентную по сравнению с базовыми методами, работающими с более крупными выборками.
Abstract
The practical application of Multimodal Large Language Models (MLLMs) to
Video Question Answering (Video-QA) is severely hindered by the high token cost
of processing numerous video frames. While increasing the number of sampled
frames is a common strategy, we observe a "less is more" phenomenon where
excessive frames can paradoxically degrade performance due to context dilution.
Concurrently, state-of-the-art keyframe selection methods, while effective,
still yield significant temporal redundancy, which we term 'visual echoes'. To
address these dual challenges, we propose Adaptive Frame-Pruning (AFP), a novel
post-processing method that intelligently prunes the selected keyframes. AFP
employs an adaptive hierarchical clustering algorithm on a fused ResNet-50 and
CLIP feature space to identify and merge these echoes into single
representatives. To compensate for information loss, we then introduce a
lightweight, text-based semantic graph that provides critical context with
minimal token overhead. Conducting extensive experiments on the LongVideoBench
and VideoMME benchmarks across multiple leading MLLMs, our full approach
demonstrates a drastic reduction in required frames by up to 86.9% and total
input tokens by up to 83.2%. Crucially, by providing a concise, high-quality
set of frames, our method not only enhances efficiency but often improves
accuracy over baselines that use more frames. The code will be released upon
publication.
Ссылки и действия
Дополнительные ресурсы: