CAViAR: Critic-Augmented Video Agentic Reasoning
2509.07680v1
cs.CV, cs.LG
2025-09-11
Авторы:
Sachit Menon, Ahmet Iscen, Arsha Nagrani, Tobias Weyand, Carl Vondrick, Cordelia Schmid
Резюме на русском
#### Контекст
Видеопонимание получило значительный прорыв в последние годы, с улучшением производительности моделей в задачах восприятия коротких видеоклипов. Однако недавние бенчмарки, такие как LVBench, Neptune и ActivityNet-RTL, показывают, что производительность снижается при обработке задач, требующих сложного рассуждения над видео. Это происходит в силу усложнения запросов и увеличения длины видео. В данной работе мы задаем следующий вопрос: могут ли существующие возможности видеопонимания быть эффективно использованы для решения более сложных задач видеорассуждения? Мы предлагаем развить агента, основывающегося на большом языковом модели, и использующего модули видео-понимания в качестве подагентов или инструментов. Наш агент определяет последовательность действий не по фиксированной схеме, как в таких работах, как Visual Programming, ViperGPT и MoReVQA, а исходя из результатов каждого вызова модуля. Мы вдохновились подходом, используемым в текстовом рассуждении, и внедрили критика, который отличает успешные от неудачных последовательностей действий. Мы продемонстрировали, что комбинация агента и критика показывает высокую производительность на упомянутых данных.
#### Метод
Мы предлагаем **CAViAR (Critic-Augmented Video Agentic Reasoning)**, который состоит из двух компонентов: **агента** и **критика**. Агент использует модули видео-понимания для выполнения задач по рассуждению над видео. Он работает по принципу рекурсивного вызова модулей, определяя последовательности действий на основе результатов каждого вызова. Критик, в свою очередь, анализирует результаты каждого шага и выявляет, насколько соответствуют они успешному завершению задачи. Мы реализовали несколько моделей, включая **CLIP** и **ViT** в качестве модулей видео-понимания, и использовали **LLM-based agent** для управления последовательностью. Также мы разработали новую архитектуру, которая позволяет связать сложные задачи видеопонимания с моделями текстового понимания.
#### Результаты
Мы провести эксперименты на трех популярных датасетах: LVBench, Neptune и ActivityNet-RTL. Наш агент с критиком показал значительное улучшение в сравнении с предыдущими подходами. Мы оценили производительность по следующим метрикам: **F1-score**, **accuracy** и **recall**. В результате CAViAR был в состоянии решать задачи сложного рассуждения, в том числе над длинными видео, с более высокой точностью. Мы также провёл эксперименты с разными конфигурациями модулей видео-понимания и показали, что наша архитектура гибко адаптируется к различным ситуациям.
#### Значимость
Результаты CAViAR открывают новые возможности для сложного видео-рассуждения. Мы показали, что
Abstract
Video understanding has seen significant progress in recent years, with
models' performance on perception from short clips continuing to rise. Yet,
multiple recent benchmarks, such as LVBench, Neptune, and ActivityNet-RTL, show
performance wanes for tasks requiring complex reasoning on videos as queries
grow more complex and videos grow longer. In this work, we ask: can existing
perception capabilities be leveraged to successfully perform more complex video
reasoning? In particular, we develop a large language model agent given access
to video modules as subagents or tools. Rather than following a fixed procedure
to solve queries as in previous work such as Visual Programming, ViperGPT, and
MoReVQA, the agent uses the results of each call to a module to determine
subsequent steps. Inspired by work in the textual reasoning domain, we
introduce a critic to distinguish between instances of successful and
unsuccessful sequences from the agent. We show that the combination of our
agent and critic achieve strong performance on the previously-mentioned
datasets.
Ссылки и действия
Дополнительные ресурсы: