CAViAR: Critic-Augmented Video Agentic Reasoning

2509.07680v1 cs.CV, cs.LG 2025-09-11

Авторы:

Sachit Menon, Ahmet Iscen, Arsha Nagrani, Tobias Weyand, Carl Vondrick, Cordelia Schmid

Резюме на русском

#### Контекст Видеопонимание получило значительный прорыв в последние годы, с улучшением производительности моделей в задачах восприятия коротких видеоклипов. Однако недавние бенчмарки, такие как LVBench, Neptune и ActivityNet-RTL, показывают, что производительность снижается при обработке задач, требующих сложного рассуждения над видео. Это происходит в силу усложнения запросов и увеличения длины видео. В данной работе мы задаем следующий вопрос: могут ли существующие возможности видеопонимания быть эффективно использованы для решения более сложных задач видеорассуждения? Мы предлагаем развить агента, основывающегося на большом языковом модели, и использующего модули видео-понимания в качестве подагентов или инструментов. Наш агент определяет последовательность действий не по фиксированной схеме, как в таких работах, как Visual Programming, ViperGPT и MoReVQA, а исходя из результатов каждого вызова модуля. Мы вдохновились подходом, используемым в текстовом рассуждении, и внедрили критика, который отличает успешные от неудачных последовательностей действий. Мы продемонстрировали, что комбинация агента и критика показывает высокую производительность на упомянутых данных. #### Метод Мы предлагаем **CAViAR (Critic-Augmented Video Agentic Reasoning)**, который состоит из двух компонентов: **агента** и **критика**. Агент использует модули видео-понимания для выполнения задач по рассуждению над видео. Он работает по принципу рекурсивного вызова модулей, определяя последовательности действий на основе результатов каждого вызова. Критик, в свою очередь, анализирует результаты каждого шага и выявляет, насколько соответствуют они успешному завершению задачи. Мы реализовали несколько моделей, включая **CLIP** и **ViT** в качестве модулей видео-понимания, и использовали **LLM-based agent** для управления последовательностью. Также мы разработали новую архитектуру, которая позволяет связать сложные задачи видеопонимания с моделями текстового понимания. #### Результаты Мы провести эксперименты на трех популярных датасетах: LVBench, Neptune и ActivityNet-RTL. Наш агент с критиком показал значительное улучшение в сравнении с предыдущими подходами. Мы оценили производительность по следующим метрикам: **F1-score**, **accuracy** и **recall**. В результате CAViAR был в состоянии решать задачи сложного рассуждения, в том числе над длинными видео, с более высокой точностью. Мы также провёл эксперименты с разными конфигурациями модулей видео-понимания и показали, что наша архитектура гибко адаптируется к различным ситуациям. #### Значимость Результаты CAViAR открывают новые возможности для сложного видео-рассуждения. Мы показали, что

Abstract

Video understanding has seen significant progress in recent years, with models' performance on perception from short clips continuing to rise. Yet, multiple recent benchmarks, such as LVBench, Neptune, and ActivityNet-RTL, show performance wanes for tasks requiring complex reasoning on videos as queries grow more complex and videos grow longer. In this work, we ask: can existing perception capabilities be leveraged to successfully perform more complex video reasoning? In particular, we develop a large language model agent given access to video modules as subagents or tools. Rather than following a fixed procedure to solve queries as in previous work such as Visual Programming, ViperGPT, and MoReVQA, the agent uses the results of each call to a module to determine subsequent steps. Inspired by work in the textual reasoning domain, we introduce a critic to distinguish between instances of successful and unsuccessful sequences from the agent. We show that the combination of our agent and critic achieve strong performance on the previously-mentioned datasets.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CAViAR: Critic-Augmented Video Agentic Reasoning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias...

HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Tex...

Навигация