Bridging Vision Language Models and Symbolic Grounding for Video Question Answering

2509.11862v1 cs.CV, cs.AI, cs.LG 2025-09-17

Авторы:

Haodi Ma, Vyom Pathak, Daisy Zhe Wang

Резюме на русском

#### Контекст Видеовопросно-ответная система (Video Question Answering, VQA) представляет собой сложную задачу, требующую моделей рассуждать над пространственными, временными и казуальными сигналами в видео. Несмотря на успех видений языковых моделей (Vision Language Models, VLMs), они часто полагаются на локальные корреляции, что приводит к слабым сигналам земельных грунтов (temporal grounding) и недостаточной интерпретируемости. Мы исследуем символьные сценичные графы (Scene Graphs, SG) как вспомогательные сигналы для VQA. Сценические графы представляют собой структурированные представления объектов и их отношений, комплиментарно дополняя широковедческую природу VLMs. Мы предлагаем SG-VLM, модульную архитектуру, которая интегрирует замороженные VLMs с графом земельных грунтов через настройки и визуальную локализацию. #### Метод SG-VLM широко использует продвинутые техники для взаимодействия VLMs и сценичных графов. Модель начинает с замороженной VLM, которая извлекает объектно-ориентированные признаки из видео. Затем, с помощью продвинутых методов настройки и визуальной локализации, эти признаки интегрируются с символьными сценичными графами, создавая более структурированную интерпретируемую репрезентацию. Эта модель используется для выполнения задачи VQA, ориентируясь на пространственные, временные и казуальные сигналы. Мы выполнили эксперименты с несколькими VLMs, включая QwenVL и InternVL, на трех моделях задач VQA: NExT-QA, iVQA и ActivityNet-QA. #### Результаты Проведенные эксперименты показали, что SG-VLM выдает значительное улучшение в рассуждении по времени и причинному следованию по сравнению с базовыми VLMs. Однако наблюдается ограниченное улучшение при сравнении с более мощными VLMs. Модель показала себя хорошо на различных бенчмарках, улучшая результаты в задачах, требующих тонкого рассуждения по времени и пространству. Тем не менее, наблюдаются ограничения в силу текущих ограничений символьных графов и сложности интеграции с VLMs. #### Значимость SG-VLM демонстрирует потенциал символьных графов в улучшении проникновения и интерпретируемости VQA. Данная модель может быть применима в области робототехники, медицины, образования и других сферах, где требуется подробный анализ видео. Несмотря на ограничения, найденные результаты показывают, что совмещение VLMs с символьными технологиями может стать ключом к более точной интерпретируемой модели. Мы планируем продолжить исследования, сфокусировавшись на улучшении символьных графов и их интеграции с VLMs. #### Выводы Наша исследовательская работа показала, что сценичные графы могут з

Abstract

Video Question Answering (VQA) requires models to reason over spatial, temporal, and causal cues in videos. Recent vision language models (VLMs) achieve strong results but often rely on shallow correlations, leading to weak temporal grounding and limited interpretability. We study symbolic scene graphs (SGs) as intermediate grounding signals for VQA. SGs provide structured object-relation representations that complement VLMs holistic reasoning. We introduce SG-VLM, a modular framework that integrates frozen VLMs with scene graph grounding via prompting and visual localization. Across three benchmarks (NExT-QA, iVQA, ActivityNet-QA) and multiple VLMs (QwenVL, InternVL), SG-VLM improves causal and temporal reasoning and outperforms prior baselines, though gains over strong VLMs are limited. These findings highlight both the promise and current limitations of symbolic grounding, and offer guidance for future hybrid VLM-symbolic approaches in video understanding.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Bridging Vision Language Models and Symbolic Grounding for Video Question Answering

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация