Bridging Vision Language Models and Symbolic Grounding for Video Question Answering
2509.11862v1
cs.CV, cs.AI, cs.LG
2025-09-17
Авторы:
Haodi Ma, Vyom Pathak, Daisy Zhe Wang
Резюме на русском
#### Контекст
Видеовопросно-ответная система (Video Question Answering, VQA) представляет собой сложную задачу, требующую моделей рассуждать над пространственными, временными и казуальными сигналами в видео. Несмотря на успех видений языковых моделей (Vision Language Models, VLMs), они часто полагаются на локальные корреляции, что приводит к слабым сигналам земельных грунтов (temporal grounding) и недостаточной интерпретируемости. Мы исследуем символьные сценичные графы (Scene Graphs, SG) как вспомогательные сигналы для VQA. Сценические графы представляют собой структурированные представления объектов и их отношений, комплиментарно дополняя широковедческую природу VLMs. Мы предлагаем SG-VLM, модульную архитектуру, которая интегрирует замороженные VLMs с графом земельных грунтов через настройки и визуальную локализацию.
#### Метод
SG-VLM широко использует продвинутые техники для взаимодействия VLMs и сценичных графов. Модель начинает с замороженной VLM, которая извлекает объектно-ориентированные признаки из видео. Затем, с помощью продвинутых методов настройки и визуальной локализации, эти признаки интегрируются с символьными сценичными графами, создавая более структурированную интерпретируемую репрезентацию. Эта модель используется для выполнения задачи VQA, ориентируясь на пространственные, временные и казуальные сигналы. Мы выполнили эксперименты с несколькими VLMs, включая QwenVL и InternVL, на трех моделях задач VQA: NExT-QA, iVQA и ActivityNet-QA.
#### Результаты
Проведенные эксперименты показали, что SG-VLM выдает значительное улучшение в рассуждении по времени и причинному следованию по сравнению с базовыми VLMs. Однако наблюдается ограниченное улучшение при сравнении с более мощными VLMs. Модель показала себя хорошо на различных бенчмарках, улучшая результаты в задачах, требующих тонкого рассуждения по времени и пространству. Тем не менее, наблюдаются ограничения в силу текущих ограничений символьных графов и сложности интеграции с VLMs.
#### Значимость
SG-VLM демонстрирует потенциал символьных графов в улучшении проникновения и интерпретируемости VQA. Данная модель может быть применима в области робототехники, медицины, образования и других сферах, где требуется подробный анализ видео. Несмотря на ограничения, найденные результаты показывают, что совмещение VLMs с символьными технологиями может стать ключом к более точной интерпретируемой модели. Мы планируем продолжить исследования, сфокусировавшись на улучшении символьных графов и их интеграции с VLMs.
#### Выводы
Наша исследовательская работа показала, что сценичные графы могут з
Abstract
Video Question Answering (VQA) requires models to reason over spatial,
temporal, and causal cues in videos. Recent vision language models (VLMs)
achieve strong results but often rely on shallow correlations, leading to weak
temporal grounding and limited interpretability. We study symbolic scene graphs
(SGs) as intermediate grounding signals for VQA. SGs provide structured
object-relation representations that complement VLMs holistic reasoning. We
introduce SG-VLM, a modular framework that integrates frozen VLMs with scene
graph grounding via prompting and visual localization. Across three benchmarks
(NExT-QA, iVQA, ActivityNet-QA) and multiple VLMs (QwenVL, InternVL), SG-VLM
improves causal and temporal reasoning and outperforms prior baselines, though
gains over strong VLMs are limited. These findings highlight both the promise
and current limitations of symbolic grounding, and offer guidance for future
hybrid VLM-symbolic approaches in video understanding.
Ссылки и действия
Дополнительные ресурсы: