Strefer: Empowering Video LLMs with Space-Time Referring and Reasoning via Synthetic Instruction Data
2509.03501v1
cs.CV, cs.AI, cs.HC, cs.LG
2025-09-05
Авторы:
Honglu Zhou, Xiangyu Peng, Shrikant Kendre, Michael S. Ryoo, Silvio Savarese, Caiming Xiong, Juan Carlos Niebles
Резюме на русском
## Контекст
На сегодняшний день существуют Video Large Language Models (Video LLMs), которые в наибольшей степени обладают пониманием динамических видеозаписей. Однако они сталкиваются с рядом ограничений при решении задач, затрагивающих спатиотмениальные ссылки в средством обычного видеопонимания. Такие модели не умеют работать с запросами, которые требуют легкого интерпретирования положения объектов в пространстве, а также временальных ссылок для понимания их расположения во времени. Более того, они не могут распространяться на сложные задачи в контексте реальных условий. В этом контексте возникает потребность в развитии Video LLMs, которые бы могли также работать с конкретными спатиотмениальными задачами и ситуациями.
## Метод
Для этого была разработана новая синтетическая фреймворка Strefer. Она основывается на подходе, который генерирует инструкции на основе видеометаданных. Данные фреймворка позволяют получить масштабируемый набор данных, содержащий информацию о расположении и действиях объектов в пространстве и времени. Метод Strefer использует данные о масклетах, временных диапазонах, объектах, их свойствах и действиях. Такой подход позволяет создавать синтетический набор данных, который может корректно интерпретировать видео-LLMs для работы с запросами, требующими определенных спатиотмениальных ссылок.
## Результаты
Результаты испытаний и экспериментов показали, что с помощью фреймворка Strefer модели Video LLMs становятся более точными в понимании спатиотмениальных характеристик. Модели, обученные на данных, сгенерированных Strefer, показали значительное улучшение в выполнении задач, которые требуют различения спатиотмениальных ссылок, сопоставления объектов и расположения в течение времени. Эти модели показали свое превосходство в сравнении с базовыми моделями в задачах решения спатиотмениальных проблем.
## Значимость
Полученные модели могут быть применены в различных областях, в том числе в сфере робототехники, видеомониторинга, здравоохранения и развитии AI-компаньонов. Strefer обеспечивает моделям Video LLMs более тонкий интерпретации пространственных и временных связей, что позволяет им быть более удобными в сложных и реальных условиях. Этот подход также снижает затраты на аннотацию данных, так как основывается на синтетической генерировании метаданных вместо ручной работы.
## Выводы
Выводы, сделанные на основе экспериментов, показали, что модели, обученные на данных, сгенерированных фреймворком Strefer, обладают более развитыми возможностями в спатиотмениальном рассуждении. Это стало новым шагом в развитии Video LLMs для использования в реальных ситуациях. В бу
Abstract
Next-generation AI companions must go beyond general video understanding to
resolve spatial and temporal references in dynamic, real-world environments.
Existing Video Large Language Models (Video LLMs), while capable of
coarse-level comprehension, struggle with fine-grained, spatiotemporal
reasoning, especially when user queries rely on time-based event references for
temporal anchoring, or gestural cues for spatial anchoring to clarify object
references and positions. To bridge this critical gap, we introduce Strefer, a
synthetic instruction data generation framework designed to equip Video LLMs
with spatiotemporal referring and reasoning capabilities. Strefer produces
diverse instruction-tuning data using a data engine that pseudo-annotates
temporally dense, fine-grained video metadata, capturing rich spatial and
temporal information in a structured manner, including subjects, objects, their
locations as masklets, and their action descriptions and timelines. Our
approach enhances the ability of Video LLMs to interpret spatial and temporal
references, fostering more versatile, space-time-aware reasoning essential for
real-world AI companions. Without using proprietary models, costly human
annotation, or the need to annotate large volumes of new videos, experimental
evaluations show that models trained with data produced by Strefer outperform
baselines on tasks requiring spatial and temporal disambiguation. Additionally,
these models exhibit enhanced space-time-aware reasoning, establishing a new
foundation for perceptually grounded, instruction-tuned Video LLMs.