Video Parallel Scaling: Aggregating Diverse Frame Subsets for VideoLLMs

2509.08016v1 cs.CV, cs.LG 2025-09-11
Авторы:

Hyungjin Chung, Hyelin Nam, Jiyeon Kim, Hyojun Go, Byeongjun Park, Junho Kim, Joonseok Lee, Seongsu Ha, Byung-Hoon Kim

Резюме на русском

#### Контекст Видео Large Language Models (VideoLLMs) широко применяются для обработки видео, но сталкиваются с ограничениями в хранении контекста и вычислительной сложностью при работе с большим числом кадров. Обычный подход — увеличить контекстную ширину — приводит к высоким затратам ресурсов и ухудшению качества распознавания. Это приводит к ситуации, когда модели не могут надежно обрабатывать тесно связанные сценарии, что ограничивает их эффективность в реальном мире. В этом контексте возникает необходимость развития методов, позволяющих улучшить временную разрешаемость VideoLLMs без увеличения объема контекста. #### Метод Мы предлагаем Video Parallel Scaling (VPS) — метод, который расширяет полость визуального понимания VideoLLMs без увеличения контекста. VPS работает путем выполнения нескольких параллельных потоков инференса, каждый из которых обрабатывает отдельный, непересекающийся набор кадров видео. Эти потоки взаимодействуют в процессе вывода, агрегируя вероятностные репрезентации всех потоков. Это позволяет модели обрабатывать больший объем визуальных сигналов. Теоретически, мы доказали, что VPS эффективно уменьшает требования к ресурсам, справляясь с проблемами, связанными с длинным контекстом. Метод может быть легко интегрирован с разными моделями и декодинговыми стратегиями. #### Результаты Мы проводили эксперименты на нескольких моделях VideoLLMs различных размеров (от 2 миллиардов до 32 миллиардов параметров) на таких бенчмарках, как Video-MME и EventHallusion. Результаты показывают, что VPS постоянно улучшает вычислительные показатели и качество распознавания, сравниваясь с другими методами, такими как Self-consistency. Он демонстрирует повышенную эффективность в распознавании сложных сценариев, демонстрируя лучшую стабильность и обработку данных. Кроме того, VPS является выгодным дополнением к другим методам, таким как шифтинг и самоконспиративные стратегии. #### Значимость VPS имеет широкие перспективы применения в области видеоанализа, включая мониторинг, сегментацию и синтез видео. Он обеспечивает более точное распознавание длинных и сложных видео, а также значительно экономит ресурсы. Избегая дорогостоящих вычислений при увеличении контекста, VPS позволяет моделям быть более удобными для использования в реальном времени. Этот подход может улучшить возможности видеомоделей для видеомониторинга, синтеза анимации и других важных задач. #### Выводы VPS доказал свою эффективность в различных видеомоделях, повысив способность обработки видео. Наши результаты открывают новые возможности для улучшения темпоральных моделей и интеллектуального видеопроцессинга. Мы планируем

Abstract

Video Large Language Models (VideoLLMs) face a critical bottleneck: increasing the number of input frames to capture fine-grained temporal detail leads to prohibitive computational costs and performance degradation from long context lengths. We introduce Video Parallel Scaling (VPS), an inference-time method that expands a model's perceptual bandwidth without increasing its context window. VPS operates by running multiple parallel inference streams, each processing a unique, disjoint subset of the video's frames. By aggregating the output probabilities from these complementary streams, VPS integrates a richer set of visual information than is possible with a single pass. We theoretically show that this approach effectively contracts the Chinchilla scaling law by leveraging uncorrelated visual evidence, thereby improving performance without additional training. Extensive experiments across various model architectures and scales (2B-32B) on benchmarks such as Video-MME and EventHallusion demonstrate that VPS consistently and significantly improves performance. It scales more favorably than other parallel alternatives (e.g. Self-consistency) and is complementary to other decoding strategies, offering a memory-efficient and robust framework for enhancing the temporal reasoning capabilities of VideoLLMs.

Ссылки и действия