Video Parallel Scaling: Aggregating Diverse Frame Subsets for VideoLLMs
2509.08016v1
cs.CV, cs.LG
2025-09-11
Авторы:
Hyungjin Chung, Hyelin Nam, Jiyeon Kim, Hyojun Go, Byeongjun Park, Junho Kim, Joonseok Lee, Seongsu Ha, Byung-Hoon Kim
Резюме на русском
#### Контекст
Видео Large Language Models (VideoLLMs) широко применяются для обработки видео, но сталкиваются с ограничениями в хранении контекста и вычислительной сложностью при работе с большим числом кадров. Обычный подход — увеличить контекстную ширину — приводит к высоким затратам ресурсов и ухудшению качества распознавания. Это приводит к ситуации, когда модели не могут надежно обрабатывать тесно связанные сценарии, что ограничивает их эффективность в реальном мире. В этом контексте возникает необходимость развития методов, позволяющих улучшить временную разрешаемость VideoLLMs без увеличения объема контекста.
#### Метод
Мы предлагаем Video Parallel Scaling (VPS) — метод, который расширяет полость визуального понимания VideoLLMs без увеличения контекста. VPS работает путем выполнения нескольких параллельных потоков инференса, каждый из которых обрабатывает отдельный, непересекающийся набор кадров видео. Эти потоки взаимодействуют в процессе вывода, агрегируя вероятностные репрезентации всех потоков. Это позволяет модели обрабатывать больший объем визуальных сигналов. Теоретически, мы доказали, что VPS эффективно уменьшает требования к ресурсам, справляясь с проблемами, связанными с длинным контекстом. Метод может быть легко интегрирован с разными моделями и декодинговыми стратегиями.
#### Результаты
Мы проводили эксперименты на нескольких моделях VideoLLMs различных размеров (от 2 миллиардов до 32 миллиардов параметров) на таких бенчмарках, как Video-MME и EventHallusion. Результаты показывают, что VPS постоянно улучшает вычислительные показатели и качество распознавания, сравниваясь с другими методами, такими как Self-consistency. Он демонстрирует повышенную эффективность в распознавании сложных сценариев, демонстрируя лучшую стабильность и обработку данных. Кроме того, VPS является выгодным дополнением к другим методам, таким как шифтинг и самоконспиративные стратегии.
#### Значимость
VPS имеет широкие перспективы применения в области видеоанализа, включая мониторинг, сегментацию и синтез видео. Он обеспечивает более точное распознавание длинных и сложных видео, а также значительно экономит ресурсы. Избегая дорогостоящих вычислений при увеличении контекста, VPS позволяет моделям быть более удобными для использования в реальном времени. Этот подход может улучшить возможности видеомоделей для видеомониторинга, синтеза анимации и других важных задач.
#### Выводы
VPS доказал свою эффективность в различных видеомоделях, повысив способность обработки видео. Наши результаты открывают новые возможности для улучшения темпоральных моделей и интеллектуального видеопроцессинга. Мы планируем
Abstract
Video Large Language Models (VideoLLMs) face a critical bottleneck:
increasing the number of input frames to capture fine-grained temporal detail
leads to prohibitive computational costs and performance degradation from long
context lengths. We introduce Video Parallel Scaling (VPS), an inference-time
method that expands a model's perceptual bandwidth without increasing its
context window. VPS operates by running multiple parallel inference streams,
each processing a unique, disjoint subset of the video's frames. By aggregating
the output probabilities from these complementary streams, VPS integrates a
richer set of visual information than is possible with a single pass. We
theoretically show that this approach effectively contracts the Chinchilla
scaling law by leveraging uncorrelated visual evidence, thereby improving
performance without additional training. Extensive experiments across various
model architectures and scales (2B-32B) on benchmarks such as Video-MME and
EventHallusion demonstrate that VPS consistently and significantly improves
performance. It scales more favorably than other parallel alternatives (e.g.
Self-consistency) and is complementary to other decoding strategies, offering a
memory-efficient and robust framework for enhancing the temporal reasoning
capabilities of VideoLLMs.
Ссылки и действия
Дополнительные ресурсы: