Video models are zero-shot learners and reasoners
2509.20328v1
cs.LG, cs.AI, cs.CV, cs.RO
2025-09-26
Авторы:
Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, Shixiang Shane Gu, Nick Matarese, Kevin Swersky, Been Kim, Priyank Jaini, Robert Geirhos
Резюме на русском
## Контекст
В статье рассматривается роль видеомоделей в области общего понимания визуального мира. Несмотря на то, что Large Language Models (LLMs) стали синонимом универсального понимания языка, видеомодели оставались ограниченными в своих применениях. В последнее время видеомодели начали предпринимать похожие шаги к универсальному пониманию, воспринимая и моделируя визуальные данные. Однако их потенциал в области целенаправленного моделирования визуальных задач до сих пор остается неясным. Наша модель, Veo 3, демонстрирует замечательные возможности в решении задач, которым не было явной подготовки. Этот поиск показывает, что видеомодели могут стать генеральными моделями для визуального понимания, аналогично тому, как LLMs стали генеральными моделями для языкового понимания.
## Метод
Мы использовали модель Veo 3, тренированную на данных видео, чтобы протестировать ее возможности в решении различных задач визуального понимания. Наша методика включала использование тестов, в которых модель должна была решать задачи, для которых она не была явно обучена. Тестов включали визуальное разбиение объектов, определение рельефа, редактирование изображений, понимание физических свойств, распознавание аффордансов объектов, моделирование использования инструментов и визуальную резолюцию. Мы сравнивали результаты с другими моделями и экспериментами, чтобы оценить эффективность Veo 3 в этих задачах.
## Результаты
Модель Veo 3 демонстрировала возможности решения широкого спектра задач по визуальному пониманию, которые не были явно заложены в ее обучение. Например, она смогла определить объекты, определить рельеф и физические свойства, а также решать задачи, такие как мазе и симметрия. Особенно заметны явления нулевого запуска (zero-shot learning), когда модель смогла решать задачи, не имея предварительной информации об их решении. Наши результаты также показывают, что Veo 3 имеет потенциал для моделирования визуальных задач в целом, что делает её эффективной в различных визуальных исследованиях.
## Значимость
Наши результаты показывают, что видеомодели, использующие глубокое обучение на видеоданных, могут быть применены во многих областях визуального понимания, основываясь на их возможности решать задачи, не будучи явно обученными к ним. Это демонстрирует рост видеомоделей как крепких, генеральных моделей для визуального понимания. Помимо этого, Veo 3 демонстрирует возможность видеомоделей для решения задач, которые требуют визуальной разборки и моделирования. Это может быть применено в различных областях, таких как поиск изображений, анализ медиа,
Abstract
The remarkable zero-shot capabilities of Large Language Models (LLMs) have
propelled natural language processing from task-specific models to unified,
generalist foundation models. This transformation emerged from simple
primitives: large, generative models trained on web-scale data. Curiously, the
same primitives apply to today's generative video models. Could video models be
on a trajectory towards general-purpose vision understanding, much like LLMs
developed general-purpose language understanding? We demonstrate that Veo 3 can
solve a broad variety of tasks it wasn't explicitly trained for: segmenting
objects, detecting edges, editing images, understanding physical properties,
recognizing object affordances, simulating tool use, and more. These abilities
to perceive, model, and manipulate the visual world enable early forms of
visual reasoning like maze and symmetry solving. Veo's emergent zero-shot
capabilities indicate that video models are on a path to becoming unified,
generalist vision foundation models.