Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs

2509.22646v1 cs.CV, cs.AI, cs.CL 2025-09-30
Авторы:

Xingyu Fu, Siyi Liu, Yinuo Xu, Pan Lu, Guangqiuse Hu, Tianbo Yang, Taran Anantasagar, Christopher Shen, Yikai Mao, Yuanzhe Liu, Keyush Shah, Chung Un Lee, Yejin Choi, James Zou, Dan Roth, Chris Callison-Burch

Резюме на русском

## Контекст С ростом технологий генерации видео с помощью искусственного интеллекта (ИИ) возникла необходимость в их качественной оценке. Одной из ключевых проблем является возможность человека распознать "deepfake" (искусственно созданные) видео и предоставить обоснованные причины для этого. Несмотря на то, что генеративные модели видео в последние годы демонстрируют впечатляющий прогресс, фундаментальный вопрос о том, насколько эффективно человеческое восприятие может отличить глубокие подделки от реальных видео, остается практически нераскрытым. Многие исследования концентрируются на общем распознавании "deepfake", но не учитывают тонкие, визуально-спатिотамоубразные признаки, которые могут сокрыться в специфических моментах видео. Это приводит к отсутствию подробных, гранулярных бенчмарков для оценки таких характеристик. Этот доклад предлагает первый детальный, спатиотами и временными каналами аналитически обоснованный подход к этой проблеме. ## Метод Для решения этой проблемы мы предлагаем **DeeptraceReward** — новый, тонкий, временно- и пространственно-аналитический бенчмарк для оценки качества генерации видео. Этот базовый моделирование подход состоит из 4.3K точных аннотаций, охватывающих 3.3K видео, где каждая аннотация включает в себя натурально-языковую описание, баундинговые рамки, содержащие визуальные признаки, а также точные временные метки начала и конца. Мы использовали эти аннотации для построения моделей, которые могут рекомендовать глубокие подделки и осмысленно объяснить свои выборы. Мы подготовили 9 классов основных признаков, которые человеческое восприятие считает критичными для распознавания "deepfake", и обучили многомодальные языковые модели (LLMs) для симуляции этих критериев. ## Результаты Мы проверили нашу модель на DeeptraceReward и сравнили ее с GPT-5. Наша модель 7B решает задачу распознавания "deepfake" с более высокой точностью — 34.7% по сравнению с GPT-5, особенно в случаях, когда необходимо предоставить глубокие причины и расположение визуальных признаков. Мы также выявили градус сложности в различных аспектах распознавания: наиболее простой — идентификация "deepfake" в целом, самая сложная — гранулярная оценка временных и пространственных признаков. ## Значимость Наш подход имеет широкие потенциальные применения в области оценки качества видео, в том числе генерации "deepfake", проверки видеонадлежащества и создания доверительных моделей генеративной технологии. Наши результаты показывают, что многомодальные языковые модели могут эффективно симулировать человеческое восприятие и применять

Abstract

Can humans identify AI-generated (fake) videos and provide grounded reasons? While video generation models have advanced rapidly, a critical dimension -- whether humans can detect deepfake traces within a generated video, i.e., spatiotemporal grounded visual artifacts that reveal a video as machine generated -- has been largely overlooked. We introduce DeeptraceReward, the first fine-grained, spatially- and temporally- aware benchmark that annotates human-perceived fake traces for video generation reward. The dataset comprises 4.3K detailed annotations across 3.3K high-quality generated videos. Each annotation provides a natural-language explanation, pinpoints a bounding-box region containing the perceived trace, and marks precise onset and offset timestamps. We consolidate these annotations into 9 major categories of deepfake traces that lead humans to identify a video as AI-generated, and train multimodal language models (LMs) as reward models to mimic human judgments and localizations. On DeeptraceReward, our 7B reward model outperforms GPT-5 by 34.7% on average across fake clue identification, grounding, and explanation. Interestingly, we observe a consistent difficulty gradient: binary fake v.s. real classification is substantially easier than fine-grained deepfake trace detection; within the latter, performance degrades from natural language explanations (easiest), to spatial grounding, to temporal labeling (hardest). By foregrounding human-perceived deepfake traces, DeeptraceReward provides a rigorous testbed and training signal for socially aware and trustworthy video generation.

Ссылки и действия