Can Large Models Fool the Eye? A New Turing Test for Biological Animation

2508.06072v1 cs.CV, cs.AI 2025-08-12

Авторы:

Zijian Chen, Lirong Deng, Zhengyu Chen, Kaiwei Zhang, Qi Jia, Yuan Tian, Yucheng Zhu, Guangtao Zhai

Резюме на русском

#### Контекст В последние годы широко развиваются большие языковые модели (LLMs), которые обладают возможностью обрабатывать и генерировать текст на высоком уровне. Однако оценка их эффективности и размаха возможностей часто остается неполной или недостаточно очевидной. Особенно сложно оценить их умение генерировать биологически правдоподобные анимации, которые требуют не только теоретической знания, но и чувственного восприятия движения. Чтобы заполнить это промежуток, требуется более ясный и интуитивный подход к оценке, который позволит сравнить модели в задачах анимации с высоким уровнем детализации. #### Метод Мы предлагаем BioMotion Arena — новую фреймворк для оценки биологической анимации, основная идея которого заключается в использовании визуального восприятия движения. Метод основывается на обработке point-light source imaging, позволяющей усиливать неточности отдельных моделей. Мы проводим парные сравнения 53 LLMs и MLLMs на 90 видах биологических движений. Данные собираются в виде более чем 45 тысяч голосов от пользователей и экспертов. Мы используем этот подход для показа очевидных различий в качестве генерируемых анимаций. #### Результаты Наши эксперименты показали, что более 90% из 53 тестируемых моделей, включая самые современные, такие как InternVL3 и Claude-4, не могут генерировать базовые человеческие модели в виде точек и неустойчивые движения. Наши результаты показали, что большинство моделей не способны генерировать биологически правдоподобную анимацию, даже если у них есть доступ к большим объемам данных и высокому вычислительному мощности. #### Значимость BioMotion Arena демонстрирует свою ценность в качестве инструмента для детального сравнения моделей в области биологической анимации. Он также позволяет предоставлять более очевидный и интуитивный фидбек для пользователей, что делает его полезным для разработчиков и аналитиков. Этот фреймворк может использоваться в будущем для тестирования новых моделей, а также для выявления ограничений текущих моделей. #### Выводы BioMotion Arena открывает новые возможности для проверки качества биологической анимации с помощью графического отображения движения. Мы показали, что даже самые современные модели часто не могут достичь биологического реализма, что делает этот подход ключевым для будущих исследований в области генерируемых движений. Наши результаты открывают новые возможности для повышения качества анимации в различных приложениях, включая медицину, анимацию и игры.

Abstract

Evaluating the abilities of large models and manifesting their gaps are challenging. Current benchmarks adopt either ground-truth-based score-form evaluation on static datasets or indistinct textual chatbot-style human preferences collection, which may not provide users with immediate, intuitive, and perceptible feedback on performance differences. In this paper, we introduce BioMotion Arena, a novel framework for evaluating large language models (LLMs) and multimodal large language models (MLLMs) via visual animation. Our methodology draws inspiration from the inherent visual perception of motion patterns characteristic of living organisms that utilizes point-light source imaging to amplify the performance discrepancies between models. Specifically, we employ a pairwise comparison evaluation and collect more than 45k votes for 53 mainstream LLMs and MLLMs on 90 biological motion variants. Data analyses show that the crowd-sourced human votes are in good agreement with those of expert raters, demonstrating the superiority of our BioMotion Arena in offering discriminative feedback. We also find that over 90\% of evaluated models, including the cutting-edge open-source InternVL3 and proprietary Claude-4 series, fail to produce fundamental humanoid point-light groups, much less smooth and biologically plausible motions. This enables BioMotion Arena to serve as a challenging benchmark for performance visualization and a flexible evaluation framework without restrictions on ground-truth.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Can Large Models Fool the Eye? A New Turing Test for Biological Animation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация