Can Large Models Fool the Eye? A New Turing Test for Biological Animation
2508.06072v1
cs.CV, cs.AI
2025-08-12
Авторы:
Zijian Chen, Lirong Deng, Zhengyu Chen, Kaiwei Zhang, Qi Jia, Yuan Tian, Yucheng Zhu, Guangtao Zhai
Резюме на русском
#### Контекст
В последние годы широко развиваются большие языковые модели (LLMs), которые обладают возможностью обрабатывать и генерировать текст на высоком уровне. Однако оценка их эффективности и размаха возможностей часто остается неполной или недостаточно очевидной. Особенно сложно оценить их умение генерировать биологически правдоподобные анимации, которые требуют не только теоретической знания, но и чувственного восприятия движения. Чтобы заполнить это промежуток, требуется более ясный и интуитивный подход к оценке, который позволит сравнить модели в задачах анимации с высоким уровнем детализации.
#### Метод
Мы предлагаем BioMotion Arena — новую фреймворк для оценки биологической анимации, основная идея которого заключается в использовании визуального восприятия движения. Метод основывается на обработке point-light source imaging, позволяющей усиливать неточности отдельных моделей. Мы проводим парные сравнения 53 LLMs и MLLMs на 90 видах биологических движений. Данные собираются в виде более чем 45 тысяч голосов от пользователей и экспертов. Мы используем этот подход для показа очевидных различий в качестве генерируемых анимаций.
#### Результаты
Наши эксперименты показали, что более 90% из 53 тестируемых моделей, включая самые современные, такие как InternVL3 и Claude-4, не могут генерировать базовые человеческие модели в виде точек и неустойчивые движения. Наши результаты показали, что большинство моделей не способны генерировать биологически правдоподобную анимацию, даже если у них есть доступ к большим объемам данных и высокому вычислительному мощности.
#### Значимость
BioMotion Arena демонстрирует свою ценность в качестве инструмента для детального сравнения моделей в области биологической анимации. Он также позволяет предоставлять более очевидный и интуитивный фидбек для пользователей, что делает его полезным для разработчиков и аналитиков. Этот фреймворк может использоваться в будущем для тестирования новых моделей, а также для выявления ограничений текущих моделей.
#### Выводы
BioMotion Arena открывает новые возможности для проверки качества биологической анимации с помощью графического отображения движения. Мы показали, что даже самые современные модели часто не могут достичь биологического реализма, что делает этот подход ключевым для будущих исследований в области генерируемых движений. Наши результаты открывают новые возможности для повышения качества анимации в различных приложениях, включая медицину, анимацию и игры.
Abstract
Evaluating the abilities of large models and manifesting their gaps are
challenging. Current benchmarks adopt either ground-truth-based score-form
evaluation on static datasets or indistinct textual chatbot-style human
preferences collection, which may not provide users with immediate, intuitive,
and perceptible feedback on performance differences. In this paper, we
introduce BioMotion Arena, a novel framework for evaluating large language
models (LLMs) and multimodal large language models (MLLMs) via visual
animation. Our methodology draws inspiration from the inherent visual
perception of motion patterns characteristic of living organisms that utilizes
point-light source imaging to amplify the performance discrepancies between
models. Specifically, we employ a pairwise comparison evaluation and collect
more than 45k votes for 53 mainstream LLMs and MLLMs on 90 biological motion
variants. Data analyses show that the crowd-sourced human votes are in good
agreement with those of expert raters, demonstrating the superiority of our
BioMotion Arena in offering discriminative feedback. We also find that over
90\% of evaluated models, including the cutting-edge open-source InternVL3 and
proprietary Claude-4 series, fail to produce fundamental humanoid point-light
groups, much less smooth and biologically plausible motions. This enables
BioMotion Arena to serve as a challenging benchmark for performance
visualization and a flexible evaluation framework without restrictions on
ground-truth.
Ссылки и действия
Дополнительные ресурсы: