Express4D: Expressive, Friendly, and Extensible 4D Facial Motion Generation Benchmark
2508.12438v1
cs.GR, cs.CV
2025-08-20
Авторы:
Yaron Aloni, Rotem Shalev-Arkushin, Yonatan Shafir, Guy Tevet, Ohad Fried, Amit Haim Bermano
Резюме на русском
#### Контекст
Динамическая генерация выразительных лицевых эмоций на основе естественного языка является ключевым заданием в Computer Graphics, применяющимся в анимации, виртуальных аватарах и интерактивных системах человеко-компьютера. Однако существующие модели генерируют лицевые эмоции, основываясь на речи или ограниченных эмоциональных меток, не обладая способностью к выразительному контролю. Такие модели также требуют сложных и дорогих систем камер для получения данных для обучения. Наша цель — разработать данный, легкий в использовании и надежный для широкого применения в графике и виртуальных средах.
#### Метод
Мы сформировали свой доступный набор данных, Express4D, в формате ARKit blendshape. Это позволяет получить выразительные и гибкие лицевые модели. Данные были собраны с помощью набора коммерческих возможностей, включая легкодоступные системы мобильных устройств. Мы использовали генеративные модели естественного языка (LLM) для получения естественных инструкций. Эти инструкции были использованы для управления выразительными лицевыми позывами. Были обучены две модели для текст-to-expression, которые могут генерировать динамические лицевые модели на основе естественного языка. Эти модели позволяют контролировать лицевые модели на основе естественного языка и охватить много-многомерное преобразование между текстом и эмоциональными эффектами.
#### Результаты
Мы провели эксперименты с двумя моделями текст-to-expression, которые были обучены на нашем наборе данных Express4D. Эти модели показали выдающиеся результаты в генерации выразительных лицевых эмоций. Мы использовали набор данных для тестирования двух моделей генерации лицевых эмоций, которые смогли захватить тонкие оттенки эмоций и обеспечить гибкость в динамической генерации. Мы также проверили качество генерируемых моделей стандартными метриками и выполнили сравнения с другими подходами.
#### Значимость
Express4D может применяться в области анимации, виртуальных аватаров и интерактивных систем. Этот набор данных открывает возможность создания более выразительных и динамичных лицевых моделей. Он предлагает преимущества в том, что модели генерируются из естественного языка, позволяя значительно упростить процесс анимации. В будущем мы планируем расширить набор данных, улучшить модели генерации и применить нашу технологию к другим сценариям, таким как видеоредактирование и динамическое отображение эмоций в реальном времени.
#### Выводы
Мы представили новый набор данных Express4D, который добавляет новый уровень выразительности в генерацию лицевых эмоций. Мы доказали, что наша модель генерирует лицевые эмоции, которые
Abstract
Dynamic facial expression generation from natural language is a crucial task
in Computer Graphics, with applications in Animation, Virtual Avatars, and
Human-Computer Interaction. However, current generative models suffer from
datasets that are either speech-driven or limited to coarse emotion labels,
lacking the nuanced, expressive descriptions needed for fine-grained control,
and were captured using elaborate and expensive equipment. We hence present a
new dataset of facial motion sequences featuring nuanced performances and
semantic annotation. The data is easily collected using commodity equipment and
LLM-generated natural language instructions, in the popular ARKit blendshape
format. This provides riggable motion, rich with expressive performances and
labels. We accordingly train two baseline models, and evaluate their
performance for future benchmarking. Using our Express4D dataset, the trained
models can learn meaningful text-to-expression motion generation and capture
the many-to-many mapping of the two modalities. The dataset, code, and video
examples are available on our webpage: https://jaron1990.github.io/Express4D/
Ссылки и действия
Дополнительные ресурсы: