Rethinking Creativity Evaluation: A Critical Analysis of Existing Creativity Evaluations

2508.05470v1 cs.CL 2025-08-09

Авторы:

Li-Chun Lu, Miri Liu, Pin-Chun Lu, Yufei Tian, Shao-Hua Sun, Nanyun Peng

Резюме на русском

Метрики творчества, такие как индекс творчества, perplexity, синтаксические шаблоны и ЛМ-как-судья, часто используются для оценки творческих продуктов в различных областях, включая литературу, решение нестандартных задач и идеогенез. Однако исследование "Rethinking Creativity Evaluation: A Critical Analysis of Existing Creativity Evaluations" показало, что эти метрики обладают ограниченной консистентностью и плохо воспринимаются людьми как показатели творчества. Так, индекс творчества ориентируется на лексическую разнообразие, perplexity зависит от уверенности модели, а синтаксические шаблоны не учитывают концептуальную составляющую творчества. ЛМ-как-судья, в свою очередь, проявляет непостоянство и биазы. Основной вывод авторов — необходимость развития более гармоничных и универсальных фреймворков оценки творчества, которые более точно согласовывались бы с человеческими оценками.

Abstract

We systematically examine, analyze, and compare representative creativity measures--creativity index, perplexity, syntactic templates, and LLM-as-a-Judge--across diverse creative domains, including creative writing, unconventional problem-solving, and research ideation. Our analyses reveal that these metrics exhibit limited consistency, capturing different dimensions of creativity. We highlight key limitations, including the creativity index's focus on lexical diversity, perplexity's sensitivity to model confidence, and syntactic templates' inability to capture conceptual creativity. Additionally, LLM-as-a-Judge shows instability and bias. Our findings underscore the need for more robust, generalizable evaluation frameworks that better align with human judgments of creativity.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Rethinking Creativity Evaluation: A Critical Analysis of Existing Creativity Evaluations

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Nexus: Higher-Order Attention Mechanisms in Transformers

On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

ClusterFusion: Hybrid Clustering with Embedding Guidance and LLM Adaptation

SQuARE: Structured Query & Adaptive Retrieval Engine For Tabular Formats

RapidUn: Influence-Driven Parameter Reweighting for Efficient Large Language Mod...

Навигация