Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

2509.22641v1 cs.CL, cs.AI, cs.HC 2025-09-30
Авторы:

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan, Tuhin Chakrabarty

Резюме на русском

#### Контекст Современные языковые модели (LLM) обладают возможностью генерировать тексты, которые, как полагается, должны быть более творческими, чем те, которые предлагаются в исходной модели. Одна из метрик, наиболее часто используемой для оценки творчества текста, — n-gram novelty. Она определяет то, насколько уникален текст по сравнению с текстами, известными модели. Однако теоретические работы по творчеству подчеркивают, что n-gram novelty недостаточно, так как не учитывает две ключевые составляющие творчества: **новизну** (originality) и **прагматичность** (appropriateness). Это делает n-gram novelty неполной метрикой для оценки творчества. Мы исследуем эту проблему, используя огромное количество экспертных аннотаций (7542), которые оценивают не только новизну, но и значение текста владельцам языка — прагматичность и сочетательность. #### Метод Мы разработали специальный корпус данных, включающий тексты, генерируемые как людьми, так и ЛЛМ. Эти тексты были аннотированы экспертами-писателями, которые оценивали каждый текст по трем критериям: **новизна** (новизна выражения), **прагматичность** (то, насколько выражение соответствует логике и контексту) и **сочетательность** (то, насколько текст естественно звучит). Эти аннотации позволяют нам изучить, насколько хорошо n-gram novelty соответствует экспертным оценкам. В этом исследовании мы также проверяем, насколько хорошо модели себя чувствуют, определяя творческие или непрагматичные выражения. #### Результаты Мы обнаружили, что n-gram novelty была положительно связана с высокими оценками экспертов по творчеству, но существуют существенные ограничения. В частности, примерно 91% текстов, наиболее высоко оцененных по n-gram novelty, не были расценены как творческие. Это указывает на то, что n-gram novelty не может быть использовано в качестве однозначной метрики для творчества. Мы также обнаружили, что более высокая n-gram novelty в LLMs приводит к низкой прагматичности. Таким образом, ЛЛМ могут генерировать оригинальные тексты, но их выражения часто не соответствуют контексту. Наши эксперименты показали, что frontier LLMs способны выделять такие выражения, но их результаты остаются недостаточно точными. #### Значимость Этот результат имеет значение для области текстовой генерации и творчества. Наше исследование показывает, что творчество не может быть оценено только через n-gram novelty, и что для того, чтобы модели LLM становились более творческими, необходимо улучшить их возможности различить непрагматичные выражения. Мы также показываем, что модели LLM могут быть использованы для оценки творчества, но их моделируемое поведение пока не достигает у

Abstract

N-gram novelty is widely used to evaluate language models' ability to generate text outside of their training data. More recently, it has also been adopted as a metric for measuring textual creativity. However, theoretical work on creativity suggests that this approach may be inadequate, as it does not account for creativity's dual nature: novelty (how original the text is) and appropriateness (how sensical and pragmatic it is). We investigate the relationship between this notion of creativity and n-gram novelty through 7542 expert writer annotations (n=26) of novelty, pragmaticality, and sensicality via close reading of human and AI-generated text. We find that while n-gram novelty is positively associated with expert writer-judged creativity, ~91% of top-quartile expressions by n-gram novelty are not judged as creative, cautioning against relying on n-gram novelty alone. Furthermore, unlike human-written text, higher n-gram novelty in open-source LLMs correlates with lower pragmaticality. In an exploratory study with frontier close-source models, we additionally confirm that they are less likely to produce creative expressions than humans. Using our dataset, we test whether zero-shot, few-shot, and finetuned models are able to identify creative expressions (a positive aspect of writing) and non-pragmatic ones (a negative aspect). Overall, frontier LLMs exhibit performance much higher than random but leave room for improvement, especially struggling to identify non-pragmatic expressions. We further find that LLM-as-a-Judge novelty scores from the best-performing model were predictive of expert writer preferences.

Ссылки и действия