#### Контекст
Современные языковые модели (LLM) обладают возможностью генерировать тексты, которые, как полагается, должны быть более творческими, чем те, которые предлагаются в исходной модели. Одна из метрик, наиболее часто используемой для оценки творчества текста, — n-gram novelty. Она определяет то, насколько уникален текст по сравнению с текстами, известными модели. Однако теоретические работы по творчеству подчеркивают, что n-gram novelty недостаточно, так как не учитывает две ключевые составляющие творчества: **новизну** (originality) и **прагматичность** (appropriateness). Это делает n-gram novelty неполной метрикой для оценки творчества. Мы исследуем эту проблему, используя огромное количество экспертных аннотаций (7542), которые оценивают не только новизну, но и значение текста владельцам языка — прагматичность и сочетательность.
#### Метод
Мы разработали специальный корпус данных, включающий тексты, генерируемые как людьми, так и ЛЛМ. Эти тексты были аннотированы экспертами-писателями, которые оценивали каждый текст по трем критериям: **новизна** (новизна выражения), **прагматичность** (то, насколько выражение соответствует логике и контексту) и **сочетательность** (то, насколько текст естественно звучит). Эти аннотации позволяют нам изучить, насколько хорошо n-gram novelty соответствует экспертным оценкам. В этом исследовании мы также проверяем, насколько хорошо модели себя чувствуют, определяя творческие или непрагматичные выражения.
#### Результаты
Мы обнаружили, что n-gram novelty была положительно связана с высокими оценками экспертов по творчеству, но существуют существенные ограничения. В частности, примерно 91% текстов, наиболее высоко оцененных по n-gram novelty, не были расценены как творческие. Это указывает на то, что n-gram novelty не может быть использовано в качестве однозначной метрики для творчества. Мы также обнаружили, что более высокая n-gram novelty в LLMs приводит к низкой прагматичности. Таким образом, ЛЛМ могут генерировать оригинальные тексты, но их выражения часто не соответствуют контексту. Наши эксперименты показали, что frontier LLMs способны выделять такие выражения, но их результаты остаются недостаточно точными.
#### Значимость
Этот результат имеет значение для области текстовой генерации и творчества. Наше исследование показывает, что творчество не может быть оценено только через n-gram novelty, и что для того, чтобы модели LLM становились более творческими, необходимо улучшить их возможности различить непрагматичные выражения. Мы также показываем, что модели LLM могут быть использованы для оценки творчества, но их моделируемое поведение пока не достигает у