Decoding the Poetic Language of Emotion in Korean Modern Poetry: Insights from a Human-Labeled Dataset and AI Modeling

2509.03932v1 cs.CL, cs.CY, cs.LG 2025-09-06

Авторы:

Iro Lim, Haein Ji, Byungjun Kim

Резюме на русском

## Контекст Уже имеющиеся текстовые модели могут недостаточно точно распознавать эмоции в текстах, особенно когда речь идет о поэзии, где язык часто выражается с помощью символизма, аллюзий и культурно специфических структур. Это особенно актуально для культурно уникальной китайской поэзии. Отсутствие достоверных данных и специализированных моделей для распознавания эмоций в текстах мотивирует нас к разработке подхода, который мог бы сочетать компьютерные методы с квалифицированным литературным анализом. ## Метод Команда разработала датасет с именем KPoEM (Korean Poetry Emotion Mapping), включающий 7,662 эмоциональных записей, полученных из 483 поэм, написанных 4 известными китайскими поэтами. Записи были проанализированы и помечены 44 конкретными культурно-зависимыми эмоциональными категориями. Для обучения использовались веб-скарпинговые технологии для сбора текстов, а для разметки данных привлекались эксперты, которые проводили культурную и литературную экспертизу. ## Результаты На основании этих данных была обучена модель текстового анализа, которая показала значительное улучшение в точности распознавания эмоций в сравнении с общей моделью, которая была обучена на общем текстовом корпусе. Точность новой модели достигла 0.60 F1-micro, в то время как модель общего текста достигла только 0.34. Это указывает на успешное сочетание технических техник с культурным контекстом. ## Значимость Разработанный подход может быть применен для досконального изучения эмоционального контента в тексте, особенно в поэзии. Он обладает потенциалом для улучшения текстовой классификации в традиционной китайской поэзии. Это может открыть новые горизонты для квантитативного анализа литературы, позволяя детально изучать эмоциональную структуру текста. ## Выводы Результаты демонстрируют эффективность использования специализированных датасетов для обучения моделей текстового анализа в контексте культурно-зависимых языковых экспрессий. Будущие исследования будут стремиться улучшить модель, расширив ее на другие культуры и языки, а также использовать эти технологии для других текстовых анализов, таких как анализ новостей или социальных медиа.

Abstract

This study introduces KPoEM (Korean Poetry Emotion Mapping) , a novel dataset for computational emotion analysis in modern Korean poetry. Despite remarkable progress in text-based emotion classification using large language models, poetry-particularly Korean poetry-remains underexplored due to its figurative language and cultural specificity. We built a multi-label emotion dataset of 7,662 entries, including 7,007 line-level entries from 483 poems and 615 work-level entries, annotated with 44 fine-grained emotion categories from five influential Korean poets. A state-of-the-art Korean language model fine-tuned on this dataset significantly outperformed previous models, achieving 0.60 F1-micro compared to 0.34 from models trained on general corpora. The KPoEM model, trained through sequential fine-tuning-first on general corpora and then on the KPoEM dataset-demonstrates not only an enhanced ability to identify temporally and culturally specific emotional expressions, but also a strong capacity to preserve the core sentiments of modern Korean poetry. This study bridges computational methods and literary analysis, presenting new possibilities for the quantitative exploration of poetic emotions through structured data that faithfully retains the emotional and cultural nuances of Korean literature.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Decoding the Poetic Language of Emotion in Korean Modern Poetry: Insights from a Human-Labeled Dataset and AI Modeling

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PRSM: A Measure to Evaluate CLIP's Robustness Against Paraphrases

Value Drifts: Tracing Value Alignment During LLM Post-Training

Evaluating LLMs for Demographic-Targeted Social Bias Detection: A Comprehensive ...

Intrinsic Meets Extrinsic Fairness: Assessing the Downstream Impact of Bias Miti...

LLM Analysis of 150+ years of German Parliamentary Debates on Migration Reveals ...

Навигация