Decoding the Poetic Language of Emotion in Korean Modern Poetry: Insights from a Human-Labeled Dataset and AI Modeling
2509.03932v1
cs.CL, cs.CY, cs.LG
2025-09-06
Авторы:
Iro Lim, Haein Ji, Byungjun Kim
Резюме на русском
## Контекст
Уже имеющиеся текстовые модели могут недостаточно точно распознавать эмоции в текстах, особенно когда речь идет о поэзии, где язык часто выражается с помощью символизма, аллюзий и культурно специфических структур. Это особенно актуально для культурно уникальной китайской поэзии. Отсутствие достоверных данных и специализированных моделей для распознавания эмоций в текстах мотивирует нас к разработке подхода, который мог бы сочетать компьютерные методы с квалифицированным литературным анализом.
## Метод
Команда разработала датасет с именем KPoEM (Korean Poetry Emotion Mapping), включающий 7,662 эмоциональных записей, полученных из 483 поэм, написанных 4 известными китайскими поэтами. Записи были проанализированы и помечены 44 конкретными культурно-зависимыми эмоциональными категориями. Для обучения использовались веб-скарпинговые технологии для сбора текстов, а для разметки данных привлекались эксперты, которые проводили культурную и литературную экспертизу.
## Результаты
На основании этих данных была обучена модель текстового анализа, которая показала значительное улучшение в точности распознавания эмоций в сравнении с общей моделью, которая была обучена на общем текстовом корпусе. Точность новой модели достигла 0.60 F1-micro, в то время как модель общего текста достигла только 0.34. Это указывает на успешное сочетание технических техник с культурным контекстом.
## Значимость
Разработанный подход может быть применен для досконального изучения эмоционального контента в тексте, особенно в поэзии. Он обладает потенциалом для улучшения текстовой классификации в традиционной китайской поэзии. Это может открыть новые горизонты для квантитативного анализа литературы, позволяя детально изучать эмоциональную структуру текста.
## Выводы
Результаты демонстрируют эффективность использования специализированных датасетов для обучения моделей текстового анализа в контексте культурно-зависимых языковых экспрессий. Будущие исследования будут стремиться улучшить модель, расширив ее на другие культуры и языки, а также использовать эти технологии для других текстовых анализов, таких как анализ новостей или социальных медиа.
Abstract
This study introduces KPoEM (Korean Poetry Emotion Mapping) , a novel dataset
for computational emotion analysis in modern Korean poetry. Despite remarkable
progress in text-based emotion classification using large language models,
poetry-particularly Korean poetry-remains underexplored due to its figurative
language and cultural specificity. We built a multi-label emotion dataset of
7,662 entries, including 7,007 line-level entries from 483 poems and 615
work-level entries, annotated with 44 fine-grained emotion categories from five
influential Korean poets. A state-of-the-art Korean language model fine-tuned
on this dataset significantly outperformed previous models, achieving 0.60
F1-micro compared to 0.34 from models trained on general corpora. The KPoEM
model, trained through sequential fine-tuning-first on general corpora and then
on the KPoEM dataset-demonstrates not only an enhanced ability to identify
temporally and culturally specific emotional expressions, but also a strong
capacity to preserve the core sentiments of modern Korean poetry. This study
bridges computational methods and literary analysis, presenting new
possibilities for the quantitative exploration of poetic emotions through
structured data that faithfully retains the emotional and cultural nuances of
Korean literature.
Ссылки и действия
Дополнительные ресурсы: