PoeTone: A Framework for Constrained Generation of Structured Chinese Songci with LLMs
2508.02515v1
cs.CL, cs.LG
2025-08-09
Авторы:
Zhan Qu, Shuzhou Yuan, Michael Färber
Резюме на русском
Исследователи изучили потенциал крупных лингвистических моделей (LLMs) для генерирования классического китайского паоши (Songci), характерного строгими структурными, тональными и рифмовыми ограничениями. Для этого разработано систематическое оценивающее рамфармевое, включающее формальную соответствие, лингвистический тестировании посредством LLMs, гуманное оценивание и пробные задачи классификации. Оценивались 18 моделей (3 коммерческие и 15 открытые), используя пять стратегий подсказок: zero-shot, one-shot, completion-based, instruction-tuned и chain-of-thought. Оказалось, что модели с тренировкой под конкретные задачи показали лучшие результаты. Для повышения качества генерации предложен архитектура Generate-Critic, в которой функционирует критическая система оценки, используемая для подкрепленного обучения (SFT), что привело к улучшению соответствия до 5.88%. Результаты демонстрируют сложность генерирования паоши и эффективность развитых методов для такой культурно-значимой и строго ограниченной текстовой генерирования.
Abstract
This paper presents a systematic investigation into the constrained
generation capabilities of large language models (LLMs) in producing Songci, a
classical Chinese poetry form characterized by strict structural, tonal, and
rhyme constraints defined by Cipai templates. We first develop a comprehensive,
multi-faceted evaluation framework that includes: (i) a formal conformity
score, (ii) automated quality assessment using LLMs, (iii) human evaluation,
and (iv) classification-based probing tasks. Using this framework, we evaluate
the generative performance of 18 LLMs, including 3 proprietary models and 15
open-source models across four families, under five prompting strategies:
zero-shot, one-shot, completion-based, instruction-tuned, and chain-of-thought.
Finally, we propose a Generate-Critic architecture in which the evaluation
framework functions as an automated critic. Leveraging the critic's feedback as
a reward signal, we fine-tune three lightweight open-source LLMs via supervised
fine-tuning (SFT), resulting in improvements of up to 5.88% in formal
conformity. Our findings offer new insights into the generative strengths and
limitations of LLMs in producing culturally significant and formally
constrained literary texts.
Ссылки и действия
Дополнительные ресурсы: