PoeTone: A Framework for Constrained Generation of Structured Chinese Songci with LLMs

2508.02515v1 cs.CL, cs.LG 2025-08-09
Авторы:

Zhan Qu, Shuzhou Yuan, Michael Färber

Резюме на русском

Исследователи изучили потенциал крупных лингвистических моделей (LLMs) для генерирования классического китайского паоши (Songci), характерного строгими структурными, тональными и рифмовыми ограничениями. Для этого разработано систематическое оценивающее рамфармевое, включающее формальную соответствие, лингвистический тестировании посредством LLMs, гуманное оценивание и пробные задачи классификации. Оценивались 18 моделей (3 коммерческие и 15 открытые), используя пять стратегий подсказок: zero-shot, one-shot, completion-based, instruction-tuned и chain-of-thought. Оказалось, что модели с тренировкой под конкретные задачи показали лучшие результаты. Для повышения качества генерации предложен архитектура Generate-Critic, в которой функционирует критическая система оценки, используемая для подкрепленного обучения (SFT), что привело к улучшению соответствия до 5.88%. Результаты демонстрируют сложность генерирования паоши и эффективность развитых методов для такой культурно-значимой и строго ограниченной текстовой генерирования.

Abstract

This paper presents a systematic investigation into the constrained generation capabilities of large language models (LLMs) in producing Songci, a classical Chinese poetry form characterized by strict structural, tonal, and rhyme constraints defined by Cipai templates. We first develop a comprehensive, multi-faceted evaluation framework that includes: (i) a formal conformity score, (ii) automated quality assessment using LLMs, (iii) human evaluation, and (iv) classification-based probing tasks. Using this framework, we evaluate the generative performance of 18 LLMs, including 3 proprietary models and 15 open-source models across four families, under five prompting strategies: zero-shot, one-shot, completion-based, instruction-tuned, and chain-of-thought. Finally, we propose a Generate-Critic architecture in which the evaluation framework functions as an automated critic. Leveraging the critic's feedback as a reward signal, we fine-tune three lightweight open-source LLMs via supervised fine-tuning (SFT), resulting in improvements of up to 5.88% in formal conformity. Our findings offer new insights into the generative strengths and limitations of LLMs in producing culturally significant and formally constrained literary texts.

Ссылки и действия