A Rhythm-Aware Phrase Insertion for Classical Arabic Poetry Composition

2509.18514v1 cs.CL, cs.AI, cs.LG 2025-09-25
Авторы:

Mohamad Elzohbi, Richard Zhao

Резюме на русском

## Контекст Классическая арабская поэзия является важной частью культурного наследия и традиций Магреба и Персидского залива. Однако создание поэзии, соответствующей требованиям различных метрических и ритмических схем, часто требует особых знаний и навыков. Искусственный интеллект может стать полезным инструментом для автоматизации этого процесса, но существуют сложности в том, чтобы генерировать стихи, сочетающие ритмичную точность и семантическую значимость. Наличие различных правил и способов воспроизведения ритма в различных регионах далее усложняет этот процесс. Этот исследовательский подход направлен на создание метода, который бы включал эти ритмические схемы, сохраняя естественность и смысловую нагрузку стихов. ## Метод Метод, представленный в работе, основывается на многоязычном трансформерном модели ByT5, которая носит байт-уровневую природу. Основной метод устанавливает соответствие между словами и битами, используя графема-на-ритм преобразование. Для извлечения ритма из полностью диакритизированного арабского алфавита используется задача условного маскированного сбрасывания шума с помощью ByT5. Модель настраивается с помощью условного целевого функционирования, где целью является восстановление маскированных слов таким образом, чтобы соответствовать требуемому ритму. Для развития модели включена стратегия учебного цикла, которая включает в себя предварительную обучение на общем датасете арабских текстов, затем тонкое настройку на поэтическом датасете. Также исследуется передача кросс-языковой коммуникации с английского языка на арабский. ## Результаты Эксперименты проводились на поэтических датасетах в различных стихийных схемах. Результаты показывают, что модель ByT5 хорошо подходит для генерирования стихов, соответствующих ритмическим схемам, при этом сохраняя семантический контекст. Модель показала высокую точность ритмического соответствия без значительного потери смысловой нагрузки. Также был продемонстрирован положительный эффект кросс-языковой передачи, что демонстрирует потенциал модели в области создания классической поэзии в различных языковых окружениях. ## Значимость Метод, представленный в работе, может быть применен в сфере креативных технологий, в том числе для создания классической поэзии, автоматизации ритмического анализа, или композиции стихов в различных языковых регионах. Это предлагаемое решение имеет потенциал для расширения возможностей в искусственном творчестве, позволяя тво

Abstract

This paper presents a methodology for inserting phrases in Arabic poems to conform to a specific rhythm using ByT5, a byte-level multilingual transformer-based model. Our work discusses a rule-based grapheme-to-beat transformation tailored for extracting the rhythm from fully diacritized Arabic script. Our approach employs a conditional denoising objective to fine-tune ByT5, where the model reconstructs masked words to match a target rhythm. We adopt a curriculum learning strategy, pre-training on a general Arabic dataset before fine-tuning on poetic dataset, and explore cross-lingual transfer from English to Arabic. Experimental results demonstrate that our models achieve high rhythmic alignment while maintaining semantic coherence. The proposed model has the potential to be used in co-creative applications in the process of composing classical Arabic poems.

Ссылки и действия