Fine-Tuning Large Multimodal Models for Automatic Pronunciation Assessment

2509.15701v1 cs.CL, cs.SD, eess.AS 2025-09-23

Авторы:

Ke Wang, Wenning Wei, Yan Deng, Lei He, Sheng Zhao

Резюме на русском

#### Контекст Automatic Pronunciation Assessment (APA) является ключевым компонентом Computer-Assisted Language Learning (CALL), позволяя оценивать речевые навыки студентов в различных аспектах и уровнях гранулярности. Однако, существующие методы часто сталкиваются с ограничениями в точности, гибкости и объеме обучающих данных. Большие multimodal models (LMMs), в свою очередь, предлагают новые возможности для решения этих проблем, однако их применение в области APA еще низкозадействовано. Мотивация исследования заключается в исследовании возможностей LMMs для fine-grained assessment в CALL и определении их преимуществ и ограничений в этой области. #### Метод Для исследования использовался Speechocean762 dataset, а также специальный private corpus, содержащий записи речи и метки для оценки произношения. Методология включала fine-tuning LMMs с помощью transfer learning на основе задачи classification. Модель обучалась на знакомом датасете и адаптировалась к новым данным с помощью fine-tuning. Для оценки результатов использовались Pearson Correlation Coefficient (PCC) и Spearman's rank Correlation Coefficient (SCC), которые позволяют измерить корреляцию между прогностическими и тестовыми оценками. Набор экспериментов включал fine-grained assessment на разных гранулярностях: phoneme, word и sentence levels. #### Результаты Fine-tuning LMMs позволило значительно повысить эффективность по сравнению с zero-shot настройкой. Модель показала высокую точность на word и sentence levels, предоставляя результаты, конкурентоспособные с public и commercial systems. Однако phoneme-level assessment остается сложной задачей, где LMMs показывают существенные ограничения. PCC достиг 0.9, что указывает на высокую корреляцию, но SCC остался на уровне 0.6, что отражает несовершенство ordinal consistency в сравнении с PCC. #### Значимость Полученные результаты открывают перспективы применения LMMs в CALL, особенно для fine-grained assessment в CALL. Модель демонстрирует высокую эффективность в word и sentence levels, что может быть использовано для оценки прогресса студентов в речевых навыках. Тем не менее, существующие ограничения в phoneme-level assessment требуют дальнейших исследований. Направления будущих исследований могут включать развитие fine-grained modeling, а также рассмотрение rank-aware evaluation для более точной оценки ordinal consistency. #### Выводы Исследование показало, что fine-tuning LMMs является эффективным способом улучшения Automatic Pronunciation Assessment в CALL. Однако, существуют ограничения, особенно в phoneme-level assessment, которые требуют дополнительных исследований. Общий потенциал LMMs в CALL очевиден, и дальнейшие работы могут сфокусироваться на развитии более точных и rank-aware моделей.

Abstract

Automatic Pronunciation Assessment (APA) is critical for Computer-Assisted Language Learning (CALL), requiring evaluation across multiple granularities and aspects. Large Multimodal Models (LMMs) present new opportunities for APA, but their effectiveness in fine-grained assessment remains uncertain. This work investigates fine-tuning LMMs for APA using the Speechocean762 dataset and a private corpus. Fine-tuning significantly outperforms zero-shot settings and achieves competitive results on single-granularity tasks compared to public and commercial systems. The model performs well at word and sentence levels, while phoneme-level assessment remains challenging. We also observe that the Pearson Correlation Coefficient (PCC) reaches 0.9, whereas Spearman's rank Correlation Coefficient (SCC) remains around 0.6, suggesting that SCC better reflects ordinal consistency. These findings highlight both the promise and limitations of LMMs for APA and point to future work on fine-grained modeling and rank-aware evaluation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Fine-Tuning Large Multimodal Models for Automatic Pronunciation Assessment

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Joint Speech and Text Training for LLM-Based End-to-End Spoken Dialogue State Tr...

Mispronunciation Detection and Diagnosis Without Model Training: A Retrieval-Bas...

Proactive Hearing Assistants that Isolate Egocentric Conversations

Hallucination Benchmark for Speech Foundation Models

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Predic...

Навигация