Fine-Tuning Large Multimodal Models for Automatic Pronunciation Assessment
2509.15701v1
cs.CL, cs.SD, eess.AS
2025-09-23
Авторы:
Ke Wang, Wenning Wei, Yan Deng, Lei He, Sheng Zhao
Резюме на русском
#### Контекст
Automatic Pronunciation Assessment (APA) является ключевым компонентом Computer-Assisted Language Learning (CALL), позволяя оценивать речевые навыки студентов в различных аспектах и уровнях гранулярности. Однако, существующие методы часто сталкиваются с ограничениями в точности, гибкости и объеме обучающих данных. Большие multimodal models (LMMs), в свою очередь, предлагают новые возможности для решения этих проблем, однако их применение в области APA еще низкозадействовано. Мотивация исследования заключается в исследовании возможностей LMMs для fine-grained assessment в CALL и определении их преимуществ и ограничений в этой области.
#### Метод
Для исследования использовался Speechocean762 dataset, а также специальный private corpus, содержащий записи речи и метки для оценки произношения. Методология включала fine-tuning LMMs с помощью transfer learning на основе задачи classification. Модель обучалась на знакомом датасете и адаптировалась к новым данным с помощью fine-tuning. Для оценки результатов использовались Pearson Correlation Coefficient (PCC) и Spearman's rank Correlation Coefficient (SCC), которые позволяют измерить корреляцию между прогностическими и тестовыми оценками. Набор экспериментов включал fine-grained assessment на разных гранулярностях: phoneme, word и sentence levels.
#### Результаты
Fine-tuning LMMs позволило значительно повысить эффективность по сравнению с zero-shot настройкой. Модель показала высокую точность на word и sentence levels, предоставляя результаты, конкурентоспособные с public и commercial systems. Однако phoneme-level assessment остается сложной задачей, где LMMs показывают существенные ограничения. PCC достиг 0.9, что указывает на высокую корреляцию, но SCC остался на уровне 0.6, что отражает несовершенство ordinal consistency в сравнении с PCC.
#### Значимость
Полученные результаты открывают перспективы применения LMMs в CALL, особенно для fine-grained assessment в CALL. Модель демонстрирует высокую эффективность в word и sentence levels, что может быть использовано для оценки прогресса студентов в речевых навыках. Тем не менее, существующие ограничения в phoneme-level assessment требуют дальнейших исследований. Направления будущих исследований могут включать развитие fine-grained modeling, а также рассмотрение rank-aware evaluation для более точной оценки ordinal consistency.
#### Выводы
Исследование показало, что fine-tuning LMMs является эффективным способом улучшения Automatic Pronunciation Assessment в CALL. Однако, существуют ограничения, особенно в phoneme-level assessment, которые требуют дополнительных исследований. Общий потенциал LMMs в CALL очевиден, и дальнейшие работы могут сфокусироваться на развитии более точных и rank-aware моделей.
Abstract
Automatic Pronunciation Assessment (APA) is critical for Computer-Assisted
Language Learning (CALL), requiring evaluation across multiple granularities
and aspects. Large Multimodal Models (LMMs) present new opportunities for APA,
but their effectiveness in fine-grained assessment remains uncertain. This work
investigates fine-tuning LMMs for APA using the Speechocean762 dataset and a
private corpus. Fine-tuning significantly outperforms zero-shot settings and
achieves competitive results on single-granularity tasks compared to public and
commercial systems. The model performs well at word and sentence levels, while
phoneme-level assessment remains challenging. We also observe that the Pearson
Correlation Coefficient (PCC) reaches 0.9, whereas Spearman's rank Correlation
Coefficient (SCC) remains around 0.6, suggesting that SCC better reflects
ordinal consistency. These findings highlight both the promise and limitations
of LMMs for APA and point to future work on fine-grained modeling and
rank-aware evaluation.
Ссылки и действия
Дополнительные ресурсы: