Beyond Modality Limitations: A Unified MLLM Approach to Automated Speaking Assessment with Effective Curriculum Learning

2508.12591v1 cs.CL, cs.AI, cs.SD 2025-08-20
Авторы:

Yu-Hsuan Fang, Tien-Hong Lo, Yao-Ting Sung, Berlin Chen

Резюме на русском

## Контекст Автоматизированная оценка речи (Automated Speaking Assessment, ASA) является ключевым компонентом обучения иностранным языкам, позволяя анализировать и оценивать устную речь учащихся. Однако существующие системы ASA страдают ограничениями модальности: текстовые подходы не учитывают акустическую информацию, а аудио-подходы не учитывают семантический контекст. Это приводит к несовершенству в оценке таких аспектов, как содержание речи и языковой уровень. Более того, существует недоступность специализированных методов для оценки динамических аспектов речи, таких как дикция и интонация. Эти ограничения мотивируют развитие моделей, которые могут обрабатывать множество модальностей для полноценного анализа речи. ## Метод Данная работа представляет собой первую систематическую исследовательскую работу по применению Multimodal Large Language Models (MLLM) для полноценной ASA. MLLM объединяют в себе аудио- и текстовые данные в единой модели, что позволяет обрабатывать все аспекты речи — содержание, языковой уровень и динамические характеристики (дикция и интонация). Эта работа также представляет новую методологию Speech-First Multimodal Training (SFMT), основанную на принципах curriculum learning. SFMT укрепляет модельную основу для обработки речи до того, как происходит синергетическое сочетание мультимодальных данных. ## Результаты Эксперименты проводились на бенчмарк-датасете, содержащем звуковые записи устных высказываний с оценками по экспертным критериям. Результаты показали, что MLLM-системы повышают точность оценки речи, увеличивая корреляционный коэффициент (PCC) с 0.783 до 0.846. Особое внимание уделено аспекту "дикция" (динамические характеристики речи), где SFMT демонстрирует абсолютный прирост точности в 4% по сравнению с традиционными методами. Это свидетельствует о том, что SFMT может устранить существующие проблемы в оценке устной речи. ## Значимость Предложенная модель имеет широкие перспективы применения в обучении иностранным языкам, а также в системах личного и профессионального развития. Она предоставляет более точную и полную оценку устной речи, учитывая все аспекты — содержание, языковой уровень и динамические характеристики. Выявленный потенциал MLLM-моделей для ASA открывает новые технические и научные возможности в области машинного обучения и образовательных технологий. ## Выводы Результаты экспериментов подтверждают, что MLLM являются эффективным инструментом для полноценной ASA. Особое внимание уделено стратегии SFMT, которая устанавливает новый стандарт в обучении моделей к обработке речи. Будущие исследования буду

Abstract

Traditional Automated Speaking Assessment (ASA) systems exhibit inherent modality limitations: text-based approaches lack acoustic information while audio-based methods miss semantic context. Multimodal Large Language Models (MLLM) offer unprecedented opportunities for comprehensive ASA by simultaneously processing audio and text within unified frameworks. This paper presents a very first systematic study of MLLM for comprehensive ASA, demonstrating the superior performance of MLLM across the aspects of content and language use . However, assessment on the delivery aspect reveals unique challenges, which is deemed to require specialized training strategies. We thus propose Speech-First Multimodal Training (SFMT), leveraging a curriculum learning principle to establish more robust modeling foundations of speech before cross-modal synergetic fusion. A series of experiments on a benchmark dataset show MLLM-based systems can elevate the holistic assessment performance from a PCC value of 0.783 to 0.846. In particular, SFMT excels in the evaluation of the delivery aspect, achieving an absolute accuracy improvement of 4% over conventional training approaches, which also paves a new avenue for ASA.

Ссылки и действия