Beyond Modality Limitations: A Unified MLLM Approach to Automated Speaking Assessment with Effective Curriculum Learning
2508.12591v1
cs.CL, cs.AI, cs.SD
2025-08-20
Авторы:
Yu-Hsuan Fang, Tien-Hong Lo, Yao-Ting Sung, Berlin Chen
Резюме на русском
## Контекст
Автоматизированная оценка речи (Automated Speaking Assessment, ASA) является ключевым компонентом обучения иностранным языкам, позволяя анализировать и оценивать устную речь учащихся. Однако существующие системы ASA страдают ограничениями модальности: текстовые подходы не учитывают акустическую информацию, а аудио-подходы не учитывают семантический контекст. Это приводит к несовершенству в оценке таких аспектов, как содержание речи и языковой уровень. Более того, существует недоступность специализированных методов для оценки динамических аспектов речи, таких как дикция и интонация. Эти ограничения мотивируют развитие моделей, которые могут обрабатывать множество модальностей для полноценного анализа речи.
## Метод
Данная работа представляет собой первую систематическую исследовательскую работу по применению Multimodal Large Language Models (MLLM) для полноценной ASA. MLLM объединяют в себе аудио- и текстовые данные в единой модели, что позволяет обрабатывать все аспекты речи — содержание, языковой уровень и динамические характеристики (дикция и интонация). Эта работа также представляет новую методологию Speech-First Multimodal Training (SFMT), основанную на принципах curriculum learning. SFMT укрепляет модельную основу для обработки речи до того, как происходит синергетическое сочетание мультимодальных данных.
## Результаты
Эксперименты проводились на бенчмарк-датасете, содержащем звуковые записи устных высказываний с оценками по экспертным критериям. Результаты показали, что MLLM-системы повышают точность оценки речи, увеличивая корреляционный коэффициент (PCC) с 0.783 до 0.846. Особое внимание уделено аспекту "дикция" (динамические характеристики речи), где SFMT демонстрирует абсолютный прирост точности в 4% по сравнению с традиционными методами. Это свидетельствует о том, что SFMT может устранить существующие проблемы в оценке устной речи.
## Значимость
Предложенная модель имеет широкие перспективы применения в обучении иностранным языкам, а также в системах личного и профессионального развития. Она предоставляет более точную и полную оценку устной речи, учитывая все аспекты — содержание, языковой уровень и динамические характеристики. Выявленный потенциал MLLM-моделей для ASA открывает новые технические и научные возможности в области машинного обучения и образовательных технологий.
## Выводы
Результаты экспериментов подтверждают, что MLLM являются эффективным инструментом для полноценной ASA. Особое внимание уделено стратегии SFMT, которая устанавливает новый стандарт в обучении моделей к обработке речи. Будущие исследования буду
Abstract
Traditional Automated Speaking Assessment (ASA) systems exhibit inherent
modality limitations: text-based approaches lack acoustic information while
audio-based methods miss semantic context. Multimodal Large Language Models
(MLLM) offer unprecedented opportunities for comprehensive ASA by
simultaneously processing audio and text within unified frameworks. This paper
presents a very first systematic study of MLLM for comprehensive ASA,
demonstrating the superior performance of MLLM across the aspects of content
and language use . However, assessment on the delivery aspect reveals unique
challenges, which is deemed to require specialized training strategies. We thus
propose Speech-First Multimodal Training (SFMT), leveraging a curriculum
learning principle to establish more robust modeling foundations of speech
before cross-modal synergetic fusion. A series of experiments on a benchmark
dataset show MLLM-based systems can elevate the holistic assessment performance
from a PCC value of 0.783 to 0.846. In particular, SFMT excels in the
evaluation of the delivery aspect, achieving an absolute accuracy improvement
of 4% over conventional training approaches, which also paves a new avenue for
ASA.
Ссылки и действия
Дополнительные ресурсы: