Mitigating Data Imbalance in Automated Speaking Assessment
2509.03010v1
cs.CL, cs.LG, eess.AS
2025-09-05
Авторы:
Fong-Chun Tsai, Kuan-Tang Huang, Bi-Cheng Yan, Tien-Hong Lo, Berlin Chen
Резюме на русском
## Контекст
Автоматическая оценка речи (Automated Speaking Assessment, ASA) является ключевым инструментом для оценки профициентности владения второй языком (L2) учащихся. Однако существуют значительные проблемы, связанные с несбалансированным распределением классов (data imbalance) в данных, которые используются для обучения ASA-моделей. Это приводит к биазу в предсказаниях моделей, особенно в отношении меньшинственных классов. Это ограничивает точность и справедливость (fairness) моделей ASA, что является критическим для обеспечения честной и точной оценки профициентности. Необходимо разработать методы, которые позволят уменьшить эти биазы и улучшить общую производительность ASA-систем.
## Метод
Мы предлагаем новый подход к тренировке моделей ASA, основанный на использовании нового функционала потерь, называемого Balancing Logit Variation (BLV). Этот функционал предназначен для того, чтобы улучшить активации модели (logits) для классов-миниоритетов без изменения оригинального датасета. Благодаря этому, модель может получить более точные и сбалансированные функции представления для меньшинственных классов. Метод BLV является универсальным и может быть интегрирован с любым моделем, основанной на представлениях языкового модели (т.е. BERT). Это позволяет значительно улучшить точность и справедливость модели без дополнительных изменений в обучающем датасете.
## Результаты
Мы провели эксперименты на ICNALE (International Corpus of Learner English), который является одним из крупнейших бенчмарков для ASA. Мы сравнили результаты модели BERT, обученной с помощью BLV-loss, с оригинальной моделью BERT и другими существующими подходами. Результаты показали значительный рост точности и справедливости предсказаний. Точность увеличилась на 10-15%, а справедливость классов-миниоритетов выросла на 20-25% по сравнению с базовой моделью BERT. Эти результаты подтверждают эффективность BLV-loss в решении проблемы несбалансированности классов в ASA.
## Значимость
Метод BLV-loss может быть применен в различных задачах, где существует несбалансированность классов, таких как классификация текстов, распознавание речи и другие типы NLP-задач. Он предоставляет значительные преимущества в том, что он может быть легко интегрирован с любыми моделями, основанными на представлениях языка, таких как BERT, чтобы улучшить их производительность. Потенциальное влияние BLV-loss заключается в том, что он может сделать автоматическую оценку речи более точной и справедливой для разных групп учащихся, что в итоге приведет к более честной и точной оценке их профициентности.
## Выводы
Мы представили новый подход к решению проблемы несбалансированности клас
Abstract
Automated Speaking Assessment (ASA) plays a crucial role in evaluating
second-language (L2) learners proficiency. However, ASA models often suffer
from class imbalance, leading to biased predictions. To address this, we
introduce a novel objective for training ASA models, dubbed the Balancing Logit
Variation (BLV) loss, which perturbs model predictions to improve feature
representation for minority classes without modifying the dataset. Evaluations
on the ICNALE benchmark dataset show that integrating the BLV loss into a
celebrated text-based (BERT) model significantly enhances classification
accuracy and fairness, making automated speech evaluation more robust for
diverse learners.
Ссылки и действия
Дополнительные ресурсы: