From Black Box to Transparency: Enhancing Automated Interpreting Assessment with Explainable AI in College Classrooms
2508.10860v1
cs.CL, cs.AI
2025-08-16
Авторы:
Zhaokun Jiang, Ziyin Zhang
Резюме на русском
## Контекст
Изучение языкового ремесла, в том числе интерпретации, является ключевым вопросом в области образования и специализированных коммуникаций. Однако успехи в автоматизированной оценке интерпретации часто ограничены проблемами, такими как неэффективное моделирование, безразмерные данные и необъяснимость результатов. Эти проблемы способствуют существующим "черным ящикам", которые не могут дать понятных рекомендаций для улучшения. Наша мотивация заключается в устранении этих недостатков, создав модель, которая обеспечивает понятные, легко интерпретируемые результаты и поддерживает саморегулируемые учебные процессы у студентов.
## Метод
Мы предлагаем многомерный подход, объединяющий функциональное генерирование признаков, техники увеличения данных и исследования используемых машинных алгоритмов. Модель основывается на явной аналитической разработке признаков и интеграции глубоких сетей с техническими методами, такими как Shapley Value (SHAP). Это позволяет создавать понятные модели, которые могут объяснить свои решения. Мы применяем этот подход к англо-китайской последовательной интерпретации, используя большой датасет, чтобы проверить эффективность.
## Результаты
Проведенные эксперименты показали, что наш подход выдает высокую точность в предсказании метрик качества интерпретации. Были выявлены сильные предикторы для каждого аспекта: BLEURT и COMETKiwi для фидлити, функции пауз для флюентности и метрики языкового разнообразия для языкового использования. Эти результаты подтверждают, что метод не только эффективен, но и обеспечивает прозрачность и понимание результатов.
## Значимость
Наш подход может быть применен в обучении интерпретаторов, в том числе в саморегулируемых учебных процессах. Он предоставляет детальный диагностический отзыв, помогая ученикам понимать ошибки и улучшать свои навыки. Эта технология может быть использована в различных образовательных и профессиональных сферах, где языковая компетентность критически важна.
## Выводы
Мы представили многомерную модель, которая преобразует "черную ящик" в прозрачность, обеспечивая уникальные выгоды в области обучения интерпретаторов. Наша работа открывает новые возможности для дальнейших исследований в области автоматизированной оценки языковых навыков и саморегулируемого обучения. Мы будем работать над улучшением этой модели, включая расширение датасетов и исследование других задач.
Abstract
Recent advancements in machine learning have spurred growing interests in
automated interpreting quality assessment. Nevertheless, existing research
suffers from insufficient examination of language use quality, unsatisfactory
modeling effectiveness due to data scarcity and imbalance, and a lack of
efforts to explain model predictions. To address these gaps, we propose a
multi-dimensional modeling framework that integrates feature engineering, data
augmentation, and explainable machine learning. This approach prioritizes
explainability over ``black box'' predictions by utilizing only
construct-relevant, transparent features and conducting Shapley Value (SHAP)
analysis. Our results demonstrate strong predictive performance on a novel
English-Chinese consecutive interpreting dataset, identifying BLEURT and
CometKiwi scores to be the strongest predictive features for fidelity,
pause-related features for fluency, and Chinese-specific phraseological
diversity metrics for language use. Overall, by placing particular emphasis on
explainability, we present a scalable, reliable, and transparent alternative to
traditional human evaluation, facilitating the provision of detailed diagnostic
feedback for learners and supporting self-regulated learning advantages not
afforded by automated scores in isolation.
Ссылки и действия
Дополнительные ресурсы: