LOTUSDIS: A Thai far-field meeting corpus for robust conversational ASR
2509.18722v1
cs.CL, cs.SD
2025-09-25
Авторы:
Pattara Tipaksorn, Sumonmas Thatphithakkul, Vataya Chunwijitra, Kwanchiva Thangthai
Резюме на русском
## Контекст
Удаленная работа и удаленное обучение стали существенной частью современной работы и образования, особенно в период после COVID-19. Однако удаленные или замедленные взаимодействия часто становятся менее эффективными, чем лицом к лицу. Это связано с тем, что дистанционные методы часто не учитывают важность звука в общении. До этого момента не было доступных широкого распространения звуковых данных, отражающих реальные удаленные взаимодействия. LOTUSDIS, новый трехголосый мульти-микрофонный трейнинг-тестовый корпус, был создан в целях оптимизации ASR для тайского языка в удаленных средах. Набор данных LOTUSDIS представляет собой реальные диалоги, накопленные в среде, которая является характерной для непринужденных удаленных бесед.
## Метод
LOTUSDIS состоит из 114 часов реальных, непринужденных диалогов, записанных на 9 устройств в 6 разных микрофонных типах. Звук был записан с различных расстояний от 0,12 м до 10 м, чтобы передать реальные эффекты реверберации и шума. Участники были размещены в одной комнате, чтобы создать реалистичные удаленные условия общения. Данные были разбиты на стандартные наборы для обучения, валидации и тестирования. Для оценки корпуса была разработана базовая модель, основанная на разных версиях Whisper, оцениваясь в нулевых и тюнинговых условиях.
## Результаты
Эксперименты показали, что off-the-shelf модели Whisper имели существенную ухудшение производительности при удалении, что confirme несоответствие между данными обучения и реальной дистанционной речи. Данные LOTUSDIS были использованы для тюнинга моделей, что привело к значительному улучшению: версия Whisper на тайском языке уменьшила ASR WER с 64,3 до 38,3, а для дистанционного теста WER уменьшился с 81,6 до 49,5, особенно на более отдаленных микрофонах. Эти результаты демонстрируют значительное влияние разнообразия дистанций в тренировочных данных для улучшения удаленной ASR.
## Значимость
LOTUSDIS широко применим в области распознавания речи в удаленных средах, особенно для тайского языка. Он предоставляет реалистичные данные для тренировки и тестирования ASR, что позволяет создавать более точные и устойчивые системы распознавания речи. Это корпус также имеет потенциал для использования в других языках, улучшая удаленные системы взаимодействия в целом.
## Выводы
LOTUSDIS является первым трехголосым мульти-микрофонным корпусом для удаленных диалогов на тайском языке. Он продемонстрировал эффективность для улучшения ASR-систем в удаленных условиях. Будущие исследования будут сфокусированы на расширении набора данных для дру
Abstract
We present LOTUSDIS, a publicly available Thai meeting corpus designed to
advance far-field conversational ASR. The dataset comprises 114 hours of
spontaneous, unscripted dialogue collected in 15-20 minute sessions with three
participants, where overlapping speech is frequent and natural. Speech was
recorded simultaneously by nine independent single-channel devices spanning six
microphone types at distances from 0.12 m to 10 m, preserving the authentic
effects of reverberation, noise, and device coloration without relying on
microphone arrays. We provide standard train, dev, test splits and release a
reproducible baseline system. We benchmarked several Whisper variants under
zero-shot and fine-tuned conditions. Off-the-shelf models showed strong
degradation with distance, confirming a mismatch between pre-training data and
Thai far-field speech. Fine-tuning on LOTUSDIS dramatically improved
robustness: a Thai Whisper baseline reduced overall WER from 64.3 to 38.3 and
far-field WER from 81.6 to 49.5, with especially large gains on the most
distant microphones. These results underscore the importance of
distance-diverse training data for robust ASR. The corpus is available under
CC-BY-SA 4.0. We also release training and evaluation scripts as a baseline
system to promote reproducible research in this field.
Ссылки и действия
Дополнительные ресурсы: