Large Language Model Data Generation for Enhanced Intent Recognition in German Speech
2508.06277v1
cs.CL, cs.LG, cs.SD
2025-08-12
Авторы:
Theresa Pekarek Rosin, Burak Can Kaplan, Stefan Wermter
Резюме на русском
## Контекст
**Область исследования и существующие проблемы**
Intent recognition (IR) является ключевым компонентом систем артифициального интеллекта (AI), особенно для ассистентов с речевыми командами. Однако существующие подходы, большая часть которых разработана для английского языка, сталкиваются с ограничениями при работе с другими языками и специфическими стилями речи, такими как речь старших людей. Эти ограничения сильно сказываются на качестве распознавания интентов в речи германского языка, особенно для поддержки старшего поколения. Этот геограмфический и гендерный дискриминационный аспект требует конкретного анализа и решения.
**Мотивация**
Ключевой мотивацией является улучшение моделей IR для речи старших людей на германском языке. Это нужно для повышения точности распознавания и лучшего взаимодействия с AI-системами. Недостаток данных в этой сфере ограничивает развитие AI-систем, а наша методика предлагает эффективное решение этой проблемы.
## Метод
**Методология и технические решения**
Мы предлагаем сочетание нескольких технических подходов. Во-первых, мы использовали адаптированный Whisper ASR (Automatic Speech Recognition) модель, которая была приспособлена для работы с германским языком, особенно с речью старшего поколения (SVC-de). Во-вторых, мы использовали трансформер-базированные языковые модели (LLMs), такие как LeoLM, Llama3 и ChatGPT, для генерации синтетических данных для обучения. Эти модели были запущены на созданных специально для этой задачи синтетических текстовых данных.
**Архитектура**
Мы объединили эти модели в интегрированную архитектуру. Адаптированная Whisper ASR модель служит для распознавания речи. Затем, генерируемые данные от LLMs проходят через модель IR, которая учится классифицировать интенты. Мы также проводим cross-dataset testing для оценки устойчивости наших моделей к разным стилям речи и невиденному лексикону.
## Результаты
**Эксперименты и используемые данные**
Мы проводили тщательные эксперименты на разных наборах данных. Эталонные данные были сгенерированы с помощью SVC-de, а синтетические данные — с помощью LLMs. Мы провели несколько тестов, включая cross-dataset testing, чтобы оценить качество распознавания интентов. Одним из основных результатов является устойчивость наших моделей к разным стилям речи и невиденному лексикону.
**Полученные результаты**
Основным положительным результатом является повышение точности классификации интентов в речи старших людей. Мы также обнаружили, что синтетические данные, генерируемые с помощью LLMs, значительно улучшают производительность моделей IR. Наши результаты показы
Abstract
Intent recognition (IR) for speech commands is essential for artificial
intelligence (AI) assistant systems; however, most existing approaches are
limited to short commands and are predominantly developed for English. This
paper addresses these limitations by focusing on IR from speech by elderly
German speakers. We propose a novel approach that combines an adapted Whisper
ASR model, fine-tuned on elderly German speech (SVC-de), with Transformer-based
language models trained on synthetic text datasets generated by three
well-known large language models (LLMs): LeoLM, Llama3, and ChatGPT. To
evaluate the robustness of our approach, we generate synthetic speech with a
text-to-speech model and conduct extensive cross-dataset testing. Our results
show that synthetic LLM-generated data significantly boosts classification
performance and robustness to different speaking styles and unseen vocabulary.
Notably, we find that LeoLM, a smaller, domain-specific 13B LLM, surpasses the
much larger ChatGPT (175B) in dataset quality for German intent recognition.
Our approach demonstrates that generative AI can effectively bridge data gaps
in low-resource domains. We provide detailed documentation of our data
generation and training process to ensure transparency and reproducibility.
Ссылки и действия
Дополнительные ресурсы: