Explore the Reinforcement Learning for the LLM based ASR and TTS system
2509.18569v1
cs.SD, cs.AI, eess.AS
2025-09-25
Авторы:
Changfeng Gao, Yabin Li, Keyu An, Zhifu Gao, Zhihao Du, Han Zhao, Xiangang Li
Резюме на русском
## Контекст
Современные технологии звукового обработки, такие как автоматическое распознавание речи (ASR) и тексто- NAO виде речи (TTS), широко используются в различных областях, от смартфонов до систем самообучающегося анализа. Однако надежность этих систем часто ограничивается качеством данных и ограниченными моделями. Большие языковые модели (LLMs) получили много годы широкого применения в области текстовых задач, однако их применение к ASR и TTS остается нерегулярным и требует повышения качества. Реинфорсмент-обучение (RL) доказало свою эффективность в текстовых задачах, но его применение к ASR и TTS остается относительно не изученным. Это связано с тем, что тренировка систем аудио-сигналов требует больших ресурсов и тестовых данных, что затрудняет применение RL в этих областях. Цель данного исследования — разработать легковесный RL-фреймворк для обработки аудиосигналов, который может улучшить ASR и TTS системы, даже при ограниченных ресурсах.
## Метод
Предлагаемый RL-фреймворк основывается на Group Relative Policy Optimization (GRPO) и ориентируется на данные, полученные из аудиосигналов. Метод GRPO основывается на групповом сравнении, что позволяет улучшить точность взаимодействия модели с аудиоданными. Были разработаны разные варианты правил для подачи награды в зависимости от результатов ASR и TTS. Для TTS, была введена Diffrentiable Reward Optimization (DiffRO), которая позволяет настроить награды через градиентное спусковое методирование. Архитектура RL-фреймворка включает в себя нейронные сети, обученные на аудиоданных, где модель взаимодействует с данными, изменяя поведение в зависимости от награды. Эта модель используется как для ASR, так и для TTS, что позволяет исследовать качество речи и генерацию речи в разных условиях.
## Результаты
Исследования проводились на наборах данных ASR и TTS, где были проведены эксперименты с разными наградами в GRPO и DiffRO. Исследование показало, что RL может улучшить качество ASR и TTS, даже при ограниченных ресурсах. В ASR, награда, основанная на правилах, позволила распознавать речь с более высокой точностью, чем без RL. В TTS, гибкость DiffRO позволила значительно улучшить соответствие генерируемого звука исходному тексту. Комбинация GRPO и DiffRO дала лучший результат в объединенных экспериментах, повысив качество и превратившая RL в мощный инструмент для улучшения ASR и TTS.
## Значимость
Результаты данного исследования могут быть применены в различных областях, где требуется эффективное распознавание речи и генерация речи. Это включает в себя системы самообучающегося перевода, синтеза речи в системах помощи и системы распознавания речи в смартфонах. RL позволяет повысить точност
Abstract
In recent years, large language models (LLMs) have played an important role
in automatic speech recognition (ASR) and text-to-speech (TTS) systems. While
reinforcement learning (RL) has significantly enhanced LLM performance in
text-based tasks, its application to ASR and TTS remains underexplored due to
the complexity of training audio-based models. In this study, we propose a
lightweight RL framework tailored for audio-based LLMs that can process audio
inputs and generate audio outputs. Based on this framework, we evaluate the
effectiveness of reinforcement learning on both ASR and TTS tasks. For the ASR
task, we experiment with different rule-based reward functions within the Group
Relative Policy Optimization (GRPO) framework and investigate the impact of RL
data construction. For the TTS task, we compare GRPO with Differentiable Reward
Optimization (DiffRO) and further combine the two approaches to achieve
improved performance. Our experiments demonstrate that RL can significantly
enhance the performance of both ASR and TTS systems, even with limited training
data and a small number of optimization steps.
Ссылки и действия
Дополнительные ресурсы: