## Контекст
Современные технологии звукового обработки, такие как автоматическое распознавание речи (ASR) и тексто- NAO виде речи (TTS), широко используются в различных областях, от смартфонов до систем самообучающегося анализа. Однако надежность этих систем часто ограничивается качеством данных и ограниченными моделями. Большие языковые модели (LLMs) получили много годы широкого применения в области текстовых задач, однако их применение к ASR и TTS остается нерегулярным и требует повышения качества. Реинфорсмент-обучение (RL) доказало свою эффективность в текстовых задачах, но его применение к ASR и TTS остается относительно не изученным. Это связано с тем, что тренировка систем аудио-сигналов требует больших ресурсов и тестовых данных, что затрудняет применение RL в этих областях. Цель данного исследования — разработать легковесный RL-фреймворк для обработки аудиосигналов, который может улучшить ASR и TTS системы, даже при ограниченных ресурсах.
## Метод
Предлагаемый RL-фреймворк основывается на Group Relative Policy Optimization (GRPO) и ориентируется на данные, полученные из аудиосигналов. Метод GRPO основывается на групповом сравнении, что позволяет улучшить точность взаимодействия модели с аудиоданными. Были разработаны разные варианты правил для подачи награды в зависимости от результатов ASR и TTS. Для TTS, была введена Diffrentiable Reward Optimization (DiffRO), которая позволяет настроить награды через градиентное спусковое методирование. Архитектура RL-фреймворка включает в себя нейронные сети, обученные на аудиоданных, где модель взаимодействует с данными, изменяя поведение в зависимости от награды. Эта модель используется как для ASR, так и для TTS, что позволяет исследовать качество речи и генерацию речи в разных условиях.
## Результаты
Исследования проводились на наборах данных ASR и TTS, где были проведены эксперименты с разными наградами в GRPO и DiffRO. Исследование показало, что RL может улучшить качество ASR и TTS, даже при ограниченных ресурсах. В ASR, награда, основанная на правилах, позволила распознавать речь с более высокой точностью, чем без RL. В TTS, гибкость DiffRO позволила значительно улучшить соответствие генерируемого звука исходному тексту. Комбинация GRPO и DiffRO дала лучший результат в объединенных экспериментах, повысив качество и превратившая RL в мощный инструмент для улучшения ASR и TTS.
## Значимость
Результаты данного исследования могут быть применены в различных областях, где требуется эффективное распознавание речи и генерация речи. Это включает в себя системы самообучающегося перевода, синтеза речи в системах помощи и системы распознавания речи в смартфонах. RL позволяет повысить точност