## Контекст
Говорящие языковые модели (LLM) становятся все более важными для различных аспектов технологий, включая специальные системы, связанные с распознаванием речи, техническими библиотеками, системами рекомендации и другими. Особенно актуальной стала работа с задачами, возникающими при работе с говорящими языками, таких как автоматическое переводить речи и отвечать на вопросы. Однако существуют различные проблемы, связанные с этим, включая трудности в понимании речи, нормализации входных данных, а также обработке новых типов задач. На практике, многие текущие решения ограничены в том, что они ориентированы на задачи с фиксированными ответами, что не позволяет сделать модели более универсальными. В этом контексте требуется развитие моделей, которые могут подстраиваться под различные типы задач и языков.
## Метод
Мы предлагаем метод **Group Relative Policy Optimization (GRPO)**, который используется для обучения моделей **Speech-Aware Large Language Models (SALLMs)**. GRPO широко используется для обучения моделей с целью повышения эффективности и точности. **BLEU** (Bilingual Evaluation Understudy) - это сигнал реWARD, который используется для оценки качества перевода или генерирования текста. Мы используем GRPO в комбинации с BLEU, чтобы оптимизировать модели SALLMs для задач, таких как **Spoken Question Answering** и **Automatic Speech Translation**. Мы также используем off-policy samples (записанные при помощи других моделей) для расширения области исследований и повышения точности моделей.
## Результаты
Мы проводили эксперименты с различными данными и сравнили результаты с применением GRPO и стандартной SFT (Sequence-to-Sequence Fine-Tuning). Модель SALLM, обученная с помощью GRPO, показала лучшие результаты по нескольким ключевым метрикам, включая BLEU, ROUGE-L и METEOR. Мы также показали, что использование off-policy samples может улучшить качество генерирования и обработки новых типов задач. Эти результаты показали, что GRPO может быть эффективным методом для обучения моделей SALLM, что позволяет добиться лучших результатов на различных типах говорящих языков.
## Значимость
Метод GRPO может быть применен в различных сферах, включая модели для распознавания речи, автоматического перевода речи и решения различных задач лингвистики. Этот подход может использоваться в системах, которые требуют высокого качества генерирования текста и понимания речи. Это позволит сделать модели более универсальными и эффективными для различных языков и типов данных. Например, модель SALLM с GRPO может стать базой для развития новых систем, повышающих точность и мощность автоматического перевода и распознавания речи.
## Выводы
Мы представили **GRPO** - метод для обучения моделей Speech-Aware Large Language Models, который показал высокую эффективность по сравнению с сущест