Advancing Speech Understanding in Speech-Aware Language Models with GRPO

2509.16990v1 cs.CL, cs.AI, cs.LG, cs.SD, eess.AS 2025-09-24
Авторы:

Avishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, Eli Schwartz, Ron Hoory, Avihu Dekel

Резюме на русском

## Контекст Говорящие языковые модели (LLM) становятся все более важными для различных аспектов технологий, включая специальные системы, связанные с распознаванием речи, техническими библиотеками, системами рекомендации и другими. Особенно актуальной стала работа с задачами, возникающими при работе с говорящими языками, таких как автоматическое переводить речи и отвечать на вопросы. Однако существуют различные проблемы, связанные с этим, включая трудности в понимании речи, нормализации входных данных, а также обработке новых типов задач. На практике, многие текущие решения ограничены в том, что они ориентированы на задачи с фиксированными ответами, что не позволяет сделать модели более универсальными. В этом контексте требуется развитие моделей, которые могут подстраиваться под различные типы задач и языков. ## Метод Мы предлагаем метод **Group Relative Policy Optimization (GRPO)**, который используется для обучения моделей **Speech-Aware Large Language Models (SALLMs)**. GRPO широко используется для обучения моделей с целью повышения эффективности и точности. **BLEU** (Bilingual Evaluation Understudy) - это сигнал реWARD, который используется для оценки качества перевода или генерирования текста. Мы используем GRPO в комбинации с BLEU, чтобы оптимизировать модели SALLMs для задач, таких как **Spoken Question Answering** и **Automatic Speech Translation**. Мы также используем off-policy samples (записанные при помощи других моделей) для расширения области исследований и повышения точности моделей. ## Результаты Мы проводили эксперименты с различными данными и сравнили результаты с применением GRPO и стандартной SFT (Sequence-to-Sequence Fine-Tuning). Модель SALLM, обученная с помощью GRPO, показала лучшие результаты по нескольким ключевым метрикам, включая BLEU, ROUGE-L и METEOR. Мы также показали, что использование off-policy samples может улучшить качество генерирования и обработки новых типов задач. Эти результаты показали, что GRPO может быть эффективным методом для обучения моделей SALLM, что позволяет добиться лучших результатов на различных типах говорящих языков. ## Значимость Метод GRPO может быть применен в различных сферах, включая модели для распознавания речи, автоматического перевода речи и решения различных задач лингвистики. Этот подход может использоваться в системах, которые требуют высокого качества генерирования текста и понимания речи. Это позволит сделать модели более универсальными и эффективными для различных языков и типов данных. Например, модель SALLM с GRPO может стать базой для развития новых систем, повышающих точность и мощность автоматического перевода и распознавания речи. ## Выводы Мы представили **GRPO** - метод для обучения моделей Speech-Aware Large Language Models, который показал высокую эффективность по сравнению с сущест

Abstract

In this paper, we introduce a Group Relative Policy Optimization (GRPO)-based method for training Speech-Aware Large Language Models (SALLMs) on open-format speech understanding tasks, such as Spoken Question Answering and Automatic Speech Translation. SALLMs have proven highly effective for speech understanding tasks. GRPO has recently gained traction for its efficiency in training LLMs, and prior work has explored its application to SALLMs, primarily in multiple-choice tasks. Building on this, we focus on open-format tasks that better reflect the generative abilities of the models. Our approach leverages GRPO with BLEU as the reward signal to optimize SALLMs, and we demonstrate empirically that it surpasses standard SFT across several key metrics. Finally, we explore the potential of incorporating off-policy samples within GRPO for these tasks, highlighting avenues for further improvement and further research.

Ссылки и действия