FLM-Audio: Natural Monologues Improves Native Full-Duplex Chatbots via Dual Training

2509.02521v1 cs.SD, cs.AI, cs.CL 2025-09-05
Авторы:

Yiqun Yao, Xiang Li, Xin Jiang, Xuezhi Fang, Naitong Yu, Wenjia Ma, Aixin Sun, Yequan Wang

Резюме на русском

## Контекст Полнофазные диалоговые модели предназначены для параллельного воспроизведения речи и обработки ввода пользователя, чтобы обеспечить быстрые ответы на частые и стремительно меняющиеся запросы. Одним из новых подходов являются *воспроизведение* и *производство* в одной модели (native full-duplex models). Они скрещивают различные каналы (например, слушание и речь) в один момент времени, устраняя проблему высокой задержки, которая характерна для альтернативных методов типа time-division multiplexing (TDM). Однако в этих моделях возникает проблема согласования текстовых монологов с аудио потоками, которые работают с разными битрейтами. Обычное решение — это *слово-уровневое выравнивание*, но оно сокращает мощность больших предобученных моделей и требует точных тайм-степсов для каждого токена, что приводит к ошибкам и увеличивает затраты на препроцессинг. Мы предлагаем новый подход — естественные монологи (natural monologues), которые очень похожи на человеческое монологическое высказывание в диалогах. Эта технология улучшает систему FLM-Audio, 7B-модель диалогового агента с открытым кодом, которая показала выдающиеся результаты в отзывчивости, двухсторонних диалогах и общении. ## Метод Мы предлагаем **естественные монологи** — поток текста, который много секунд предшествует аудио имитируя естественную последовательность разговора. Для темпорального выравнивания мы меняем положение монолога относительно аудио — либо в начале, либо в конце — на каждой стадии обучения. Этот **двуххармонический** подход (dual training) усиливает модель, улучшая отзывчивость и добавляя естественность в диалоговое взаимодействие. Мы также используем простой, но эффективный метод для синхронизации монолога с аудио, который устраняет зависимость от точных тайм-степсов и улучшает стабильность. ## Результаты Мы проверили модель FLM-Audio в нескольких экспериментах, в том числе на двух целях: 1) обеспечить отзывчивость диалога и 2) улучшить чат-опыт пользователя. У нас были несколько данных, включая говорящих моделей с текстом и аудио, а также специально сгенерированные данные для естественных монологов. Модель FLM-Audio показала существенное улучшение в отзывчивости и качестве диалога по сравнению с другими полнофазными моделями. Мы также проверили ее на частотности ответов, задержках и надежности, и она показала себя лучше во всех этих аспектах. ## Значимость Модель FLM-Audio может применяться в различных сценариях, включая виртуальных ассистентов, нормальные чат-боты и даже системы управления смарт-девайсами. Она обеспечивает высокую отзывчивость, естественность диа

Abstract

Full-duplex dialog models are designed to listen and speak simultaneously with rapid responses to fast-changing user input. Among existing approaches, native full-duplex models merges different channels (e.g. listen and speak) in a single time step, overcoming the high response latency inherent to time-division multiplexing time-division multiplexing (TDM) alternatives. Yet, a key challenge remains: aligning textual monologues with audio streams that operate at different bitrates. The prevailing solution relies on word-level alignment, but this can degrade the language ability of large pre-trained models. Moreover, it requires highly accurate timestamps for every token, which introduces cascading errors and increases pre-processing costs. In this paper, we propose textual monologues in continuous tokens sequence, namely "natural" monologues, which mimics humanoid cognitive behavior in dialogs. For temporal alignment, we alternate the position of the natural monologue - leading or trailing the audio - across different training stages. This "dual" training paradigm proves highly effective in building FLM-Audio, our 7B spoken dialog model that demonstrates superior responsiveness, duplexity, and chatting experiences, as confirmed by experimental results.

Ссылки и действия

Связанные статьи

Finding My Voice: Generative Reconstruction of Disordered Speech for Automated C...

## Контекст Область исследования генерируемой речи, особенно в сфере медицины, набирает все большую популярность. Многие...

2025-09-25

Spatial Audio Motion Understanding and Reasoning

## Контекст Спектр применений звуковой распознаваемости и рассуждений в машинном обучении растёт, но на данный момент с...

2025-09-20