Think Before You Talk: Enhancing Meaningful Dialogue Generation in Full-Duplex Speech Language Models with Planning-Inspired Text Guidance

2508.07375v1 cs.CL, cs.SD, eess.AS 2025-08-13
Авторы:

Wenqian Cui, Lei Zhu, Xiaohui Li, Zhihan Guo, Haoli Bai, Lu Hou, Irwin King

Резюме на русском

#### Контекст Full-Duplex Speech Language Models (FD-SLMs) являются основными моделями, разработанными для поддержки натуральных и реального времени происходящих диалогов. Они моделируют сложные динамики разговоров, такие как перебивания, согласования и другие формы взаимодействия. Энд-то-энд (e2e) FD-SLMs воспользовались реальными двухканальными данными для построения моделей разговоров между двумя участниками. Однако они сталкиваются со значительной проблемой: их разговорные способности часто ниже, чем у моделей, основанных только на тексте. Это связано с проблемами, связанными с предобработкой длинных сегментов речи и недостатком высококачественных данных для говоряного диалога. Текстово-направленная генерация речи могла бы устранить некоторые из этих проблем, но сталкивается с тем, что текстовый гайд не вписывается в аудио-стрим, что приводит к дискомфорту в разговоре. #### Метод Мы предлагаем TurnGuide, новую методологию, которая имитирует человеческий подход к планированию разговора. Этот подход динамически разбивает высказывания помощника на отдельные повороты разговора (dialogue turns) и формирует текстовый гайд на уровне каждого из этих поворотов до того, как подавать речевой сигнал. Это решение устраняет проблемы с темпом и длиной, которые возникают при внедрении текстового гайда в двухканальные аудио-стримы. TurnGuide использует планирование, чтобы улучшить структуру разговора и обеспечить естественную последовательность слов. #### Результаты Мы провели эксперименты, которые показали, что TurnGuide значительно улучшает работу e2e FD-SLMs. Модели, обученные с помощью нашего подхода, генерируют семантически корректные и последовательные высказывания, сохраняя при этом естественный темп разговора. Результаты показывают, что TurnGuide решает проблемы времени и длины, которые нарушают естественность разговорных интерпретаций в двухканальных моделях. Демонстрация доступна по ссылке: [демо-сайт], а код будет доступен на GitHub по адресу: [ссылка на репозиторий]. #### Значимость Предложенный подход имеет многочисленные потенциальные применения в области голосовых помощников, которые должны общаться с людьми в реальном времени. Он может быть применен в системах с умным домашним аппаратурой, системах управления, системах самообучения, а также в других сферах, где естественное взаимодействие с пользователем ключево. TurnGuide имеет преимущество в том, что он улучшает качество говорения, устраняя проблемы времени и длины, которые были особенно важными для развития двухканальной речи. #### Выводы Мы представили TurnGuide, новую планировательную модель, которая улучшает естественность разговоров в FD-SLMs. Наши

Abstract

Full-Duplex Speech Language Models (FD-SLMs) are specialized foundation models designed to enable natural, real-time spoken interactions by modeling complex conversational dynamics such as interruptions, backchannels, and overlapping speech, and End-to-end (e2e) FD-SLMs leverage real-world double-channel conversational data to capture nuanced two-speaker dialogue patterns for human-like interactions. However, they face a critical challenge -- their conversational abilities often degrade compared to pure-text conversation due to prolonged speech sequences and limited high-quality spoken dialogue data. While text-guided speech generation could mitigate these issues, it suffers from timing and length issues when integrating textual guidance into double-channel audio streams, disrupting the precise time alignment essential for natural interactions. To address these challenges, we propose TurnGuide, a novel planning-inspired approach that mimics human conversational planning by dynamically segmenting assistant speech into dialogue turns and generating turn-level text guidance before speech output, which effectively resolves both insertion timing and length challenges. Extensive experiments demonstrate our approach significantly improves e2e FD-SLMs' conversational abilities, enabling them to generate semantically meaningful and coherent speech while maintaining natural conversational flow. Demos are available at https://dreamtheater123.github.io/TurnGuide-Demo/. Code will be available at https://github.com/dreamtheater123/TurnGuide.

Ссылки и действия