Think Before You Talk: Enhancing Meaningful Dialogue Generation in Full-Duplex Speech Language Models with Planning-Inspired Text Guidance
2508.07375v1
cs.CL, cs.SD, eess.AS
2025-08-13
Авторы:
Wenqian Cui, Lei Zhu, Xiaohui Li, Zhihan Guo, Haoli Bai, Lu Hou, Irwin King
Резюме на русском
#### Контекст
Full-Duplex Speech Language Models (FD-SLMs) являются основными моделями, разработанными для поддержки натуральных и реального времени происходящих диалогов. Они моделируют сложные динамики разговоров, такие как перебивания, согласования и другие формы взаимодействия. Энд-то-энд (e2e) FD-SLMs воспользовались реальными двухканальными данными для построения моделей разговоров между двумя участниками. Однако они сталкиваются со значительной проблемой: их разговорные способности часто ниже, чем у моделей, основанных только на тексте. Это связано с проблемами, связанными с предобработкой длинных сегментов речи и недостатком высококачественных данных для говоряного диалога. Текстово-направленная генерация речи могла бы устранить некоторые из этих проблем, но сталкивается с тем, что текстовый гайд не вписывается в аудио-стрим, что приводит к дискомфорту в разговоре.
#### Метод
Мы предлагаем TurnGuide, новую методологию, которая имитирует человеческий подход к планированию разговора. Этот подход динамически разбивает высказывания помощника на отдельные повороты разговора (dialogue turns) и формирует текстовый гайд на уровне каждого из этих поворотов до того, как подавать речевой сигнал. Это решение устраняет проблемы с темпом и длиной, которые возникают при внедрении текстового гайда в двухканальные аудио-стримы. TurnGuide использует планирование, чтобы улучшить структуру разговора и обеспечить естественную последовательность слов.
#### Результаты
Мы провели эксперименты, которые показали, что TurnGuide значительно улучшает работу e2e FD-SLMs. Модели, обученные с помощью нашего подхода, генерируют семантически корректные и последовательные высказывания, сохраняя при этом естественный темп разговора. Результаты показывают, что TurnGuide решает проблемы времени и длины, которые нарушают естественность разговорных интерпретаций в двухканальных моделях. Демонстрация доступна по ссылке: [демо-сайт], а код будет доступен на GitHub по адресу: [ссылка на репозиторий].
#### Значимость
Предложенный подход имеет многочисленные потенциальные применения в области голосовых помощников, которые должны общаться с людьми в реальном времени. Он может быть применен в системах с умным домашним аппаратурой, системах управления, системах самообучения, а также в других сферах, где естественное взаимодействие с пользователем ключево. TurnGuide имеет преимущество в том, что он улучшает качество говорения, устраняя проблемы времени и длины, которые были особенно важными для развития двухканальной речи.
#### Выводы
Мы представили TurnGuide, новую планировательную модель, которая улучшает естественность разговоров в FD-SLMs. Наши
Abstract
Full-Duplex Speech Language Models (FD-SLMs) are specialized foundation
models designed to enable natural, real-time spoken interactions by modeling
complex conversational dynamics such as interruptions, backchannels, and
overlapping speech, and End-to-end (e2e) FD-SLMs leverage real-world
double-channel conversational data to capture nuanced two-speaker dialogue
patterns for human-like interactions. However, they face a critical challenge
-- their conversational abilities often degrade compared to pure-text
conversation due to prolonged speech sequences and limited high-quality spoken
dialogue data. While text-guided speech generation could mitigate these issues,
it suffers from timing and length issues when integrating textual guidance into
double-channel audio streams, disrupting the precise time alignment essential
for natural interactions. To address these challenges, we propose TurnGuide, a
novel planning-inspired approach that mimics human conversational planning by
dynamically segmenting assistant speech into dialogue turns and generating
turn-level text guidance before speech output, which effectively resolves both
insertion timing and length challenges. Extensive experiments demonstrate our
approach significantly improves e2e FD-SLMs' conversational abilities, enabling
them to generate semantically meaningful and coherent speech while maintaining
natural conversational flow. Demos are available at
https://dreamtheater123.github.io/TurnGuide-Demo/. Code will be available at
https://github.com/dreamtheater123/TurnGuide.
Ссылки и действия
Дополнительные ресурсы: