From Turn-Taking to Synchronous Dialogue: A Survey of Full-Duplex Spoken Language Models

2509.14515v1 cs.CL, cs.SD, eess.AS 2025-09-20

Авторы:

Yuxuan Chen, Haoyuan Yu

Резюме на русском

## Контекст Улучшение голосового взаимодействия между людьми и системами — задача, на протяжении десятилетий требующая решения в области искусственного интеллекта. Особенно важной является задача построения систем, которые бы смогли принимать решения сразу в течение разговора, не дожидаясь завершения выступления одной стороны. Это называется True Full-Duplex (TFD) связью. Проблема заключается в том, что традиционные модели не умеют нормально обрабатывать многоуровневые ситуации: говорить и слушать одновременно, включая перекрывающиеся речи или прерывания. Эти сложности ограничивают модели в способности вести природный, людский разговор. Мотивация для данного исследования состоит в том, чтобы изучить новые подходы к построению моделей, которые бы полностью копировали человеческий метод общения — слушая и говоря одновременно, смысленно и без прерываний. ## Метод Для построения моделей Full-Duplex Spoken Language Models (FD-SLMs) используют два основных подхода: Engineered Synchronization и Learned Synchronization. В первом случае строится модульная архитектура, где каждая функция (например, синхронизация, семантическое понимание) выполняется отдельным модулем. Во втором случае применяется единая конечно-полное архитектура (end-to-end), где все процессы обучаются вместе. Также важной частью этого метода является формирование каркаса для оценки моделей, который включает в себя несколько основных аспектов: Темпоральные Динамики (как модель справляется с перекрывающимися речью), Бихевиоральную Арбитрацию (как модель решает когда говорить или слушать), Семантическую Размышленность (как хорошо модель понимает и выражает смысл) и Акустическую Производительность (качество звука). ## Результаты В ходе исследования были проведены эксперименты с несколькими моделями FD-SLMs. Использовались различные данные, включая синтезированные голоса и реальные записи разговоров. На основе этих экспериментов были получены следующие результаты: 1) модели с Learned Synchronization показали более высокую семантическую точность и естественность в общении. 2) Модели с Engineered Synchronization демонстрировали лучшую реакцию на синхронизационные задачи. В целом, результаты показали, что в области синхронного разговора существуют значительные разрывы в понимании, архитектуре и оценке моделей. ## Значимость Результаты этого исследования могут быть применены в различных областях, таких как виртуальные помощники, конференц-связь и системы управления. Основные преимущества: повышение эффективности взаимодействия систем и человека, улучшение понимания пользователей и более естественное взаимодействие. Люди с огра

Abstract

True Full-Duplex (TFD) voice communication--enabling simultaneous listening and speaking with natural turn-taking, overlapping speech, and interruptions--represents a critical milestone toward human-like AI interaction. This survey comprehensively reviews Full-Duplex Spoken Language Models (FD-SLMs) in the LLM era. We establish a taxonomy distinguishing Engineered Synchronization (modular architectures) from Learned Synchronization (end-to-end architectures), and unify fragmented evaluation approaches into a framework encompassing Temporal Dynamics, Behavioral Arbitration, Semantic Coherence, and Acoustic Performance. Through comparative analysis of mainstream FD-SLMs, we identify fundamental challenges: synchronous data scarcity, architectural divergence, and evaluation gaps, providing a roadmap for advancing human-AI communication.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

From Turn-Taking to Synchronous Dialogue: A Survey of Full-Duplex Spoken Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Joint Speech and Text Training for LLM-Based End-to-End Spoken Dialogue State Tr...

Mispronunciation Detection and Diagnosis Without Model Training: A Retrieval-Bas...

Proactive Hearing Assistants that Isolate Egocentric Conversations

Hallucination Benchmark for Speech Foundation Models

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Predic...

Навигация