From Turn-Taking to Synchronous Dialogue: A Survey of Full-Duplex Spoken Language Models
2509.14515v1
cs.CL, cs.SD, eess.AS
2025-09-20
Авторы:
Yuxuan Chen, Haoyuan Yu
Резюме на русском
## Контекст
Улучшение голосового взаимодействия между людьми и системами — задача, на протяжении десятилетий требующая решения в области искусственного интеллекта. Особенно важной является задача построения систем, которые бы смогли принимать решения сразу в течение разговора, не дожидаясь завершения выступления одной стороны. Это называется True Full-Duplex (TFD) связью. Проблема заключается в том, что традиционные модели не умеют нормально обрабатывать многоуровневые ситуации: говорить и слушать одновременно, включая перекрывающиеся речи или прерывания. Эти сложности ограничивают модели в способности вести природный, людский разговор. Мотивация для данного исследования состоит в том, чтобы изучить новые подходы к построению моделей, которые бы полностью копировали человеческий метод общения — слушая и говоря одновременно, смысленно и без прерываний.
## Метод
Для построения моделей Full-Duplex Spoken Language Models (FD-SLMs) используют два основных подхода: Engineered Synchronization и Learned Synchronization. В первом случае строится модульная архитектура, где каждая функция (например, синхронизация, семантическое понимание) выполняется отдельным модулем. Во втором случае применяется единая конечно-полное архитектура (end-to-end), где все процессы обучаются вместе. Также важной частью этого метода является формирование каркаса для оценки моделей, который включает в себя несколько основных аспектов: Темпоральные Динамики (как модель справляется с перекрывающимися речью), Бихевиоральную Арбитрацию (как модель решает когда говорить или слушать), Семантическую Размышленность (как хорошо модель понимает и выражает смысл) и Акустическую Производительность (качество звука).
## Результаты
В ходе исследования были проведены эксперименты с несколькими моделями FD-SLMs. Использовались различные данные, включая синтезированные голоса и реальные записи разговоров. На основе этих экспериментов были получены следующие результаты: 1) модели с Learned Synchronization показали более высокую семантическую точность и естественность в общении. 2) Модели с Engineered Synchronization демонстрировали лучшую реакцию на синхронизационные задачи. В целом, результаты показали, что в области синхронного разговора существуют значительные разрывы в понимании, архитектуре и оценке моделей.
## Значимость
Результаты этого исследования могут быть применены в различных областях, таких как виртуальные помощники, конференц-связь и системы управления. Основные преимущества: повышение эффективности взаимодействия систем и человека, улучшение понимания пользователей и более естественное взаимодействие. Люди с огра
Abstract
True Full-Duplex (TFD) voice communication--enabling simultaneous listening
and speaking with natural turn-taking, overlapping speech, and
interruptions--represents a critical milestone toward human-like AI
interaction. This survey comprehensively reviews Full-Duplex Spoken Language
Models (FD-SLMs) in the LLM era. We establish a taxonomy distinguishing
Engineered Synchronization (modular architectures) from Learned Synchronization
(end-to-end architectures), and unify fragmented evaluation approaches into a
framework encompassing Temporal Dynamics, Behavioral Arbitration, Semantic
Coherence, and Acoustic Performance. Through comparative analysis of mainstream
FD-SLMs, we identify fundamental challenges: synchronous data scarcity,
architectural divergence, and evaluation gaps, providing a roadmap for
advancing human-AI communication.
Ссылки и действия
Дополнительные ресурсы: