📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Stream RAG: Instant and Accurate Spoken Dialogue Systems with Streaming Tool Usage

2025-10-04

Авторы:

Siddhant Arora, Haidar Khan, Kai Sun, Xin Luna Dong, Sajal Choudhary, Seungwhan Moon, Xinyuan Zhang, Adithya Sagar, Surya Teja Appini, Kaushik Patnaik, Sanat Sharma, Shinji Watanabe, Anuj Kumar, Ahmed Aly, Yue Liu, Florian Metze, Zhaojiang Lin

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

End-to-end speech-in speech-out dialogue systems are emerging as a powerful alternative to traditional ASR-LLM-TTS pipelines, generating more natural, expressive responses with significantly lower latency. However, these systems remain prone to hallucinations due to limited factual grounding. While text-based dialogue systems address this challenge by integrating tools such as web search and knowledge graph APIs, we introduce the first approach to extend tool use directly into speech-in speech-o...

ID: 2510.02044v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 HiKE: Hierarchical Evaluation Framework for Korean-English Code-Switching Speech Recognition

2025-10-01

Авторы:

Gio Paik, Yongbeom Kim, Soungmin Lee, Sangmin Ahn, Chanwoo Kim

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Despite advances in multilingual automatic speech recognition (ASR), code-switching (CS), the mixing of languages within an utterance common in daily speech, remains a severely underexplored challenge. In this paper, we introduce HiKE: the Hierarchical Korean-English code-switching benchmark, the first globally accessible evaluation framework for Korean-English CS, aiming to provide a means for the precise evaluation of multilingual ASR models and to foster research in the field. The proposed fr...

ID: 2509.24613v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 Building Tailored Speech Recognizers for Japanese Speaking Assessment

2025-09-27

Авторы:

Yotaro Kubo, Richard Sproat, Chihiro Taguchi, Llion Jones

#### Контекст В современной лингвистике использование систем распознавания речи приобретает важное значение, особенно при работе с языками, требующими точного определения интонационных и фонетических особенностей. Японский язык, несмотря на богатство ресурсов, представляет особые сложности в области распознавания речи из-за отсутствия достаточного количества данных для точного определения звуковых и интонационных маркеров (акцентов). Это приводит к увеличению ошибок в распознавании, особенно при использовании глобальных моделей, не учитывающих конкретные характеристики японского языка. Целью данного исследования является разработка более точных систем распознавания речи, которые могут обрабатывать задачи анализа японского произношения, включая интонации и фонетические маркеры. #### Метод Для улучшения точности распознавания речи, разработчики предложили два основных метода. Во-первых, **многозадачное обучение** (multitask learning), которое вводит дополнительные функции потерь для оценки ортографических текстовых меток и питовых паттернов входного сигнала. Это позволяет использовать данные, имеющие только ортографические метки, для обучения модели. Во-вторых, **функциональная свёртка** (fusion) двух оценщиков: один работает над алфавитной последовательностью фонемов, а другой — над последовательностью текстовых токенов. Для объединения этих оценок разработана алгоритмическая модель на основе трансдукторного правила (finite-state transducer). Эти методы стремятся улучшить точность распознавания звуков и интонаций, особенно в условиях ограниченных данных. #### Результаты Исследование проводилось на основе данных японских речевых ассесментов (CSJ core evaluation sets). Был проанализирован эффект применения многозадачного обучения и свёртки данных. Результаты показали существенное снижение ошибок распознавания звуков (mora-label error rates) — от 12.3% до 7.1%. Таким образом, многозадачное обучение и функциональная свёртка данных доказали свою эффективность в решении проблем с нехваткой данных в специализированных задачах распознавания японского произношения. #### Значимость Результаты исследования могут быть применены в различных областях, включая лингвистические задачи, автоматизацию преподавания языка, а также развитие новых технологий распознавания речи. Многозадачное обучение и функциональная свёртка данных демонстрируют свою преимущественность перед использованием общих моделей распознавания речи. Эти технологии могут стать базой для повышения точности распознавания речи, не только на японском языке, но и на других языках с

Annotation:

This paper presents methods for building speech recognizers tailored for Japanese speaking assessment tasks. Specifically, we build a speech recognizer that outputs phonemic labels with accent markers. Although Japanese is resource-rich, there is only a small amount of data for training models to produce accurate phonemic transcriptions that include accent marks. We propose two methods to mitigate data sparsity. First, a multitask training scheme introduces auxiliary loss functions to estimate o...

ID: 2509.20655v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model

2025-09-27

Авторы:

Hsiao-Ying Huang, Yi-Cheng Lin, Hung-yi Lee

## Контекст В последние годы растет интерес к области звукового анализа и распознавания эмоций в речевом дорожке. Это связано с ростом применения речевых технологий в различных сферах, таких как интерфейсы с произносимым контролем, психологический мониторинг и мобильные приложения. Однако существует значимая проблема — сильная зависимость речевых эмоциональных моделей от домена. Это означает, что модели, обученные на одном типе данных, часто не могут достичь высокого качества работы на других. Это проблема особенно актуальна при использовании больших моделей звука и языка (LALMs), таких как XLM-V, которые показывают сильную zero-shot способность в серьезных задачах, но не всегда могут хорошо применяться в реальных условиях. Это ограничение вызвано тем, что LALMs часто доступны только через API, а исходные данные, необходимые для доступа к этим моделям, закрыты. Наша мотивация заключается в поиске решения для этих проблем, особенно в ситуациях, когда source data unavailable и работа в cross-domain сценариях. ## Метод Предлагаемая методология MI-Fuse (Mutual-Information Fused Learning) представляет собой расширенную фреймворк для деноизвания лейблов в условиях неучитываемых зонда. Мы используем две модели: главную LALM-Teacher и вспомогательную SER-classifier. Обе модели обучаются на source domain, но только вспомогательная модель используется для предсказаний в target domain. Для стабилизации обучения используется экспоненциальное сглаживание для moving average teacher. Ключевая идея заключается в том, чтобы получать множество стохатических предсказаний от каждой модели и складывать их с использованием мутуальной информации в качестве веса для каждого. Это позволяет фокусироваться на более уверенных прогнозах, уменьшая влияние шума и неверных предсказаний. Такой подход обеспечивает более точный и стабильный вывод в сценариях cross-domain. ## Результаты Мы проводили эксперименты с MI-Fuse на трех публичных датасетах эмоционального распознавания, включая IEMOCAP, MSP-IMPROV и CMU-MOSEI. Для каждого теста производилось по шести переносам кросс-доменных моделей. Результаты показали, что студентская модель, обученная с помощью MI-Fuse, превосходит LALM-Teacher и самые сильные базовые модели на трёх тестовых датасетах. В итоге, студентская модель показала улучшение до 3.9% по отношению к сильнейшему базовому решению, что демонстрирует эффективность этого подхода в решении проблем условий cross-domain. ## Значимость Предлагаемый подход MI-Fuse имеет широкие применения в сферах, где требуется эмоциональный анализ речи с помощью LALMs, но нет доступа к source data. Например, он может применяться в системах мониторинга психического состояния, мобильных прило

Annotation:

Large audio-language models (LALMs) show strong zero-shot ability on speech tasks, suggesting promise for speech emotion recognition (SER). However, SER in real-world deployments often fails under domain mismatch, where source data are unavailable and powerful LALMs are accessible only through an API. We ask: given only unlabeled target-domain audio and an API-only LALM, can a student model be adapted to outperform the LALM in the target domain? To this end, we propose MI-Fuse, a denoised label ...

ID: 2509.20706v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 Speech Language Models for Under-Represented Languages: Insights from Wolof

2025-09-23

Авторы:

Yaya Sy, Dioula Doucouré, Christophe Cerisara, Irina Illina

## Контекст В последние годы рост интереса к развитию языковых моделей для недостаточно представленных языков стал очевидным. Одной из таких языков является Волоф, который говорят в Западной Африке. Несмотря на свою важность для местного населения, Волоф не имеет достаточного количества ресурсов для обучения языковых моделей, что приводит к существующим проблемам в доступности и качестве технологий на этом языке. Это мотивирует разработку моделей, которые могут улучшить обработку слов и фраз на Волофе, включая аспекты, такие как транскрипция речи и перевод. Эта работа сосредоточена на моделировании речи и текста на Волофе, чтобы помочь улучшить доступ к технологиям на этом языке. ## Метод Для создания модели речи на Волофе использовались данные, собранные в ходе специального сбора слов и фраз на этом языке. Данные были обработаны с помощью специальной архитектуры модели, которая использовалась для обучения модели речи. Модель была обучена на основе синтетических данных, а затем протестирована на реальных звуковых сигналах на Волофе. Для обучения модели речи использовались методы нейронного машинного обучения, в том числе продолжающийся предварительный перенос данных (continued pretraining), который позволил модели изучить языковые модели на большом объеме естественных данных. Это позволило улучшить качество модели, особенно в области распознавания речи и перевода текста. ## Результаты После проведения экспериментов было получено, что модель речи на Волофе демонстрирует значительное улучшение в распознавании звуков и перевода текста в сравнении с базовой моделью. Модель, обученная на данных Волофа, показала лучшие результаты по сравнению с общедоступными моделями, которые не были адаптированы для этого языка. Это указывает на то, что продолжительное обучение модели на большом объеме естественных данных помогает улучшить качество распознавания речи и перевода. Также было проверено, что модель может выполнять более сложные задачи, такие как многошаговый цепочный перевод текста, что демонстрирует её мощь и гибкость. ## Значимость Эта модель может иметь значительное значение для сообществ, которые говорят на Волофе, так как она позволяет улучшить доступ к Технологиям Натурального Языкового Процессинга. Это может помочь в развитии образовательных и систем здравоохранения, а также других областях, где необходимо использование языка Волоф. Модель также может иметь будущие приложения в области перевода текста на Волофе, что поможет снизить барьеры для местных граждан, которые не всегда могут общаться на других языках. ## Выводы В ходе этого исследования было доказано, что модель речи на В

Annotation:

We present our journey in training a speech language model for Wolof, an underrepresented language spoken in West Africa, and share key insights. We first emphasize the importance of collecting large-scale, spontaneous, high-quality speech data, and show that continued pretraining HuBERT on this dataset outperforms both the base model and African-centric models on ASR. We then integrate this speech encoder into a Wolof LLM to train the first Speech LLM for this language, extending its capabiliti...

ID: 2509.15362v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 BiRQ: Bi-Level Self-Labeling Random Quantization for Self-Supervised Speech Recognition

2025-09-23

Авторы:

Liuyuan Jiang, Xiaodong Cui, Brian Kingsbury, Tianyi Chen, Lisha Chen

## Контекст Самостоятельное обучение с подкреплением (self-supervised learning, SSL) является ключевым подходом для обработки звуковых сигналов, позволяющим эффективно извлекать представления из звуковых сигналов без масштабного требования ручной метки. Однако активность требует качественных меток для обучения, что оказывается трудоемким и дорогостоящим процессом. Например, в слушательской подготовке, где данные отмечены явным образом, требуется огромное количество времени и ресурсов для получения надежных меток. Билет (BiRQ) предлагает решение этой проблемы, объединяя простоту и высокую точность, чтобы обеспечить самостоятельную подготовку речи в сложных сценариях. ## Метод BiRQ представляет собой билетный (bi-level) подход к самостоятельной слушательской подготовке, где основная идея заключается в использовании части модели для производства подкрепленных меток. Модель выполняет дискретизацию посредством случайной проекции, чтобы создавать эффективные метки, в то же время используя стабилизующие метки, напрямую извлеченные из входных данных. Это динамическая система, которая использует билетный концепт для решения задачи с оптимизацией первого порядка. Инновационной частью является использование Gumbel-softmax для селективного обучения, что позволяет выполнять эту оптимизацию в безпрерывном режиме. ## Результаты Метод был проверен на различных речи-датасетах, таких как LibriSpeech (960 часов), AMI (150 часов) и YODAS (5000 часов). Эксперименты показали, что BiRQ существенно улучшает результаты по сравнению с BEST-RQ, оставаясь простым в реализации и эффективным в ресурсах. Это указывает на не только эффективность, но и устойчивость метода в различных условиях. ## Значимость BiRQ подходит для различных применений, включая системы транскрибации речи и системы распознавания речи в нетерминированных сценариях. Его главное преимущество заключается в том, что он объединяет простоту и эффективность, что делает его привлекательным для разработчиков. Билетный подход также открывает путь к будущим исследованиям в области самостоятельного обучения, в том числе в области изучения различных моделей автоматического распознавания речи. ## Выводы BiRQ достигает оптимального баланса между простотой и качеством меток, что делает его выдающимся решением для самостоятельного звукового обучения. Будущие исследования будут сосредоточены на расширении применения BiRQ к другим типам сигналов и улучшении его работы в условиях сильного шума и нестандартных акцентов.

Annotation:

Speech is a rich signal, and labeled audio-text pairs are costly, making self-supervised learning essential for scalable representation learning. A core challenge in speech SSL is generating pseudo-labels that are both informative and efficient: strong labels, such as those used in HuBERT, improve downstream performance but rely on external encoders and multi-stage pipelines, while efficient methods like BEST-RQ achieve simplicity at the cost of weaker labels. We propose BiRQ, a bilevel SSL fram...

ID: 2509.15430v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 Chunk Based Speech Pre-training with High Resolution Finite Scalar Quantization

2025-09-23

Авторы:

Yun Tang, Cindy Tseng

## Контекст Современные технологии управления речи становятся все более необходимыми в различных приложениях, от смартфонов до систем управления домашним техником. Однако в ситуациях, когда требуется высокая скорость обработки и низкая задержка, классические подходы к обучению моделей часто не могут справиться с этим заданием. Одной из основных проблем является то, что большинство существующих самостоятельно обучающихся алгоритмов разрабатывались с целью обработки полных фраз, тогда как в реальных ситуациях часто приходится работать с частичными фразами, например, во время передачи потокового аудио. Этот аспект становится ключевым при разработке методов, которые могут эффективно работать в структурированных, но частичных данных. Мы предлагаем метод, который может работать как в стриминговых, так и в оффлайн-режимах, предоставив более гибкий и эффективный подход к обучению моделей речи. ## Метод Наш подход, обозначаемый как Chunk-Based Self-Supervised Learning (Chunk SSL), предлагает новый подход к обучению моделей речи. Мы разбиваем аудио фрагменты на чанки (сегменты) и обучаем модель с помощью маскированного предсказания. Такой подход позволяет модели не только обучаться на всем фрагменте, но также использовать информацию из предыдущих чанков. Мы также используем копирование и добавление данных для эффективной пре-тренировки. Это позволяет модели превосходно работать в стриминговых сценариях, когда данные поступают потоком. Для эффективной обработки больших количеств данных, мы используем Финитный Скалярный Квантизатор (FSQ), что позволяет сократить вычислительные затраты и увеличить точность. Также, мы применяем групповую маскированную потерю, чтобы уменьшить память и вычислительные затраты в ходе обучения. ## Результаты Мы проверили нашу модель на двух различных датасетах: LibriSpeech и Must-C. Результаты показали, что наш подход дает высокую точность как в стриминговых, так и в оффлайновых сценариях. Модель показала себя эффективно в обеих задачах: речи в текст и перевод речи. В сравнении с другими самостоятельно обучающимися алгоритмами, наш метод демонстрирует более высокую точность и гибкость, особенно в ситуациях, когда данные поступают потоком. Это делает нашу модель более подходящей для реальных ситуаций, когда требуется высокая производительность и низкая задержка. ## Значимость Метод Chunk SSL может быть применен в различных областях, включая системы управления речи, распознавание речи, перевод речи и даже в развитие новых интерактивных систем. Он позволяет эффективно обрабатывать частичные данные, что очень важно в реальных

Annotation:

Low latency speech human-machine communication is becoming increasingly necessary as speech technology advances quickly in the last decade. One of the primary factors behind the advancement of speech technology is self-supervised learning. Most self-supervised learning algorithms are designed with full utterance assumption and compromises have to made if partial utterances are presented, which are common in the streaming applications. In this work, we propose a chunk based self-supervised learni...

ID: 2509.15579v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 VOX-KRIKRI: Unifying Speech and Language through Continuous Fusion

2025-09-23

Авторы:

Dimitrios Damianos, Leon Voukoutis, Georgios Paraskevopoulos, Vassilis Katsouros

#### Контекст В последние годы значительный прогресс в области распознавания речи и обработки естественного языка был достигнут благодаря развитию больших языковых моделей (LLM) и архитектур с преобразованием Фурье. Однако проблема существует в синергетичном использовании этих моделей для обеспечения более развитой интерактивности между речи и языком. Особенно выраженная эта проблема в многоязычных и низкоресурсных регионах, где доступ к сложным технологиям ограничен. Наша исследовательская группа адресовала эту проблему, стремясь создать модель, которая бы учитывала обе модели в равной степени, повышая точность и общую эффективность. #### Метод Мы предлагаем **VOX-KRIKRI**, рамочную систему, которая объединяет предварительно обученные LLM-модели и акустические архитектуры, такие как Whisper, для построения системы с преобразованием речи и языка. В отличие от прямого использования акустических эмбеддингов, мы предлагаем интермедиатную модель, объединяющую акустические скрытые состояния лексического моделирования с текстовыми эмбеддингами. Модель работает в постоянном виде и может быть применена в оффлайн и режиме стриминга. Мы также представили первую греческую модель с преобразованием речи и языка, которая является результатом нашего подхода. Основной механизм — это межмодальное взаимодействие через кросс-модальное внимание, которое позволяет модели одновременно обрабатывать речевые и языковые сигналы. #### Результаты Мы провели многочисленные эксперименты с различными данными и показали, что наш подход позволяет достичь существенных улучшений в распознавании речи. Мы проверили нашу модель на греческом языке, и результаты показали относительное улучшение в распознавании речи на $\sim 20\%$ по сравнению с предыдущими решениями. Эти результаты были достигнуты благодаря мощному кросс-модальному взаимодействию и эффективной интеграции LLM и акустических моделей. Мы также проверили нашу модель на других языках и получили положительные результаты, что подтверждает многоязычность и эффективность нашего подхода. #### Значимость Наше решение имеет большое значение для многоязычных и низкоресурсных решений в области транскрибирования речи. Эта модель может быть применена в различных сферах, включая здравоохранение, преподавание и управление, где преобразование речи и языка является ключевым компонентом. Мы показали, что континьюирование в пространстве текста в качестве метода фузирования может быть эффективно для решения проблемы многоязычного распознавания речи и обеспечивает новые шан

Annotation:

We present a multimodal fusion framework that bridges pre-trained decoder-based large language models (LLM) and acoustic encoder-decoder architectures such as Whisper, with the aim of building speech-enabled LLMs. Instead of directly using audio embeddings, we explore an intermediate audio-conditioned text space as a more effective mechanism for alignment. Our method operates fully in continuous text representation spaces, fusing Whisper's hidden decoder states with those of an LLM through cross...

ID: 2509.15667v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 Fine-Tuning Large Multimodal Models for Automatic Pronunciation Assessment

2025-09-23

Авторы:

Ke Wang, Wenning Wei, Yan Deng, Lei He, Sheng Zhao

#### Контекст Automatic Pronunciation Assessment (APA) является ключевым компонентом Computer-Assisted Language Learning (CALL), позволяя оценивать речевые навыки студентов в различных аспектах и уровнях гранулярности. Однако, существующие методы часто сталкиваются с ограничениями в точности, гибкости и объеме обучающих данных. Большие multimodal models (LMMs), в свою очередь, предлагают новые возможности для решения этих проблем, однако их применение в области APA еще низкозадействовано. Мотивация исследования заключается в исследовании возможностей LMMs для fine-grained assessment в CALL и определении их преимуществ и ограничений в этой области. #### Метод Для исследования использовался Speechocean762 dataset, а также специальный private corpus, содержащий записи речи и метки для оценки произношения. Методология включала fine-tuning LMMs с помощью transfer learning на основе задачи classification. Модель обучалась на знакомом датасете и адаптировалась к новым данным с помощью fine-tuning. Для оценки результатов использовались Pearson Correlation Coefficient (PCC) и Spearman's rank Correlation Coefficient (SCC), которые позволяют измерить корреляцию между прогностическими и тестовыми оценками. Набор экспериментов включал fine-grained assessment на разных гранулярностях: phoneme, word и sentence levels. #### Результаты Fine-tuning LMMs позволило значительно повысить эффективность по сравнению с zero-shot настройкой. Модель показала высокую точность на word и sentence levels, предоставляя результаты, конкурентоспособные с public и commercial systems. Однако phoneme-level assessment остается сложной задачей, где LMMs показывают существенные ограничения. PCC достиг 0.9, что указывает на высокую корреляцию, но SCC остался на уровне 0.6, что отражает несовершенство ordinal consistency в сравнении с PCC. #### Значимость Полученные результаты открывают перспективы применения LMMs в CALL, особенно для fine-grained assessment в CALL. Модель демонстрирует высокую эффективность в word и sentence levels, что может быть использовано для оценки прогресса студентов в речевых навыках. Тем не менее, существующие ограничения в phoneme-level assessment требуют дальнейших исследований. Направления будущих исследований могут включать развитие fine-grained modeling, а также рассмотрение rank-aware evaluation для более точной оценки ordinal consistency. #### Выводы Исследование показало, что fine-tuning LMMs является эффективным способом улучшения Automatic Pronunciation Assessment в CALL. Однако, существуют ограничения, особенно в phoneme-level assessment, которые требуют дополнительных исследований. Общий потенциал LMMs в CALL очевиден, и дальнейшие работы могут сфокусироваться на развитии более точных и rank-aware моделей.

Annotation:

Automatic Pronunciation Assessment (APA) is critical for Computer-Assisted Language Learning (CALL), requiring evaluation across multiple granularities and aspects. Large Multimodal Models (LMMs) present new opportunities for APA, but their effectiveness in fine-grained assessment remains uncertain. This work investigates fine-tuning LMMs for APA using the Speechocean762 dataset and a private corpus. Fine-tuning significantly outperforms zero-shot settings and achieves competitive results on sin...

ID: 2509.15701v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 From Turn-Taking to Synchronous Dialogue: A Survey of Full-Duplex Spoken Language Models

2025-09-20

Авторы:

Yuxuan Chen, Haoyuan Yu

## Контекст Улучшение голосового взаимодействия между людьми и системами — задача, на протяжении десятилетий требующая решения в области искусственного интеллекта. Особенно важной является задача построения систем, которые бы смогли принимать решения сразу в течение разговора, не дожидаясь завершения выступления одной стороны. Это называется True Full-Duplex (TFD) связью. Проблема заключается в том, что традиционные модели не умеют нормально обрабатывать многоуровневые ситуации: говорить и слушать одновременно, включая перекрывающиеся речи или прерывания. Эти сложности ограничивают модели в способности вести природный, людский разговор. Мотивация для данного исследования состоит в том, чтобы изучить новые подходы к построению моделей, которые бы полностью копировали человеческий метод общения — слушая и говоря одновременно, смысленно и без прерываний. ## Метод Для построения моделей Full-Duplex Spoken Language Models (FD-SLMs) используют два основных подхода: Engineered Synchronization и Learned Synchronization. В первом случае строится модульная архитектура, где каждая функция (например, синхронизация, семантическое понимание) выполняется отдельным модулем. Во втором случае применяется единая конечно-полное архитектура (end-to-end), где все процессы обучаются вместе. Также важной частью этого метода является формирование каркаса для оценки моделей, который включает в себя несколько основных аспектов: Темпоральные Динамики (как модель справляется с перекрывающимися речью), Бихевиоральную Арбитрацию (как модель решает когда говорить или слушать), Семантическую Размышленность (как хорошо модель понимает и выражает смысл) и Акустическую Производительность (качество звука). ## Результаты В ходе исследования были проведены эксперименты с несколькими моделями FD-SLMs. Использовались различные данные, включая синтезированные голоса и реальные записи разговоров. На основе этих экспериментов были получены следующие результаты: 1) модели с Learned Synchronization показали более высокую семантическую точность и естественность в общении. 2) Модели с Engineered Synchronization демонстрировали лучшую реакцию на синхронизационные задачи. В целом, результаты показали, что в области синхронного разговора существуют значительные разрывы в понимании, архитектуре и оценке моделей. ## Значимость Результаты этого исследования могут быть применены в различных областях, таких как виртуальные помощники, конференц-связь и системы управления. Основные преимущества: повышение эффективности взаимодействия систем и человека, улучшение понимания пользователей и более естественное взаимодействие. Люди с огра

Annotation:

True Full-Duplex (TFD) voice communication--enabling simultaneous listening and speaking with natural turn-taking, overlapping speech, and interruptions--represents a critical milestone toward human-like AI interaction. This survey comprehensively reviews Full-Duplex Spoken Language Models (FD-SLMs) in the LLM era. We establish a taxonomy distinguishing Engineered Synchronization (modular architectures) from Learned Synchronization (end-to-end architectures), and unify fragmented evaluation appr...

ID: 2509.14515v1 cs.CL, cs.SD, eess.AS

arXiv PDF

Показано 11 - 20 из 33 записей