📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

2025-11-15

Авторы:

He Zhang, Wenqian Cui, Haoning Xu, Xiaohui Li, Lei Zhu, Shaohua Ma, Irwin King

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Full-Duplex Speech Language Models (FD-SLMs) enable real-time, overlapping conversational interactions, offering a more dynamic user experience compared to traditional half-duplex models. However, existing benchmarks primarily focus on evaluating single-round interactions and conversational features, neglecting the complexities of multi-round communication and critical capabilities such as instruction following and safety. Evaluating FD-SLMs in multi-round settings poses significant challenges, ...

ID: 2511.10262v1 cs.CL, cs.AI, eess.AS

arXiv PDF

📄 Closing the Gap Between Text and Speech Understanding in LLMs

2025-10-17

Авторы:

Santiago Cuervo, Skyler Seto, Maureen de Seyssel, Richard He Bai, Zijin Gu, Tatiana Likhomanenko, Navdeep Jaitly, Zakaria Aldeneh

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Language Models (LLMs) can be adapted to extend their text capabilities to speech inputs. However, these speech-adapted LLMs consistently underperform their text-based counterparts--and even cascaded pipelines--on language understanding tasks. We term this shortfall the text-speech understanding gap: the performance drop observed when a speech-adapted LLM processes spoken inputs relative to when the original text-based LLM processes the equivalent text. Recent approaches to narrowing this ...

ID: 2510.13632v1 cs.CL, cs.AI, eess.AS

arXiv PDF

📄 Can Speech LLMs Think while Listening?

2025-10-11

Авторы:

Yi-Jen Shih, Desh Raj, Chunyang Wu, Wei Zhou, SK Bong, Yashesh Gaur, Jay Mahadeokar, Ozlem Kalinli, Mike Seltzer

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent advances in speech large language models (speech LLMs) have enabled seamless spoken interactions, but these systems still struggle with complex reasoning tasks. Previously, chain-of-thought (CoT) prompting or fine-tuning has been to shown to significantly improve the reasoning abilities of text-based LLMs. In this work, we investigate the effect of CoT fine-tuning for multi-stream speech LLMs, demonstrating that reasoning in text space improves the accuracy of speech LLMs by 2.4x, on aver...

ID: 2510.07497v1 cs.CL, cs.AI, eess.AS

arXiv PDF

📄 Z-Scores: A Metric for Linguistically Assessing Disfluency Removal

2025-09-26

Авторы:

Maria Teleki, Sai Janjur, Haoran Liu, Oliver Grabner, Ketan Verma, Thomas Docog, Xiangjue Dong, Lingfeng Shi, Cong Wang, Stephanie Birkelbach, Jason Kim, Yin Zhang, James Caverlee

## Контекст Оценка дисфлюенции в речи является клллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллллл

Annotation:

Evaluating disfluency removal in speech requires more than aggregate token-level scores. Traditional word-based metrics such as precision, recall, and F1 (E-Scores) capture overall performance but cannot reveal why models succeed or fail. We introduce Z-Scores, a span-level linguistically-grounded evaluation metric that categorizes system behavior across distinct disfluency types (EDITED, INTJ, PRN). Our deterministic alignment module enables robust mapping between generated text and disfluent t...

ID: 2509.20319v1 cs.CL, cs.AI, eess.AS

arXiv PDF

📄 DRES: Benchmarking LLMs for Disfluency Removal

2025-09-26

Авторы:

Maria Teleki, Sai Janjur, Haoran Liu, Oliver Grabner, Ketan Verma, Thomas Docog, Xiangjue Dong, Lingfeng Shi, Cong Wang, Stephanie Birkelbach, Jason Kim, Yin Zhang, James Caverlee

## Контекст Несовершенство речи, характеризующееся говорящим через запястья, интерьерами и другими неструктурированными элементами, является значительной проблемой для систем, ориентированных на речевые вводимые данные. Эти неточности существенно снижают точность в интерпретации команд, суммировании текста и взаимодействии с беседами. Для улучшения понимания и обработки речи необходимо развитие методов, способных эффективно удалять эти несовершенства. Однако существующие тестировочные среды часто испытывают проблемы, недостаточно тщательно различая речевые несовершенства от ошибок в распознавании речи (ASR). Для того чтобы избежать этих недостатков, авторы предлагают DRES — новую контролируемую базу данных, которая позволяет детально изучать модели, ориентированные на удаление несовершенств речи. ## Метод DRES (Disfluency Removal Evaluation Suite) основан на говорящих сегментах, извлеченных из транскриптов Switchboard, которые были тщательно аннотированы для удаления речевых несовершенств. Эта база данных разделяет задачу удаления несовершенств от распознавания речи (ASR), чтобы снизить влияние ошибок в распознавании речи на результат. Кроме того, DRES предлагает моделирование различных сценариев, включая различные типы несовершенств и их контексты. Это позволяет провести подробные эксперименты с различными моделями, подходами к моделированию и стилями подкрепления. ## Результаты Естественным образом, ряд экспериментов проводился, чтобы сравнить различные модели в задаче удаления речевых несовершенств. Эти модели были протестированы на DRES, используюсь различные стили моделирования и конфигурации. Отдельное внимание было уделено семантическим ошибкам, которые могут возникнуть в результате удаления несовершенств. Эксперименты показали, что модели, ориентированные на разумное моделирование, часто игнорируют логические вспомогательные элементы и, следовательно, могут удалить больше текста, чем нужно. Однако модели с большим контекстом показали улучшение в общем понимании речи, но с меньшей точностью в отношении удаления несовершенств. ## Значимость Благодаря своей репликабельности и модельно-независимости, DRES предоставляет возможность для последовательных исследований в области удаления речевых несовершенств. Он позволяет лучше понять ошибки, которые могут возникнуть в речевых системах и помогает разрабатывать методы, которые лучше справляются с этими несовершенствами. Эта база данных также может быть использована в сферах, таких как разговорные помощники, системы транскрибирования и автоматическая синтеза речи, чтобы создать более точные и эффективные системы.

Annotation:

Disfluencies -- such as "um," "uh," interjections, parentheticals, and edited statements -- remain a persistent challenge for speech-driven systems, degrading accuracy in command interpretation, summarization, and conversational agents. We introduce DRES (Disfluency Removal Evaluation Suite), a controlled text-level benchmark that establishes a reproducible semantic upper bound for this task. DRES builds on human-annotated Switchboard transcripts, isolating disfluency removal from ASR errors and...

ID: 2509.20321v1 cs.CL, cs.AI, eess.AS

arXiv PDF

📄 Incorporating Contextual Paralinguistic Understanding in Large Speech-Language Models

2025-08-13

Авторы:

Qiongqiong Wang, Hardik B. Sailor, Jeremy H. M. Wong, Tianchi Liu, Shuo Sun, Wenyu Zhang, Muhammad Huzaifah, Nancy Chen, Ai Ti Aw

## Контекст В последние годы появились большие модели языка, которые обладают высокой точностью в обработке текстовых данных. Однако в сфере распознавания речи эти модели часто сталкиваются с проблемами, связанными с недостаточным пониманием контекста и паралюнгвистических признаков, таких как эмоциональные оттенки или тональность. Это ограничивает их применение в сценариях, требующих эмоционального рассуждения, таких как взаимодействия с клиентами или помощь людям с ограниченными функциями языка. Необходимо развить методы, которые позволят моделям лучше понимать и реагировать на эти паралюнгвистические сигналы, улучшая их эмоциональную интеллектуальность. ## Метод Мы предлагаем два подхода для включения контекста и паралюнгвистических признаков в обучение больших моделей речевого понимания. **Первый подход** — это прямое использование паралюнгвистической метаинформации, такой как аннотации эмоций, напрямую в процессе обучения модели. **Второй подход** — это автоматическое генерирование вопросов-ответов (QA-пар) на основе категориальных и димиенциональных аннотаций эмоций, а также речевых транскрипций. Этот подход позволяет модели не только получить информацию о контексте, но и сформировать самостоятельные мысли об эмоции, улучшая ее углубленное понимание. ## Результаты Мы провели эксперименты с применением двух подходов на корпусе QA-пар с человеческими аннотациями эмоций. Эксперименты показали, что **автоматическое генерирование QA-пар повышает точность модели на 38.41% в сравнении с базовой версией LLM**. Когда оба подхода (explicit и implicit) объединяются, результаты улучшаются до **46.02%**, что демонстрирует эффективность комбинированного подхода. Также мы проверили надежность LLM-judge, обнаружив высокую корреляцию с классическими методами оценки качества моделей. ## Значимость Наши результаты доказывают, что модели с поддержкой контекста и паралюнгвистических признаков могут значительно улучшиться в задачах, требующих эмоционального рассуждения. Это открывает широкие перспективы для использования в сферах, таких как клиентская служба, медицинское обслуживание и социальная поддержка. Преимущества нашего подхода также заключаются в том, что он может быть интегрирован в уже существующие модели без внесения значительных изменений в архитектуру и обучение. Это делает его привлекательным для практического применения. ## Выводы Мы успешно продемонстрировали, что интеграция контекста и паралюнгвистических признаков в модели речи-языка может значительно улучшить их эмоциональное понимание. Нашей

Annotation:

Current large speech language models (Speech-LLMs) often exhibit limitations in empathetic reasoning, primarily due to the absence of training datasets that integrate both contextual content and paralinguistic cues. In this work, we propose two approaches to incorporate contextual paralinguistic information into model training: (1) an explicit method that provides paralinguistic metadata (e.g., emotion annotations) directly to the LLM, and (2) an implicit method that automatically generates nove...

ID: 2508.07273v1 cs.CL, cs.AI, eess.AS

arXiv PDF