DRES: Benchmarking LLMs for Disfluency Removal

2509.20321v1 cs.CL, cs.AI, eess.AS 2025-09-26

Авторы:

Maria Teleki, Sai Janjur, Haoran Liu, Oliver Grabner, Ketan Verma, Thomas Docog, Xiangjue Dong, Lingfeng Shi, Cong Wang, Stephanie Birkelbach, Jason Kim, Yin Zhang, James Caverlee

Резюме на русском

## Контекст Несовершенство речи, характеризующееся говорящим через запястья, интерьерами и другими неструктурированными элементами, является значительной проблемой для систем, ориентированных на речевые вводимые данные. Эти неточности существенно снижают точность в интерпретации команд, суммировании текста и взаимодействии с беседами. Для улучшения понимания и обработки речи необходимо развитие методов, способных эффективно удалять эти несовершенства. Однако существующие тестировочные среды часто испытывают проблемы, недостаточно тщательно различая речевые несовершенства от ошибок в распознавании речи (ASR). Для того чтобы избежать этих недостатков, авторы предлагают DRES — новую контролируемую базу данных, которая позволяет детально изучать модели, ориентированные на удаление несовершенств речи. ## Метод DRES (Disfluency Removal Evaluation Suite) основан на говорящих сегментах, извлеченных из транскриптов Switchboard, которые были тщательно аннотированы для удаления речевых несовершенств. Эта база данных разделяет задачу удаления несовершенств от распознавания речи (ASR), чтобы снизить влияние ошибок в распознавании речи на результат. Кроме того, DRES предлагает моделирование различных сценариев, включая различные типы несовершенств и их контексты. Это позволяет провести подробные эксперименты с различными моделями, подходами к моделированию и стилями подкрепления. ## Результаты Естественным образом, ряд экспериментов проводился, чтобы сравнить различные модели в задаче удаления речевых несовершенств. Эти модели были протестированы на DRES, используюсь различные стили моделирования и конфигурации. Отдельное внимание было уделено семантическим ошибкам, которые могут возникнуть в результате удаления несовершенств. Эксперименты показали, что модели, ориентированные на разумное моделирование, часто игнорируют логические вспомогательные элементы и, следовательно, могут удалить больше текста, чем нужно. Однако модели с большим контекстом показали улучшение в общем понимании речи, но с меньшей точностью в отношении удаления несовершенств. ## Значимость Благодаря своей репликабельности и модельно-независимости, DRES предоставляет возможность для последовательных исследований в области удаления речевых несовершенств. Он позволяет лучше понять ошибки, которые могут возникнуть в речевых системах и помогает разрабатывать методы, которые лучше справляются с этими несовершенствами. Эта база данных также может быть использована в сферах, таких как разговорные помощники, системы транскрибирования и автоматическая синтеза речи, чтобы создать более точные и эффективные системы.

Abstract

Disfluencies -- such as "um," "uh," interjections, parentheticals, and edited statements -- remain a persistent challenge for speech-driven systems, degrading accuracy in command interpretation, summarization, and conversational agents. We introduce DRES (Disfluency Removal Evaluation Suite), a controlled text-level benchmark that establishes a reproducible semantic upper bound for this task. DRES builds on human-annotated Switchboard transcripts, isolating disfluency removal from ASR errors and acoustic variability. We systematically evaluate proprietary and open-source LLMs across scales, prompting strategies, and architectures. Our results reveal that (i) simple segmentation consistently improves performance, even for long-context models; (ii) reasoning-oriented models tend to over-delete fluent tokens; and (iii) fine-tuning achieves near state-of-the-art precision and recall but harms generalization abilities. We further present a set of LLM-specific error modes and offer nine practical recommendations (R1-R9) for deploying disfluency removal in speech-driven pipelines. DRES provides a reproducible, model-agnostic foundation for advancing robust spoken-language systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

DRES: Benchmarking LLMs for Disfluency Removal

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations...

Closing the Gap Between Text and Speech Understanding in LLMs

Can Speech LLMs Think while Listening?

Z-Scores: A Metric for Linguistically Assessing Disfluency Removal

Incorporating Contextual Paralinguistic Understanding in Large Speech-Language M...

Навигация