📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Revisiting Direct Speech-to-Text Translation with Speech LLMs: Better Scaling than CoT Prompting?

2025-10-07

Авторы:

Oriol Pareras, Gerard I. Gállego, Federico Costa, Cristina España-Bonet, Javier Hernando

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent work on Speech-to-Text Translation (S2TT) has focused on LLM-based models, introducing the increasingly adopted Chain-of-Thought (CoT) prompting, where the model is guided to first transcribe the speech and then translate it. CoT typically outperforms direct prompting primarily because it can exploit abundant Automatic Speech Recognition (ASR) and Text-to-Text Translation (T2TT) datasets to explicitly model its steps. In this paper, we systematically compare CoT and Direct prompting under...

ID: 2510.03093v1 cs.CL, cs.SD

arXiv PDF

📄 Listening or Reading? Evaluating Speech Awareness in Chain-of-Thought Speech-to-Text Translation

2025-10-07

Авторы:

Jacobo Romero-Díaz, Gerard I. Gállego, Oriol Pareras, Federico Costa, Javier Hernando, Cristina España-Bonet

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Speech-to-Text Translation (S2TT) systems built from Automatic Speech Recognition (ASR) and Text-to-Text Translation (T2TT) modules face two major limitations: error propagation and the inability to exploit prosodic or other acoustic cues. Chain-of-Thought (CoT) prompting has recently been introduced, with the expectation that jointly accessing speech and transcription will overcome these issues. Analyzing CoT through attribution methods, robustness evaluations with corrupted transcripts, and pr...

ID: 2510.03115v1 cs.CL, cs.SD

arXiv PDF

📄 Spiralformer: Low Latency Encoder for Streaming Speech Recognition with Circular Layer Skipping and Early Exiting

2025-10-04

Авторы:

Emiru Tsunoo, Hayato Futami, Yosuke Kashiwagi, Siddhant Arora, Shinji Watanabe

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

For streaming speech recognition, a Transformer-based encoder has been widely used with block processing. Although many studies addressed improving emission latency of transducers, little work has been explored for improving encoding latency of the block processing. We seek to reduce latency by frequently emitting a chunk with a small shift rather than scarce large-chunk emissions, resulting in higher computational costs. To efficiently compute with the small chunk shift, we propose a new encode...

ID: 2510.00982v1 eess.AS, cs.CL, cs.SD

arXiv PDF

📄 Chain-of-Thought Reasoning in Streaming Full-Duplex End-to-End Spoken Dialogue Systems

2025-10-04

Авторы:

Siddhant Arora, Jinchuan Tian, Hayato Futami, Jiatong Shi, Yosuke Kashiwagi, Emiru Tsunoo, Shinji Watanabe

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Most end-to-end (E2E) spoken dialogue systems (SDS) rely on voice activity detection (VAD) for turn-taking, but VAD fails to distinguish between pauses and turn completions. Duplex SDS models address this by predicting output continuously, including silence tokens, thus removing the need for explicit VAD. However, they often have complex dual-channel architecture and lag behind cascaded models in semantic reasoning. To overcome these challenges, we propose SCoT: a Streaming Chain-of-Thought (CoT...

ID: 2510.02066v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 Stream RAG: Instant and Accurate Spoken Dialogue Systems with Streaming Tool Usage

2025-10-04

Авторы:

Siddhant Arora, Haidar Khan, Kai Sun, Xin Luna Dong, Sajal Choudhary, Seungwhan Moon, Xinyuan Zhang, Adithya Sagar, Surya Teja Appini, Kaushik Patnaik, Sanat Sharma, Shinji Watanabe, Anuj Kumar, Ahmed Aly, Yue Liu, Florian Metze, Zhaojiang Lin

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

End-to-end speech-in speech-out dialogue systems are emerging as a powerful alternative to traditional ASR-LLM-TTS pipelines, generating more natural, expressive responses with significantly lower latency. However, these systems remain prone to hallucinations due to limited factual grounding. While text-based dialogue systems address this challenge by integrating tools such as web search and knowledge graph APIs, we introduce the first approach to extend tool use directly into speech-in speech-o...

ID: 2510.02044v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 Optimizing Speech Language Models for Acoustic Consistency

2025-10-02

Авторы:

Morteza Rohanian, Michael Krauthammer

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We study speech language models that incorporate semantic initialization and planning losses to achieve robust and consistent generation. Our approach initializes speech tokens with self-supervised features, applies a light alignment loss, and trains with thinning and auxiliary objectives that target robustness and content planning. We train three models: a 0.7B speech-only model, a 1.0B speech-only model, and a 1.0B interleaved model with both text and speech. Acoustic studies show that the spe...

ID: 2509.26276v1 cs.CL, cs.SD

arXiv PDF

📄 HiKE: Hierarchical Evaluation Framework for Korean-English Code-Switching Speech Recognition

2025-10-01

Авторы:

Gio Paik, Yongbeom Kim, Soungmin Lee, Sangmin Ahn, Chanwoo Kim

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Despite advances in multilingual automatic speech recognition (ASR), code-switching (CS), the mixing of languages within an utterance common in daily speech, remains a severely underexplored challenge. In this paper, we introduce HiKE: the Hierarchical Korean-English code-switching benchmark, the first globally accessible evaluation framework for Korean-English CS, aiming to provide a means for the precise evaluation of multilingual ASR models and to foster research in the field. The proposed fr...

ID: 2509.24613v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 AUDDT: Audio Unified Deepfake Detection Benchmark Toolkit

2025-09-30

Авторы:

Yi Zhu, Heitor R. Guimarães, Arthur Pimentel, Tiago Falk

## Контекст С появлением технологий искусственного интеллекта (AI) в последние годы, включая глубокое обучение, возникло много AI-генерируемого контента, такого как звуковые deepfakes. Эти звуковые deepfakes могут способствовать мошенничеству, предубеждениям и дезинформации, что делает их детекцию крайне важной. Однако существующие модели детекции звуковых deepfakes часто оцениваются на малых наборах данных, что ограничивает их обобщение на реальные условия. Это создает необходимость в разработке широкой базы данных и методов оценки моделей детекции. Мы предлагаем AUDDT — Audio Unified Deepfake Detection Benchmark Toolkit, который автоматизирует оценку предварительно обученных моделей детекции в 28 различных датасетах, чтобы дать пользователям четкий взгляд на преимущества и недостатки их моделей. ## Метод AUDDT — это открытое исходное программное обеспечение, которое автоматизирует оценку моделей детекции звуковых deepfakes на 28 различных датасетах. Этот тест-кейс позволяет пользователям проверить предварительно обученные модели на различных условиях и типах мошенничества. Мы создали широкий набор звуковых датасетов, включающий 28 различных групп, таких как различные типы мошенничества, глубина модификации, качество звука и др. Наша методология включает выбор метрик оценки и разработку автоматизированного процесса для сравнения моделей на этих датасетах. Это позволяет пользователям оценить модели во время работы, сравнить результаты и получить подробный анализ производительности модели. ## Результаты Мы проводили ряд экспериментов с помощью широко используемой предварительно обученной модели детекции звуковых deepfakes. Мы протестировали модель на внутренних и внешних наборах данных, чтобы продемонстрировать различия в производительности в зависимости от типа мошенничества и уровня модификации. Результаты показали, что модель показывает высокую точность в определении глубоко модифицированных аудио, но имеет некоторые недостатки в определении менее заметных мошенничеств. Мы также проанализировали различные типы звуковых датасетов, показав, что качество данных и размер датасета могут существенно влиять на результаты. ## Значимость AUDDT может быть использован в различных областях, включая безопасность информации, медиа-анализ и научное исследование. Он позволяет выявить слабые места в моделях детекции, чтобы улучшить их. Наша система предоставляет разработчикам инструмент для определения наиболее уязвимых типов мошенничества и для работы над их преодолением. Это может стать ключевым инструментом для создания надежных моделей, которые могут быть применены в реальных

Annotation:

With the prevalence of artificial intelligence (AI)-generated content, such as audio deepfakes, a large body of recent work has focused on developing deepfake detection techniques. However, most models are evaluated on a narrow set of datasets, leaving their generalization to real-world conditions uncertain. In this paper, we systematically review 28 existing audio deepfake datasets and present an open-source benchmarking toolkit called AUDDT (https://github.com/MuSAELab/AUDDT). The goal of this...

ID: 2509.21597v1 eess.AS, cs.CL, cs.SD

arXiv PDF

📄 Thinking with Sound: Audio Chain-of-Thought Enables Multimodal Reasoning in Large Audio-Language Models

2025-09-30

Авторы:

Zhen Xiong, Yujun Cai, Zhecheng Li, Junsong Yuan, Yiwei Wang

## Контекст В последние годы опытные бо LALMs (Large Audio-Language Models) показали сильный результат в различных задачах понимания аудио, таких как перевод речи и аудио-вопросы-ответы. Однако, несмотря на эти достижения, они сталкиваются с значительными ограничениями при работе с задачами рассуждения в аудио, особенно в сложных акустических сценариях. Например, в таких ситуациях необходимы акустические инструменты, такие как убирание шума, изоляция источников звука и точное временное выравнивание. Несмотря на то, что эти инструменты могут быть полезны, современные LALMs не обладают доступом к ним. Эта проблема становится более важной, так как повышение уровня звуковой природности и объема сложных аудиоданных, с которыми сталкиваются пользователи, поднимает требования к моделям в области системы рассуждения в аудио. Для решения этой проблемы мы предлагаем Thinking-with-Sound (TwS), новую фреймворк, которая дает LALMs возможность применять Audio CoT (Audio Chain-of-Thought), комбинируя языковое рассуждение с анализом в реальном времени в аудиодомене. Это предложение отличается от существующих подходов, где аудио трактуется как статический ввод, и позволяет моделям активно "рассуждать с помощью звука", выполняя цифровое создание числовых данных и дальнейшую обработку через многомодальное рассуждение. ## Метод Предлагаемая методология, Thinking-with-Sound (TwS), включает в себя многоуровневый подход для комбинирования языкового и аудио-рассуждения. В своей основе TwS имеет архитектуру, которая позволяет LALMs активно выполнять рассуждение в аудиодомене, используя набор акустических инструментов, таких как источник сегментации, шумоподавление и временное выравнивание. Эти инструменты интегрируются в модель непосредственно во время работы, чтобы обеспечить наибольшую точность и реактивность. Метод TwS также использует многомодальное рассуждение, чтобы объединить входящие звуковые сигналы с текстовыми данными, а затем анализировать и интепретировать их совместно. Это позволяет модели не только понимать звуковые сигналы, но и активно рассуждать над ними, чтобы улучшить результаты понимания и обработки аудиоданных. Эта методика отличается от прежних подходов, где модели обычно работают только с текстовыми входными данными и имеют ограниченные возможности анализа аудиосигналов. ## Результаты Для оценки эффективности TwS мы провели ряд экспериментов, использовав различные задачи понимания аудио и подвергнув их проблемам, таким как удаление шума, искажение звука и многоканальное смешивание. Мы использовали обучающие данные из наборов данных, таких как AudioSet и LibriSpe

Annotation:

Recent Large Audio-Language Models (LALMs) have shown strong performance on various audio understanding tasks such as speech translation and Audio Q\&A. However, they exhibit significant limitations on challenging audio reasoning tasks in complex acoustic scenarios. These situations would greatly benefit from the use of acoustic tools like noise suppression, source separation, and precise temporal alignment, but current LALMs lack access to such tools. To address this limitation, we introduce Th...

ID: 2509.21749v1 cs.CL, cs.SD

arXiv PDF

📄 Speak Your Mind: The Speech Continuation Task as a Probe of Voice-Based Model Bias

2025-09-30

Авторы:

Shree Harsha Bokkahalli Satish, Harm Lameris, Olivier Perrotin, Gustav Eje Henter, Éva Székely

## Контекст **Speech Continuation (SC)** — это задача генерирования когнетивно согласованных и контекстуально подходящих продлений речи с учетом исходной фразы и аудиоконтекста. Она отличается тем, что ограничена одним аудиопотоком, что позволяет более точно проверить модели голоса на наличие социально релевантных биасосов. Несмотря на прогресс в области глубокого обучения, модели голоса часто склонны к стереотипам и неравенствам. Это влияет на их удобочитаемость и точность в реальном мире, особенно в контексте языковой идентификации и социальной нормы. **Speak Your Mind** — первое систематическое исследование, которое изучает эти биасы в задаче SC, определяя, как гендер и тип фонота (пушистый, хриплый, конечный хрип) влияют на продолжающиеся фразы. Это позволяет выявить проблемы со специальными моделями речи, включая представления о женщинах, гомофониях и типе голоса. ## Метод **Speak Your Mind** использует множество метрик для оценки продолжений речи: **semantic fidelity** (точность содержания), **coherence** (логичность), **speaker similarity** (похожесть на голос), и **voice quality preservation** (сохранение голоса). Три модели голоса исследуются: **SpiritLM (base и expressive)**, **VAE-GSLM**, и **SpeechGPT**. Модели обучаются на разных данных, чтобы сравнить гендерные и типы голоса, а также подсчитывается продолжение слов, сложность текста и звуков. Используется большое количество данных с разными типами голоса, чтобы протестировать качество продолжений и их соответствие оригинальному голосу. ## Результаты Результаты показывают, что все модели сталкиваются с проблемами, такими как **speaker similarity** и **semantic fidelity**, особенно при продолжении голоса женщин. Женщины оказываются более чувствительными к **voice quality bias** — их фоноты чаще возвращаются к умолятельному голосу, чем у мужчин. Модели также оказались чувствительными к гендеру в текстовых метриках, таких как **agency** (агентность) и **sentence polarity** (положительность предложений). Например, **VAE-GSLM** показал более высокую точность в продолжении, но также демонстрировал более сильные гендерные эффекты в тексте. В целом, результаты показывают, что **SC** — это эффективный инструмент для проверки социальных биасов в моделях речи. ## Значимость **Speak Your Mind** открывает новые пути для исследований социальных биасов в моделях речи. Он показывает, что SC может быть использован для выявления и изучения гендерных и типов голоса, что может быть полезно для создания более нейтральных моделей. Эта работа также открывает возможности для дальнейшего исследования звуковой и текстовой структуры речи, которая может помочь в улучшении **voice foundation models**. Будущие исследования могут более глубоко изучить

Annotation:

Speech Continuation (SC) is the task of generating a coherent extension of a spoken prompt while preserving both semantic context and speaker identity. Because SC is constrained to a single audio stream, it offers a more direct setting for probing biases in speech foundation models than dialogue does. In this work we present the first systematic evaluation of bias in SC, investigating how gender and phonation type (breathy, creaky, end-creak) affect continuation behaviour. We evaluate three rece...

ID: 2509.22061v1 eess.AS, cs.CL, cs.SD

arXiv PDF

Показано 31 - 40 из 83 записей