📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries

2025-11-20

Авторы:

Hokuto Munakata, Takehiro Imamura, Taichi Nishimura, Tatsuya Komatsu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We introduce CASTELLA, a human-annotated audio benchmark for the task of audio moment retrieval (AMR). Although AMR has various useful potential applications, there is still no established benchmark with real-world data. The early study of AMR trained the model with solely synthetic datasets. Moreover, the evaluation is based on annotated dataset of fewer than 100 samples. This resulted in less reliable reported performance. To ensure performance for applications in real-world environments, we p...

ID: 2511.15131v1 eess.AS, cs.CL, cs.SD

arXiv PDF

📄 VoiceCraft-X: Unifying Multilingual, Voice-Cloning Speech Synthesis and Speech Editing

2025-11-19

Авторы:

Zhisheng Zheng, Puyuan Peng, Anuj Diwan, Cong Phuoc Huynh, Xiaohang Sun, Zhu Liu, Vimal Bhat, David Harwath

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We introduce VoiceCraft-X, an autoregressive neural codec language model which unifies multilingual speech editing and zero-shot Text-to-Speech (TTS) synthesis across 11 languages: English, Mandarin, Korean, Japanese, Spanish, French, German, Dutch, Italian, Portuguese, and Polish. VoiceCraft-X utilizes the Qwen3 large language model for phoneme-free cross-lingual text processing and a novel token reordering mechanism with time-aligned text and speech tokens to handle both tasks as a single sequ...

ID: 2511.12347v1 eess.AS, cs.CL, cs.SD

arXiv PDF

📄 Pruning as Regularization: Sensitivity-Aware One-Shot Pruning in ASR

2025-11-15

Авторы:

Julian Irigoyen, Arthur Söhler, Andreas Søeborg Kirkedal

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We challenge the conventional view of neural network pruning as solely a compression technique, demonstrating that one-shot magnitude pruning serves as a powerful implicit regularizer for ASR. Using Whisper-small, we combine gradient- and Fisher-based sensitivity diagnostics with targeted, component-wise pruning. This reveals architectural asymmetries: decoder FFNs are pruning-fragile, whereas decoder self-attention and the last encoder layers contain redundancy that, when removed, improves gene...

ID: 2511.08092v1 eess.AS, cs.CL, cs.SD

arXiv PDF

📄 Quantizing Whisper-small: How design choices affect ASR performance

2025-11-15

Авторы:

Arthur Söhler, Julian Irigoyen, Andreas Søeborg Kirkedal

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large speech recognition models like Whisper-small achieve high accuracy but are difficult to deploy on edge devices due to their high computational demand. To this end, we present a unified, cross-library evaluation of post-training quantization (PTQ) on Whisper-small that disentangles the impact of quantization scheme, method, granularity, and bit-width. Our study is based on four libraries: PyTorch, Optimum-Quanto, HQQ, and bitsandbytes. Experiments on LibriSpeech test-clean and test-other sh...

ID: 2511.08093v1 eess.AS, cs.CL, cs.SD

arXiv PDF

📄 LibriConvo: Simulating Conversations from Read Literature for ASR and Diarization

2025-10-29

Авторы:

Máté Gedeon, Péter Mihajlik

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We introduce LibriConvo, a simulated multi-speaker conversational dataset based on speaker-aware conversation simulation (SASC), designed to support training and evaluation of speaker diarization and automatic speech recognition (ASR) systems. Unlike prior resources that mostly rely on semantically disconnected utterances and implausible temporal gaps, LibriConvo ensures semantic coherence and realistic conversational timing. Our pipeline leverages CallHome with external VAD for reliable boundar...

ID: 2510.23320v1 eess.AS, cs.CL, cs.SD

arXiv PDF

📄 Unsupervised lexicon learning from speech is limited by representations rather than clustering

2025-10-14

Авторы:

Danel Adendorff, Simon Malan, Herman Kamper

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Zero-resource word segmentation and clustering systems aim to tokenise speech into word-like units without access to text labels. Despite progress, the induced lexicons are still far from perfect. In an idealised setting with gold word boundaries, we ask whether performance is limited by the representation of word segments, or by the clustering methods that group them into word-like types. We combine a range of self-supervised speech features (continuous/discrete, frame/word-level) with differen...

ID: 2510.09225v1 eess.AS, cs.CL, cs.SD

arXiv PDF

📄 Adapting Diarization-Conditioned Whisper for End-to-End Multi-Talker Speech Recognition

2025-10-08

Авторы:

Martin Kocour, Martin Karafiat, Alexander Polok, Dominik Klement, Lukáš Burget, Jan Černocký

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We propose a speaker-attributed (SA) Whisper-based model for multi-talker speech recognition that combines target-speaker modeling with serialized output training (SOT). Our approach leverages a Diarization-Conditioned Whisper (DiCoW) encoder to extract target-speaker embeddings, which are concatenated into a single representation and passed to a shared decoder. This enables the model to transcribe overlapping speech as a serialized output stream with speaker tags and timestamps. In contrast to ...

ID: 2510.03723v1 eess.AS, cs.CL, cs.SD

arXiv PDF

📄 Spiralformer: Low Latency Encoder for Streaming Speech Recognition with Circular Layer Skipping and Early Exiting

2025-10-04

Авторы:

Emiru Tsunoo, Hayato Futami, Yosuke Kashiwagi, Siddhant Arora, Shinji Watanabe

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

For streaming speech recognition, a Transformer-based encoder has been widely used with block processing. Although many studies addressed improving emission latency of transducers, little work has been explored for improving encoding latency of the block processing. We seek to reduce latency by frequently emitting a chunk with a small shift rather than scarce large-chunk emissions, resulting in higher computational costs. To efficiently compute with the small chunk shift, we propose a new encode...

ID: 2510.00982v1 eess.AS, cs.CL, cs.SD

arXiv PDF

📄 AUDDT: Audio Unified Deepfake Detection Benchmark Toolkit

2025-09-30

Авторы:

Yi Zhu, Heitor R. Guimarães, Arthur Pimentel, Tiago Falk

## Контекст С появлением технологий искусственного интеллекта (AI) в последние годы, включая глубокое обучение, возникло много AI-генерируемого контента, такого как звуковые deepfakes. Эти звуковые deepfakes могут способствовать мошенничеству, предубеждениям и дезинформации, что делает их детекцию крайне важной. Однако существующие модели детекции звуковых deepfakes часто оцениваются на малых наборах данных, что ограничивает их обобщение на реальные условия. Это создает необходимость в разработке широкой базы данных и методов оценки моделей детекции. Мы предлагаем AUDDT — Audio Unified Deepfake Detection Benchmark Toolkit, который автоматизирует оценку предварительно обученных моделей детекции в 28 различных датасетах, чтобы дать пользователям четкий взгляд на преимущества и недостатки их моделей. ## Метод AUDDT — это открытое исходное программное обеспечение, которое автоматизирует оценку моделей детекции звуковых deepfakes на 28 различных датасетах. Этот тест-кейс позволяет пользователям проверить предварительно обученные модели на различных условиях и типах мошенничества. Мы создали широкий набор звуковых датасетов, включающий 28 различных групп, таких как различные типы мошенничества, глубина модификации, качество звука и др. Наша методология включает выбор метрик оценки и разработку автоматизированного процесса для сравнения моделей на этих датасетах. Это позволяет пользователям оценить модели во время работы, сравнить результаты и получить подробный анализ производительности модели. ## Результаты Мы проводили ряд экспериментов с помощью широко используемой предварительно обученной модели детекции звуковых deepfakes. Мы протестировали модель на внутренних и внешних наборах данных, чтобы продемонстрировать различия в производительности в зависимости от типа мошенничества и уровня модификации. Результаты показали, что модель показывает высокую точность в определении глубоко модифицированных аудио, но имеет некоторые недостатки в определении менее заметных мошенничеств. Мы также проанализировали различные типы звуковых датасетов, показав, что качество данных и размер датасета могут существенно влиять на результаты. ## Значимость AUDDT может быть использован в различных областях, включая безопасность информации, медиа-анализ и научное исследование. Он позволяет выявить слабые места в моделях детекции, чтобы улучшить их. Наша система предоставляет разработчикам инструмент для определения наиболее уязвимых типов мошенничества и для работы над их преодолением. Это может стать ключевым инструментом для создания надежных моделей, которые могут быть применены в реальных

Annotation:

With the prevalence of artificial intelligence (AI)-generated content, such as audio deepfakes, a large body of recent work has focused on developing deepfake detection techniques. However, most models are evaluated on a narrow set of datasets, leaving their generalization to real-world conditions uncertain. In this paper, we systematically review 28 existing audio deepfake datasets and present an open-source benchmarking toolkit called AUDDT (https://github.com/MuSAELab/AUDDT). The goal of this...

ID: 2509.21597v1 eess.AS, cs.CL, cs.SD

arXiv PDF

📄 Speak Your Mind: The Speech Continuation Task as a Probe of Voice-Based Model Bias

2025-09-30

Авторы:

Shree Harsha Bokkahalli Satish, Harm Lameris, Olivier Perrotin, Gustav Eje Henter, Éva Székely

## Контекст **Speech Continuation (SC)** — это задача генерирования когнетивно согласованных и контекстуально подходящих продлений речи с учетом исходной фразы и аудиоконтекста. Она отличается тем, что ограничена одним аудиопотоком, что позволяет более точно проверить модели голоса на наличие социально релевантных биасосов. Несмотря на прогресс в области глубокого обучения, модели голоса часто склонны к стереотипам и неравенствам. Это влияет на их удобочитаемость и точность в реальном мире, особенно в контексте языковой идентификации и социальной нормы. **Speak Your Mind** — первое систематическое исследование, которое изучает эти биасы в задаче SC, определяя, как гендер и тип фонота (пушистый, хриплый, конечный хрип) влияют на продолжающиеся фразы. Это позволяет выявить проблемы со специальными моделями речи, включая представления о женщинах, гомофониях и типе голоса. ## Метод **Speak Your Mind** использует множество метрик для оценки продолжений речи: **semantic fidelity** (точность содержания), **coherence** (логичность), **speaker similarity** (похожесть на голос), и **voice quality preservation** (сохранение голоса). Три модели голоса исследуются: **SpiritLM (base и expressive)**, **VAE-GSLM**, и **SpeechGPT**. Модели обучаются на разных данных, чтобы сравнить гендерные и типы голоса, а также подсчитывается продолжение слов, сложность текста и звуков. Используется большое количество данных с разными типами голоса, чтобы протестировать качество продолжений и их соответствие оригинальному голосу. ## Результаты Результаты показывают, что все модели сталкиваются с проблемами, такими как **speaker similarity** и **semantic fidelity**, особенно при продолжении голоса женщин. Женщины оказываются более чувствительными к **voice quality bias** — их фоноты чаще возвращаются к умолятельному голосу, чем у мужчин. Модели также оказались чувствительными к гендеру в текстовых метриках, таких как **agency** (агентность) и **sentence polarity** (положительность предложений). Например, **VAE-GSLM** показал более высокую точность в продолжении, но также демонстрировал более сильные гендерные эффекты в тексте. В целом, результаты показывают, что **SC** — это эффективный инструмент для проверки социальных биасов в моделях речи. ## Значимость **Speak Your Mind** открывает новые пути для исследований социальных биасов в моделях речи. Он показывает, что SC может быть использован для выявления и изучения гендерных и типов голоса, что может быть полезно для создания более нейтральных моделей. Эта работа также открывает возможности для дальнейшего исследования звуковой и текстовой структуры речи, которая может помочь в улучшении **voice foundation models**. Будущие исследования могут более глубоко изучить

Annotation:

Speech Continuation (SC) is the task of generating a coherent extension of a spoken prompt while preserving both semantic context and speaker identity. Because SC is constrained to a single audio stream, it offers a more direct setting for probing biases in speech foundation models than dialogue does. In this work we present the first systematic evaluation of bias in SC, investigating how gender and phonation type (breathy, creaky, end-creak) affect continuation behaviour. We evaluate three rece...

ID: 2509.22061v1 eess.AS, cs.CL, cs.SD

arXiv PDF

Показано 1 - 10 из 18 записей