📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Eyal Rabin, Zohar Elyoseph, Rotem Israel-Fishelson, Adi Dali, Ravit Nussinson

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Voice-based artificial intelligence is increasingly expected to adhere to human social conventions, but can it learn implicit cues that are not explicitly programmed? This study investigates whether state-of-the-art text-to-speech systems have internalized the human tendency to reduce speech rate to convey politeness - a non-obvious prosodic marker. We prompted 22 synthetic voices from two leading AI platforms (AI Studio and OpenAI) to read a fixed script under both "polite and formal" and "casu...
ID: 2511.10693v1 cs.CL, cs.AI, cs.HC, cs.SD
Авторы:

Chao Yan, Boyong Wu, Peng Yang, Pengfei Tan, Guoqiang Hu, Yuxin Zhang, Xiangyu, Zhang, Fei Tian, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We present Step-Audio-EditX, the first open-source LLM-based audio model excelling at expressive and iterative audio editing encompassing emotion, speaking style, and paralinguistics alongside robust zero-shot text-to-speech (TTS) capabilities.Our core innovation lies in leveraging only large-margin synthetic data, which circumvents the need for embedding-based priors or auxiliary modules. This large-margin learning approach enables both iterative control and high expressivity across voices, and...
ID: 2511.03601v1 cs.CL, cs.AI, cs.HC, cs.SD, eess.AS
Авторы:

Flavio Figueiredo, Giovanni Martinelli, Henrique Sousa, Pedro Rodrigues, Frederico Pedrosa, Lucas N. Ferreira

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Recent advances in AI music (AIM) generation services are currently transforming the music industry. Given these advances, understanding how humans perceive AIM is crucial both to educate users on identifying AIM songs, and, conversely, to improve current models. We present results from a listener-focused experiment aimed at understanding how humans perceive AIM. In a blind, Turing-like test, participants were asked to distinguish, from a pair, the AIM and human-made song. We contrast with other...
ID: 2509.25601v1 cs.AI, cs.HC, cs.SD
Авторы:

Subham Kutum, Abhijit Sinha, Hemant Kumar Kathania, Sudarsana Reddy Kadiri, Mahesh Chandra Govil

## Контекст Ключевое слово recognition (KWS) широко используется в различных системах, включая персональные помощников и умные дома. Однако существуют уникальные проблемы при распознавании речи детей из-за их характерных акустических и лингвистических характеристик. Эти проблемы часто приводят к повышенным ошибкам в сравнении с распознаванием речи взрослых. До сих пор было предложено множество методов для улучшения KWS в разговорах взрослых, но для распознавания речи детей эти подходы не всегда подходят. Данная работа предлагает использовать новый подход к KWS для детей, основанный на self-supervised learning (SSL) моделях, таких как Wav2Vec2, HuBERT и Data2Vec. Мы извлекаем леса слоёв как признаков для обучения DNN-системы под управлением Kaldi. Этот подход позволяет использовать штатные модели SSL для KWS без дополнительной подготовки данных. Это означает, что мы можем эффективно распознавать речь детей, даже если у нас нет доступа к их речи в обучающих наборах. Мы проверяем нашу модель на двух разных данных: WSJCAM0 (для моделирования взрослых) и PFSTAR (для моделирования речи детей). ## Метод Мы используем три различных модели SSL: Wav2Vec2, HuBERT и Data2Vec для извлечения признаков. Из каждой модели мы извлекаем признаки выходов каждого слоя (layer-wise features). Затем, эти признаки используются для обучения DNN-системы под управлением Kaldi. Для обучения мы использовали WSJCAM0 (для моделирования взрослых), а для тестирования — PFSTAR (для моделирования речи детей). Это позволяет продемонстрировать zero-shot возможность нашего подхода. Для оценки производительности мы использовали классические метрики: ATWV (активное time-weighted accuracy), MTWV (maximum time-weighted accuracy), а также метрики false alarm и miss probability. Мы также проверяли устойчивость модели к шумам, используя лучшую модель и слой. Для дополнительной общей оценки мы повторили эксперименты с другим датасетом CMU. ## Результаты Наш подход демонстрирует выдающиеся результаты по сравнению с базой (MFCC-based KWS). Использование SSL-макрослоев, особенно из Wav2Vec2 (слой 22), дало значительные пользы: ATWV составил 0.691, MTWV — 0.7003, false alarm — 0.0164, miss probability — 0.0547 для 30 ключевых слов. Мы также проверили работу модели в шумных условиях и показали, что она превосходит традиционный MFCC-подход. Мы также проверили работу модели для разных возрастных групп детей и показали, что она эффективна во всех случаях. Повторные тесты на датасете CMU подтвердили универсальность нашего подхода и его устойчивость к разным условиям. ## Значимость Наш подход имеет широкое применение в различных системах, где необходимо распознавание речи детей. Он может быть использован в ди
Annotation:
Numerous methods have been proposed to enhance Keyword Spotting (KWS) in adult speech, but children's speech presents unique challenges for KWS systems due to its distinct acoustic and linguistic characteristics. This paper introduces a zero-shot KWS approach that leverages state-of-the-art self-supervised learning (SSL) models, including Wav2Vec2, HuBERT and Data2Vec. Features are extracted layer-wise from these SSL models and used to train a Kaldi-based DNN KWS system. The WSJCAM0 adult speech...
ID: 2508.21248v1 eess.AS, cs.AI, cs.HC, cs.SD, eess.SP