📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Xi Xuan, Yang Xiao, Rohan Kumar Das, Tomi Kinnunen

**Резюме** В последнее время генерируемые с помощью AI звуковые фильмы (deepfake) стали все более простыми в создании, даже при небольшом объеме входных данных. Это делает возможным создание наукоедержанных фальшивых аудиозаписей, которые могут подвергнуться злоупотреблению. До сих пор большая часть исследований была направлена на обнаружение таких фальшивых звуков, но менее внимание уделено исследованию способа определения модели генерации, которой было сделано это. В настоящей работе представлен первый бенчмарк для многоязычного анализа источника генерации deepfake-звуков. Мы исследовали модели DSP и SSL, подробно рассматривали влияние оптимизации SSL-моделей на язык на кросс-язычную обнаруживаемость. Наши результаты дают подробное видение проблемы определения модели генерации в условиях различного языка тренировочных и реальных процессов. Данные, протокол и код доступны на GitHub.
Annotation:
Recent progress in generative AI has made it increasingly easy to create natural-sounding deepfake speech from just a few seconds of audio. While these tools support helpful applications, they also raise serious concerns by making it possible to generate convincing fake speech in many languages. Current research has largely focused on detecting fake speech, but little attention has been given to tracing the source models used to generate it. This paper introduces the first benchmark for multilin...
ID: 2508.04143v1 eess.AS, cs.CL, cs.SD
Авторы:

David Sasu, Natalie Schluter

Мы рассмотрели проблему недостаточного учета просодических признаков, таких как питч-акцент, в системах автоматического распознавания речи (ASR). Для решения этой проблемы предложена модель, объединяющая ASR с модулем детекции питч-акцента. Этот модуль оказался эффективен: F1-метрика для детекции питч-акцента улучшилась на 41%, а значительное сокращение Word Error Rate (WER) — до 28,3% на LibriSpeech — доказывает, что внедрение просодических признаков улучшает работу ASR. Таким образом, решение позволяет значительно повысить точность распознавания речи, особенно при ограниченных ресурсах, и подчеркивает важность восстановления просодических признаков в моделях ASR.
Annotation:
We show the performance of Automatic Speech Recognition (ASR) systems that use semi-supervised speech representations can be boosted by a complimentary pitch accent detection module, by introducing a joint ASR and pitch accent detection model. The pitch accent detection component of our model achieves a significant improvement on the state-of-the-art for the task, closing the gap in F1-score by 41%. Additionally, the ASR performance in joint training decreases WER by 28.3% on LibriSpeech, under ...
ID: 2508.04814v1 cs.CL, cs.SD, eess.AS
Авторы:

Chunyu Qiang, Haoyu Wang, Cheng Gong, Tianrui Wang, Ruibo Fu, Tao Wang, Ruilong Chen, Jiangyan Yi, Zhengqi Wen, Chen Zhang, Longbiao Wang, Jianwu Dang, Jianhua Tao

**Резюме** В статье предлагается SecoustiCodec — новый потоковый кодек речи с низким битрейтом, который решает ключевые проблемы существующих кодеков. Он способен разделять семантическую и паралингвистическую информацию в едином кодеконе, что позволяет избежать нежелательных эффектов, таких как остаточная паралингвистическая информация (например, тон и эмоция). Для улучшения реконструкции и компактности текстового семантического кодирования используется метод эффективной шкальной квантизации, основанный на VAE и FSQ, что решает проблему длинного хвоста распределения токенов. Для улучшения многомодального выравнивания сложности используется метод обучения с подкреплением, что делает модель более устойчивой. Опытные результаты показали, что SecoustiCodec достигает высокого качества реконструкции (PESQ) — 1.77 при 0.27 кбит/с и 2.58 при 1 кбит/с. Это продвижение в области кодеков речи открывает новые горизонты для совместного использования речи и текста в AI-системах.
Annotation:
Speech codecs serve as a crucial bridge in unifying speech and text language models. Existing codec methods face several challenges in semantic encoding, such as residual paralinguistic information (e.g., timbre, emotion), insufficient semantic completeness, limited reconstruction capability, and lack of support for streaming. To address these challenges, we propose SecoustiCodec, a cross-modal aligned low-bitrate streaming speech codec that disentangles semantic and paralinguistic information i...
ID: 2508.02849v1 eess.AS, cs.AI, cs.CL, cs.SD
Показано 81 - 83 из 83 записей