📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Xi Xuan, Yang Xiao, Rohan Kumar Das, Tomi Kinnunen
**Резюме**
В последнее время генерируемые с помощью AI звуковые фильмы (deepfake) стали все более простыми в создании, даже при небольшом объеме входных данных. Это делает возможным создание наукоедержанных фальшивых аудиозаписей, которые могут подвергнуться злоупотреблению. До сих пор большая часть исследований была направлена на обнаружение таких фальшивых звуков, но менее внимание уделено исследованию способа определения модели генерации, которой было сделано это. В настоящей работе представлен первый бенчмарк для многоязычного анализа источника генерации deepfake-звуков. Мы исследовали модели DSP и SSL, подробно рассматривали влияние оптимизации SSL-моделей на язык на кросс-язычную обнаруживаемость. Наши результаты дают подробное видение проблемы определения модели генерации в условиях различного языка тренировочных и реальных процессов. Данные, протокол и код доступны на GitHub.
Annotation:
Recent progress in generative AI has made it increasingly easy to create
natural-sounding deepfake speech from just a few seconds of audio. While these
tools support helpful applications, they also raise serious concerns by making
it possible to generate convincing fake speech in many languages. Current
research has largely focused on detecting fake speech, but little attention has
been given to tracing the source models used to generate it. This paper
introduces the first benchmark for multilin...
Авторы:
David Sasu, Natalie Schluter
Мы рассмотрели проблему недостаточного учета просодических признаков, таких как питч-акцент, в системах автоматического распознавания речи (ASR). Для решения этой проблемы предложена модель, объединяющая ASR с модулем детекции питч-акцента. Этот модуль оказался эффективен: F1-метрика для детекции питч-акцента улучшилась на 41%, а значительное сокращение Word Error Rate (WER) — до 28,3% на LibriSpeech — доказывает, что внедрение просодических признаков улучшает работу ASR. Таким образом, решение позволяет значительно повысить точность распознавания речи, особенно при ограниченных ресурсах, и подчеркивает важность восстановления просодических признаков в моделях ASR.
Annotation:
We show the performance of Automatic Speech Recognition (ASR) systems that
use semi-supervised speech representations can be boosted by a complimentary
pitch accent detection module, by introducing a joint ASR and pitch accent
detection model. The pitch accent detection component of our model achieves a
significant improvement on the state-of-the-art for the task, closing the gap
in F1-score by 41%. Additionally, the ASR performance in joint training
decreases WER by 28.3% on LibriSpeech, under ...
Авторы:
Chunyu Qiang, Haoyu Wang, Cheng Gong, Tianrui Wang, Ruibo Fu, Tao Wang, Ruilong Chen, Jiangyan Yi, Zhengqi Wen, Chen Zhang, Longbiao Wang, Jianwu Dang, Jianhua Tao
**Резюме**
В статье предлагается SecoustiCodec — новый потоковый кодек речи с низким битрейтом, который решает ключевые проблемы существующих кодеков. Он способен разделять семантическую и паралингвистическую информацию в едином кодеконе, что позволяет избежать нежелательных эффектов, таких как остаточная паралингвистическая информация (например, тон и эмоция). Для улучшения реконструкции и компактности текстового семантического кодирования используется метод эффективной шкальной квантизации, основанный на VAE и FSQ, что решает проблему длинного хвоста распределения токенов. Для улучшения многомодального выравнивания сложности используется метод обучения с подкреплением, что делает модель более устойчивой. Опытные результаты показали, что SecoustiCodec достигает высокого качества реконструкции (PESQ) — 1.77 при 0.27 кбит/с и 2.58 при 1 кбит/с. Это продвижение в области кодеков речи открывает новые горизонты для совместного использования речи и текста в AI-системах.
Annotation:
Speech codecs serve as a crucial bridge in unifying speech and text language
models. Existing codec methods face several challenges in semantic encoding,
such as residual paralinguistic information (e.g., timbre, emotion),
insufficient semantic completeness, limited reconstruction capability, and lack
of support for streaming. To address these challenges, we propose
SecoustiCodec, a cross-modal aligned low-bitrate streaming speech codec that
disentangles semantic and paralinguistic information i...
Показано 81 -
83
из 83 записей