📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Qizhou Wang, Hanxun Huang, Guansong Pang, Sarah Erfani, Christopher Leckie

## Контекст В последние годы широко распространяются системы генерации речи, которые могут создавать реалистичные голоса, часто неотличимые от речи человека. Это создает серьезные проблемы в подтверждении аутентичности воспроизводимого звука. Хотя существует много методов для обнаружения глубокоподдельной аудиоконтента, их эффективность в реальном мире остается нестабильной. Это связано с огромными различиями между данными, использованными в обучении, и реальными аудиоданными, а также с быстрым развитием технологий генерации речи. Текущие данные не достаточно охватывают диапазон реальных сценариев и современных глубокоподдельных моделей. Данный проект вводит **AUDETER** (AUdio DEepfake TEst Range), большую высокоскоростной базу данных для проверки методов обнаружения глубокоподдельной аудиоконтента в сложных реальных условиях. ## Метод **AUDETER** содержит более 4500 часов синтезированной аудио, сгенерированных машинными системами генерации речи и вокальными моделями. Она включает 3 миллиона аудиоклипов, генерируемых 11 моделями генерации речи и 10 моделями вокализации. Это позволяет создать большой диапазон различных звуков, включая синтетические и глубокоподдельные аудио. Данная база данных представляет собой новый шаг в области исследований в области глубокоподдельной аудиоконтента, так как она предоставляет большой диапазон сложных сценариев для обучения и проверки моделей. ## Результаты Расширенные эксперименты проводились с использованием **AUDETER**. Было показано, что текущие методы обнаружения глубокоподдельной аудиоконтента, обученные на существующих данных, сталкиваются с проблемами при обнаружении новых глубокоподдельных аудио и имеют высокую частоту ложноположительных результатов при работе с реальной речью. Однако модели, обученные на **AUDETER**, показали существенное улучшение в обнаружении глубокоподдельного аудио, снизив ошибку на 44,1%–51,6% и достигнув ошибки всего 4,17% при работе с разнообразными кросс-доменными данными из популярного In-the-Wild датасета. ## Значимость **AUDETER** представляет собой потенциально важное решение для развития обнаружения глубокоподдельной аудиоконтента в разных сферах. Это может быть применено в области безопасности, видеоредактирования, модуляции голоса и других приложениях, где важно выявлять истинную природу речи. Данная база данных дает более сильные инструменты для развития генеральных моделей обнаружения глубокоподдельной аудио, что может привести к более точному и надежному пониманию речи в различных отраслях. ## Выводы **AUDETER** является крупнейшей и самой разнообразно
Annotation:
Speech generation systems can produce remarkably realistic vocalisations that are often indistinguishable from human speech, posing significant authenticity challenges. Although numerous deepfake detection methods have been developed, their effectiveness in real-world environments remains unrealiable due to the domain shift between training and test samples arising from diverse human speech and fast evolving speech synthesis systems. This is not adequately addressed by current datasets, which la...
ID: 2509.04345v1 cs.SD, cs.AI, cs.LG
Авторы:

Ashwin Nagarajan, Hao-Wen Dong

#### Контекст Текстово-музыкальные модели, такие как MusicGen, успешно подхватывают широкие атрибуты музыки, такие как инструментация и настроение. Однако тонкое стилистическое управление, например, подражание определенному исполнителю или стилю, остается значительной проблемой. Некоторые методы позволяют эмулировать стиль через переучет модели или специальные условия, но это снижает простоту использования и соблюдение политик, например, запрета использования имен исполнителей в музыкальных произведениях. В данном исследовании рассматривается возможность использования легковесных, человекочитаемых модификаторов, сгенерированных большим языковым моделью, для стилистического управления. Исследованы два исполнителя — Billie Eilish (поп-музыка с вокалом) и Ludovico Einaudi (инструментальная пианино-музыка). #### Метод Модель MusicGen была использована для генерации музыки по наборам условий. Для каждого исполнителя выбраны 15 сэмплов, которые стали базой для трёх условий: (1) базовые запросы, (2) запросы с именем исполнителя, (3) запросы с легковесными модификаторами. Метрики оценки включили распределения VGGish и CLAP, а также минимальное расстояние присвоения. Эксперименты позволили изучить мощность этих модификаторов в стилистическом контроле и сравнить их с именами исполнителей. #### Результаты Имена исполнителей оказались самым эффективным стилистическим сигналом, превосходя name-free модификаторы. Однако модификаторы всё же демонстрировали сильное стилистическое воздействие, в том числе возможность переноса стиля между исполнителями. Например, модификаторы Billie Eilish могут создавать аналогичные эффекты в песнях, не связанных с ней темпом. Изученная разница в управляемости между именами и модификаторами определяется как "Name-Free Gap." Эта разница показывает, что запрет на использование имен в запросах не полностью предотвращает стилистическое подражание. #### Значимость Результаты имеют практическое значение для создания систем стилистического контроля в музыкальной генерации. Исследование показывает, что модели могут эмулировать стили без использования имен, что вызывает вопросы о эффективности текущих методов защиты от копирайтинга. Также модификаторы могут быть применены в различных сценариях, таких как создание музыки под определённые жанры или настроения. #### Выводы Исследование определяет "Name-Free Gap" и демонстрирует, что модификаторы могут быть эффективными стилистическими сигналами, даже при ограничениях на использование имены. Будущие исследования будут нацелены на уточнение моделей гене
Annotation:
Text-to-music models capture broad attributes such as instrumentation or mood, but fine-grained stylistic control remains an open challenge. Existing stylization methods typically require retraining or specialized conditioning, which complicates reproducibility and limits policy compliance when artist names are restricted. We study whether lightweight, human-readable modifiers sampled from a large language model can provide a policy-robust alternative for stylistic control. Using MusicGen-small,...
ID: 2509.00654v1 cs.SD, cs.AI, cs.LG, cs.MM, eess.AS
Авторы:

Yuriy Izotov, Andrei Velichko

#### Контекст Голосовое управление встраиваемых систем и Интернета вещей (IoT) широко используется для управления устройствами, такими как домашние электроприборы, смартфоны и даже автомобили. Однако реализация эффективного речевого распознавания команд на таких устройствах сталкивается с ограничениями в ресурсах, такими как низкая мощность вычислений, ограниченная память и ток. Традиционные модели глубокого обучения требуют больших ресурсов, что делает их неэффективными для использования в этих системах. Этот краткий обзор сосредотачивается на разработке энергоэффективных алгоритмов речевого распознавания, которые могут быть интегрированы в устройства с ограниченными ресурсами. #### Метод Методология разработки речевого распознавания основывается на сочетании трех основных компонентов: системы воспитанного упрощенного классификатора LogNNet, оптимизированного протокола извлечения признаков Mel-Frequency Cepstral Coefficients (MFCC) и алгоритма активности речи (Voice Activity Detection, VAD). Алгоритм VAD используется для определения моментов во вводе, когда происходит речь. Функции MFCC извлекаются из звуковых сигналов, чтобы описать характеристики голоса. Затем эти признаки передаются в LogNNet классификатор, который распознает речевые команды. LogNNet имеет небольшое число параметров, что делает его пригодным для использования в устройствах с ограниченными ресурсами. #### Результаты Для оценки системы были проведены эксперименты с использованием 4 команд из Speech Commands dataset, ресемплированных до 8 кГц. Было проанализировано четыре способа агрегирования MFCC, и был выбран метод адаптивного биннинга, который дает лучшую связь точности и компактности. LogNNet классификатор, с архитектурой 64:33:9:4, достиг 92.04% точности при оценке с независимым способом обучения. Имплементация на Arduino Nano 33 IoT (ARM Cortex-M0+, 48 МГц, 32 КБ RAM) показала, что система может работать в режиме реального времени, распознавая голосовые команды с 90% точностью. Это требует всего 18 КБ RAM, что составляет 55% от доступной памяти. #### Значимость Разработанная система может быть применена в различных областях, таких как домашние автоматизационные системы, беспроводные сенсорные сети и системы поддержки ручного управления. Она предлагает высокую эффективность в реальном времени и значительно меньший объем ресурсов, чем традиционные модели глубокого обучения. Эту модель можно использовать для управления устройствами, когда требуется минимальное потребление энергии и малое количество памяти. Это делает ее подходящей для применения в сетях IoT и в технологиях "умного" дома.
Annotation:
This paper presents a low-resource speech-command recognizer combining energy-based voice activity detection (VAD), an optimized Mel-Frequency Cepstral Coefficients (MFCC) pipeline, and the LogNNet reservoir-computing classifier. Using four commands from the Speech Commands da-taset downsampled to 8 kHz, we evaluate four MFCC aggregation schemes and find that adaptive binning (64-dimensional feature vector) offers the best accuracy-to-compactness trade-off. The LogNNet classifier with architectu...
ID: 2509.00862v1 cs.SD, cs.AI, cs.LG, eess.AS
Авторы:

Andrea Poltronieri, Xavier Serra, Martín Rocamora

## Контекст Аудио Чорд Эстимация (Audio Chord Estimation, ACE) — это ключевая задача в области музыкального информационного исследования, которая занимает внимание более двух десятилетий. Она играет важную роль в музыкальной транскрипции и анализе. Несмотря на прогресс, существуют значительные проблемы, которые ограничивают эффективность существующих систем. Одной из основных проблем является субъективность аннотаторов: разные люди могут давать разные оценки классов нот и аккордов, что приводит к несогласованности в данных. Другая проблема — классовая неробастность (class imbalance), когда некоторые классы нот или аккордов значительно чаще других в обучающих наборах данных. Эти особенности сильно затрудняют обучение и оценку алгоритмов. Целью настоящего исследования является адресация этих проблем с помощью новых подходов, основанных на понятии хармонической сонансности (consonance). ## Метод Мы предлагаем метод, который использует знания о хармонической сонансности для улучшения оценки нот и аккордов. Наш подход разделяет задачу на несколько подзадач, каждая из которых соответствует отдельному аспекту звучания аккорда: оценка корня (root), оценка баса (bass) и оценка других нот в аккорде. Мы также внедрили новую метрику дистанции, основанную на звуковой сонансности, которая позволяет лучше охарактеризовать музыкально-значимую схожесть между разными аннотациями. Наш алгоритм основан на многозадачной архитектуре для совместного обучения этих подзадач. Мы также применяем технику легких меток (label smoothing), использующую понятие сонансности для гашения шума в метках. Это позволяет модели более точно определять музыкальные согласованности. ## Результаты Мы провели эксперименты на различных музыкальных датасетах, сравнивая нашу модель с текущими лидерами в области ACE. Результаты показали, что наш подход значительно улучшает оценку корня и баса, а также в целом повышает точность определения аккордов. Мы также проверили эффективность новой метрики дистанции на многочисленных аннотациях, показав, что она дает более точные результаты в сравнении с традиционными метриками. Наша модель также показала значительное улучшение в обработке классов с небольшим количеством примеров, что демонстрирует ее высокую работу в условиях классовой неробастности. ## Значимость Предложенный подход имеет широкие применения в музыкальной транскрипции, анализе и создании музыкальных инструментов. Он позволяет повысить точность определения аккордов в различных музыкальных жанрах и условиях. Преимущест
Annotation:
Audio Chord Estimation (ACE) holds a pivotal role in music information research, having garnered attention for over two decades due to its relevance for music transcription and analysis. Despite notable advancements, challenges persist in the task, particularly concerning unique characteristics of harmonic content, which have resulted in existing systems' performances reaching a glass ceiling. These challenges include annotator subjectivity, where varying interpretations among annotators lead to...
ID: 2509.01588v1 cs.SD, cs.AI, cs.LG, cs.MM, eess.AS
Авторы:

Lu Wang, Hao Chen, Siyu Wu, Zhiyue Wu, Hao Zhou, Chengfeng Zhang, Ting Wang, Haodi Zhang

#### Контекст За последние годы Multimodal Large Language Models (MLLMs) нашли широкое применение в различных областях, включая обработку речи и музыки. Это дало подтолкнение к развитию аудиотокенизации, которая является ключевым компонентом для эффективного интегрирования сложных моделей. Отличительная особенность аудиотокенов заключается в том, что они должны не только передавать глобальный смысл, но и сохранять тонкие акустические детали. Эта способность делает их полезными для работы с речью и музыкой в широком кругу приложений. Однако существующие подходы к определению токенов и их оценке ограничиваются конкретными областями, такими как реконструкция или автоматическое распознавание речи (ASR), что не позволяет провести систематическую и справедливую оценку кодеков. В этой работе мы призваны предложить точные определения токенов, а также разработать общую методологию для полного оценивания аудиокодеков. #### Метод Мы предлагаем **AudioCodecBench** — систематическую методологию для оценки кодеков аудио. Методология основывается на четырёх основных измерениях: 1) **метрики аудиореконструкции** для оценки качества воспроизведения звука, 2) **стабильность кодеков** (codebook index stability), которая измеряет стабильность идентификаторов в кодексе, 3) **проницательность декодера-только трансформера**, которая оценивает потенциал кодека в различных низкоуровневых задачах, и 4) **задачи дорожки (downstream tasks)**, которые измеряют практическое применение кодеков в реальных ситуациях. Данный подход позволяет не только сравнить кодеки в разных областях, но и выявить связи между этими параметрами. #### Результаты Мы провели эксперименты с различными кодеками на основе приведенной методологии. Оценивали такие кодеки, как JND-Net, Lycos, L3-Net и др. Зарегистрированы следующие результаты: 1) кодеки показали различную эффективность в разных метриках: лучше всего отображались на переменной точности реконструкции; 2) стабильность кодеков (кодеков index stability) отличается в зависимости от метода токенизации; 3) проницательность декодера-только трансформера взаимосвязана с качеством реконструкции и стабильностью кодека. Полученные результаты подтверждают правильность определений токенов и позволяют выявить взаимосвязи между различными аспектами оценки. #### Значимость Разработанная методология имеет широкое применение в разных областях, включая развитие звуковых систем в MLLMs, улучшение аудио-сетей для речи и музыки, а также в приложениях, требующих точного анализа звуковых сигналов. Одним из основных преимуществ является то, что этот подход позволяет проводить систематическую и справедливую оценку кодеков, что
Annotation:
Multimodal Large Language Models (MLLMs) have been widely applied in speech and music. This tendency has led to a focus on audio tokenization for Large Models (LMs). Unlike semantic-only text tokens, audio tokens must both capture global semantic content and preserve fine-grained acoustic details. Moreover, they provide a discrete method for speech and music that can be effectively integrated into MLLMs. However, existing research is unsuitable in the definitions of semantic tokens and acoustic ...
ID: 2509.02349v2 cs.SD, cs.AI, cs.LG
Авторы:

Mattias Cross, Anton Ragni

## Контекст Повышение качества речи является ключевым заданием в области акустического обработки сигналов. Основной проблемой в данной области является лишняя шумовая компонента, которая затрудняет распознавание речи. Существуют различные методы по повышению качества речи, включая генеративные подходы, такие как векторное сжатие и скользящие окна. Несмотря на достигнутые успехи, эти методы не всегда обеспечивают полное устранение шума или неэффективно работают в условиях низкого качества записи. Таким образом, существует необходимость в разработке более эффективных подходов к повышению качества речи, которые могут обеспечить наилучшую ясность и звуковую чистоту. ## Метод Технология, используемая в данном исследовании, основана на подходе стохастического потока (flow-based generative models), который используется для моделирования распределений в сигнале речи. Используется метод "Скороdingерская труба" (Schrodinger Bridge), который стремится моделировать кривые пути между шумом и чистым сигналом речи. Тем не менее, поиск прямых путей, таких как вариант "Условное стохастическое соответствие" (Conditional Flow Matching), является новым подходом к повышению качества речи. Этот подход сосредоточен на моделировании прямых связей между шумовым и чистым сигналом, что позволяет повысить точность и уменьшить комплексность процесса обучения. ## Результаты В экспериментах использовались специально подготовленные данные речи с разным уровнем шума. Метод Conditional Flow Matching показал значительные улучшения по сравнению с подходом Schrodinger Bridge в различных метриках качества речи, таких как Signal-to-Noise Ratio (SNR) и Perceptual Evaluation of Speech Quality (PESQ). Кроме того, указано, что Conditional Flow Matching не только повышает качество речи, но и уменьшает необходимое время обучения и расчета. Таким образом, полученные результаты подтверждают, что использование условного стохастического соответствия может привести к значительным улучшениям в речевом повышении качества. ## Значимость Полученный подход может быть применен в различных сферах, включая системы распознавания речи, телекоммуникации и медицинские приложения. Одной из основных преимуществ является увеличение точности распознавания речи, что может быть критично в ситуациях, требующих высокого качества аудио. Также, полученный подход может снизить вычислительные затраты и улучшить эффективность обучения моделей. Это может привести к меньшим затратам на ресурсы и более быстром развитии новых технологий в области речи и аудио-процессинга. ## Выводы Результаты исследования показывают, что условное стохастическое соответствие является эффективным методом
Annotation:
Current flow-based generative speech enhancement methods learn curved probability paths which model a mapping between clean and noisy speech. Despite impressive performance, the implications of curved probability paths are unknown. Methods such as Schrodinger bridges focus on curved paths, where time-dependent gradients and variance do not promote straight paths. Findings in machine learning research suggest that straight paths, such as conditional flow matching, are easier to train and offer be...
ID: 2508.20584v1 cs.SD, cs.AI, cs.LG
Авторы:

Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo

#### Контекст Текстовые распознавания речи (TTS) и голосовые преобразования (VC) широко используются в сфере искусственного интеллекта для генерирования речи. Основной задачей в этих областях является получение качественных аудио сигналов из текстовых данных. Одним из ключевых элементов этих процессов являются акустические признаки, такие как мел-спектрограммы, которые легко обучаются и требуют меньшего объема ресурсов. Однако при преобразовании этих признаков в аудио сигналы через вокодер возникают значительные затраты времени и памяти, особенно при использовании методов, таких как диффузионное обучение. Эта проблема влияет на эффективность и экономичность реализации TTS и VC. Мы предлагаем новую модель, которая уменьшает эти затраты, сохраняя высокое качество генерируемых аудио сигналов. #### Метод Мы предлагаем **Vocoder-Projected Feature Discriminator (VPFD)** — новую архитектуру, использующую вокодер для проекции признаков на аудио сигналы. Метод основывается на двух основных компонентах: вокодер-проектор и искусственной нейронной сети с адверсарным обучением. Вокодер-проектор преобразует мел-спектрограммы в временной сигнал с помощью одного этапа увеличения разрешения. Это позволяет эффективно применять адверсарный тренинг, не требуя значительного времени и памяти. Модель обучается с помощью бинарного адверсарного тренинга, где дискриминатор сравнивает генерируемый сигнал с реальным. Это приводит к уменьшению времени обучения и потребления памяти. #### Результаты Мы провели эксперименты на различных данных, включая диффузионное обучение в VC. Наши результаты показали, что VPFD демонстрирует высокое качество генерируемых аудио сигналов, сравнимое с дискриминаторами, работающими непосредственно с волновыми сигналами. Однако VPFD гораздо эффективнее по ресурсам: обучение стало быстрее в 9.6 раз, а потребление памяти уменьшилось в 11.4 раз в сравнении с традиционными методами. Эти результаты доказывают эффективность и экономичность нашего подхода. #### Значимость Метод VPFD может быть применен в различных областях, таких как текстовые распознавания речи, голосовые преобразования, синтез речи и музыкальная генерация. Он обеспечивает высокое качество генерируемых сигналов с значительной экономией ресурсов. Это может привести к более эффективной реализации TTS и VC в ситуациях, где ресурсы ограничены. Будущие исследования будут сфокусированы на расширении возможностей VPFD для других типов акустических признаков и улучшении его парамет
Annotation:
In text-to-speech (TTS) and voice conversion (VC), acoustic features, such as mel spectrograms, are typically used as synthesis or conversion targets owing to their compactness and ease of learning. However, because the ultimate goal is to generate high-quality waveforms, employing a vocoder to convert these features into waveforms and applying adversarial training in the time domain is reasonable. Nevertheless, upsampling the waveform introduces significant time and memory overheads. To address...
ID: 2508.17874v2 cs.SD, cs.AI, cs.LG, eess.AS, stat.ML
Авторы:

Lars Nieradzik

## Контекст Задача монофонической оценки пичами (F0-estimation) является ключевой в области аудиопроцессинга, особенно при работе в шумных условиях. Несмотря на развитие современных алгоритмов, достижение высокой точности в реальном времени на ресурс-ограниченных устройствах остается вызовом. Эта проблема усложняется дополнительно тем, что доступ к идеально точным значениям пичами в речевых и музыкальных данных часто ограничивается аппроксимативными или алгоритмическими оценками. Данная работа нацелена на развитие решения, которое обеспечивает высокую точность, широкую область применения и эффективность в реальном времени. ## Метод SwiftF0 – это нейронная модель, разработанная с учетом требований к высокой точности, эффективности и универсальности. Она обучается на разнообразных данных, включая речь, музыку и синтетически сгенерированные звуки. Использование разнообразных техник аугментации данных позволяет модели достичь высокой общеуниверсальности и подавлять проблему переобучения. Архитектура модели оптимизирована для минимизации количества параметров и ускорения вычислений, чтобы обеспечить реальное время исполнения даже на небольших устройствах. ## Результаты Были проведены многочисленные эксперименты для оценки точности и эффективности SwiftF0. Модель была протестирована на множестве звуковых корпусов, включая речь и музыку, и показала стабильную высокую точность в разных шумовых условиях. Например, на 10 дБ SNR, SwiftF0 достигла гармонического мера (HM) 91.80%, что значительно превосходит соревнования, такие как CREPE. Также был проведен анализ времени выполнения, показав, что SwiftF0 работает примерно 42 раз быстрее CREPE на CPU. ## Значимость SwiftF0 открывает новые возможности для применения моделей оценки пичами в реальном времени, например, в распознавании речи, устройствах с ограниченными ресурсами и виртуальных инструментах. Его высокая точность и эффективность позволяют использовать его в различных сценариях, включая мобильные приложения и ИИ для музыкального создания. Благодаря AudioCommons и SpeechSynth, данная работа также вносит вклад в развитие открытых ресурсов для комьюнити. ## Выводы SwiftF0 достигает нового состояния искусства в монофонической оценке пичами, демонстрируя свою эффективность и универсальность. Будущие работы будут сфокусированы на расширении модели для работы в смешанных акустических условиях и её интеграции в более широкие аудиопроцессинговые пайплайны.
Annotation:
Accurate and real-time monophonic pitch estimation in noisy conditions, particularly on resource-constrained devices, remains an open challenge in audio processing. We present \emph{SwiftF0}, a novel, lightweight neural model that sets a new state-of-the-art for monophonic pitch estimation. Through training on diverse speech, music, and synthetic datasets with extensive data augmentation, SwiftF0 achieves robust generalization across acoustic domains while maintaining computational efficiency. S...
ID: 2508.18440v1 cs.SD, cs.AI, cs.LG, eess.AS
Авторы:

Junan Zhang, Xueyao Zhang, Jing Yang, Yuancheng Wang, Fan Fan, Zhizheng Wu

## Контекст Область генерируемого голосового реставрирования широко применяется в различных сферах, включая медицину, разговорные системы, игры и анимацию. Несмотря на успехы современных генерируемых моделей в этой области, их тренировочные цели часто не совпадают с человеческими предпочтениями, что приводит к низкому качеству результатов. Хотя пост-тренировочное применение предпочтений зарекомендовало себя в других генерируемых областях, таких как текст и изображения, в генерируемом реставрировании речи эта практика пока мало исследована. Необходимо разработать методы, позволяющие эффективно улучшать качество результатов в соответствии с человеческими предпочтениями. ## Метод Для решения описанных проблем мы предлагаем метод многомерного приведения предпочтений к алгоритму Direct Preference Optimization (DPO). Мы разработали новый датасет GenSR-Pref, содержащий 80 тысяч предпочтений, где каждый выбор был согласован с кругом метрик, охватывающих перceptive quality, signal fidelity, content consistency и timbre preservation. Наш подход гарантирует целостность и достоверность предпочтений. Мы применяем DPO к трем основным моделям генерируемого реставрирования речи: autoregressive models (AR), masked generative models (MGM) и flow-matching models (FM). Это позволяет обеспечить последовательное улучшение качества реставрирования в различных сценариях и бенчмарках. ## Результаты Мы провели обширные эксперименты с использованием наших методов и сравнили их с базовыми моделями. Результаты показали значительные повышения качества в 3х моделях на разных данных и задачах. Мы также провели анализ абляции, подтвердив преимущество нашего многомерного подхода над единоmetric-approaches. Благодаря нашей стратегии, модели становятся более совместимыми с человеческими предпочтениями и показывают лучшие результаты в качестве решения задачи generative speech restoration. ## Значимость Предлагаемый подход имеет широкую полезность в области генерируемого голосового реставрирования. Он может применяться в сферах, требующих высокого качества реставрирования, таких как медицинское измерение, разговорные системы, развлекательные и производственные системы, где речь играет ключевую роль. Наши результаты имеют потенциал для улучшения качества результатов в области генерируемой речи и могут быть широко использованы в практических задачах. ## Выводы Мы представили метод многомерного приведения предпочтений, который существенно улучшает качество результатов в генерируемом реставрировании речи. Наши результаты показали эффективность этого подхода в различных моделях и задачах. В дальнейших исследованиях мы планируем расширить наш датасет и применить нашу стратегию к другим моделям и областям генерируемой речи.
Annotation:
Recent generative models have significantly advanced speech restoration tasks, yet their training objectives often misalign with human perceptual preferences, resulting in suboptimal quality. While post-training alignment has proven effective in other generative domains like text and image generation, its application to generative speech restoration remains largely under-explored. This work investigates the challenges of applying preference-based post-training to this task, focusing on how to de...
ID: 2508.17229v1 cs.SD, cs.AI, cs.LG, eess.AS
Авторы:

Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo

#### Контекст "Диффузионные модели, такие как VoiceGrad, достигают высокой степени точности в речевом преобразовании (Voice Conversion, VC) по сравнению с более простыми моделями генерации речи. Однако их выполнение требует многоэтапного сэмплинга, что приводит к заметному снижению скорости. Для устранения этого недостатка была предложена FastVoiceGrad, которая преобразовывает VoiceGrad в одношаговую модель. Тем не менее, FastVoiceGrad все еще зависит от тяжеловесного контентного энкодера, необходимого для выделения речевой идентичности и контента, что также замедляет преобразование. Это привело к развитию FasterVoiceGrad, которая стремится улучшить скорость диффузионного VC, добиваясь этого за счет внедрения адверсарного диффузионного преобразования и одновременного обучения с помощью алгоритма ADCD." #### Метод "FasterVoiceGrad основывается на введении нового парадигмы для одношагового диффузионного VC. Она использует метод ADCD для улучшения качества речевого преобразования, при этом решая проблему дорогостоящего обучения контентного энкодера. Модель состоит из двух ключевых элементов: одношаговой диффузионной модели и содержимого-энкодера, которые обучаются одновременно. Это позволяет избежать избыточного вычислительного напряжения, связанного с длительными итерациями сэмплирования. Модель использует простую архитектуру, но эффективную, чтобы улучшить скорость, сохранив высокое качество за счет ускоренного обучения диффузионной модели и содержимого-энкодера." #### Результаты "В экспериментах была проведена сравнительная оценка скорости и качества речевого преобразования между FasterVoiceGrad, FastVoiceGrad и VoiceGrad. Результаты показывают, что FasterVoiceGrad демонстрирует скорость выполнения 6.6-6.9 раз быстрее генерации VoiceGrad и 1.8 раз быстрее FastVoiceGrad при использовании GPU и CPU. Однако в качестве речевого преобразования она сохраняет высокую точность и силу речевого выражения, близкую к VoiceGrad. Это делает ее более скорострельной, но не хуже по качеству." #### Значимость "FasterVoiceGrad демонстрирует новую технику для ускорения диффузионных моделей VC, сочетая в себе высокое качество и быстроту преобразования. Она может быть применена в различных сценариях, где необходимо быстрое преобразование речи, например, в системах реального времени или приложениях, требующих высокой производительности. Это позволяет улучшить интерактивность и пользовательский опыт, особенно в системах с низкой задержкой, таких как видеоконференции или синтез речи." #### Выводы "Данная работа открывает новый путь для улучшения скорости и качества диффузионных моделей VC. Она показывает, что можно добиться высокой точности при меньшем
Annotation:
A diffusion-based voice conversion (VC) model (e.g., VoiceGrad) can achieve high speech quality and speaker similarity; however, its conversion process is slow owing to iterative sampling. FastVoiceGrad overcomes this limitation by distilling VoiceGrad into a one-step diffusion model. However, it still requires a computationally intensive content encoder to disentangle the speaker's identity and content, which slows conversion. Therefore, we propose FasterVoiceGrad, a novel one-step diffusion-ba...
ID: 2508.17868v1 cs.SD, cs.AI, cs.LG, eess.AS, stat.ML
Показано 31 - 40 из 47 записей