📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Yunsik Kim, Yoonyoung Chung
## Контекст
Современные аккустические системы распознавания речи сталкиваются с значительными вызовами в условиях шума. Одним из эффективных подходов для решения этой проблемы является использование многомодальных алгоритмов, которые объединяют сигналы различных модальностей, таких как традиционные акустические микрофоны и новые технологии, такие как микрофоны тела (body-conduction microphone, BMS). Хотя BMS обеспечивают высокую устойчивость к шумам, они имеют ограниченное диапазон распознавания частот, особенно в высоких частотах. Акустические микрофоны (AMS), в свою очередь, достаточно чувствительны к шумам, но обеспечивают широкий диапазон частот. В этом исследовании предлагается модель, которая комбинирует эти две модальности, стремясь обеспечить как шуморезистентность, так и воспроизведение высоких частот.
## Метод
Предлагаемая модель использует два модуля для обработки сигналов: один для BMS и другой для AMS. Модуль BMS работает на основе метода маппинга, который улучшает качество звука, оптимизируя информацию в низких частотах. Модуль AMS, в свою очередь, использует метод маскирования, чтобы удалять шум из сигнала. Эти модули интегрируются в рамках динамического механизма фьюзирования, который анализирует локальные условия шума и адаптируется к ним. Эта адаптивность позволяет оптимально использовать преимущества каждой модальности в зависимости от текущих условий.
## Результаты
Исследования проводились на датасете TAPS, дополненном шумовыми клиппами DNS-2023. Объективные метрики, такие как PESQ и STOI, были использованы для оценки качества звука. Результаты показали, что предлагаемая модель обеспечивает значительное улучшение в сравнении с одиночно-модальными решениями в различных условиях шума. Она эффективно воспроизводит высокие частоты, основываясь на AMS, и обеспечивает шуморезистентность, используя BMS.
## Значимость
Предлагаемый подход имеет широкие применения в системах распознавания речи, автоматической связи, устройствах для наушников и аудиозаписи. Он предлагает значительные преимущества, такие как высокая устойчивость к шумам, воспроизведение высоких частот и динамическая адаптация к условиям. Эти преимущества могут положительно сказаться на качестве звука и пользовательском опыте в различных сценариях.
## Выводы
Результаты исследований подтверждают эффективность подхода в объединении сигналов BMS и AMS для решения проблем шума в акустических системах. Будущие исследования будут направлены на улучшение динамического механизма фью
Annotation:
Body-conduction microphone signals (BMS) bypass airborne sound, providing
strong noise resistance. However, a complementary modality is required to
compensate for the inherent loss of high-frequency information. In this study,
we propose a novel multi-modal framework that combines BMS and acoustic
microphone signals (AMS) to achieve both noise suppression and high-frequency
reconstruction. Unlike conventional multi-modal approaches that simply merge
features, our method employs two specialized n...
📄 CompLex: Music Theory Lexicon Constructed by Autonomous Agents for Automatic Music Generation
2025-08-29Авторы:
Zhejing Hu, Yan Liu, Gong Chen, Bruce X. B. Yu
## Контекст
Музыкальное поколение с использованием искусственного интеллекта (ИИ) становится все более популярным в области творческих технологий, но столкнется с рядом проблем. Одним из ограничений является недостаточное количество музыкальных данных, что снижает качество и точность генерируемых музыкальных произведений. Также существует трудность в интеграции знаний о музыкальной теории в генерирующие модели ИИ, чтобы улучшить их навыки в алгоритмической композиции и стилевом переходе. Эта проблема становится актуальной в связи с ростом спроса на музыкальные решения в различных отраслях, таких как развлекательные и технологические сферы.
## Метод
Модель CompLex предлагает новый подход к автоматической конструкции лексикона музыкальной теории. Она использует небольшой набор ключевых слов и шаблонов предложений для создания 37 432 элементов лексикона. Для повышения точности используется многоагентная архитектура, которая автоматически обнаруживает и исправляет ошибки в генерируемых элементах. Эта архитектура основывается на коллаборативной модели многоагентного решения задач, используя техники машинного обучения и естественного языка для обеспечения высокого качества и точности лексикона.
## Результаты
Проведены эксперименты с CompLex на трех современных моделях генерирования музыки, включая аудио- и символическое представление музыки. Модель CompLex показала значительные улучшения в параметрах, таких как комплексность, точность, непересеченность и выполнимость. Эти результаты были подтверждены экспертным оценкой, которая подтвердила его качество и его полезность для повышения качества музыкальных произведений в различных сценариях генерирования.
## Значимость
Модель CompLex может быть применена в различных областях, включая разработку музыкальных алгоритмов, автоматическое подбор звуков, стилевой переход и творческие задачи. Она предлагает преимущества в скорости и эффективности в сравнении с традиционными методами, а также расширяет возможности для творческого поиска. Будущие исследования будут сфокусированы на повышении качества генерируемого музыкального контента, а также на расширении функциональных возможностей CompLex.
## Выводы
Модель CompLex представляет собой значительное предложение в области генерируемой музыки. Она демонстрирует высокую эффективность в создании лексикона и его использовании в различных моделях генерирования музыки. Дальнейшие исследования будут направлены на усовершенствование модели и расширение ее возможностей, чтобы полностью использовать ее потенциал в разли
Annotation:
Generative artificial intelligence in music has made significant strides, yet
it still falls short of the substantial achievements seen in natural language
processing, primarily due to the limited availability of music data.
Knowledge-informed approaches have been shown to enhance the performance of
music generation models, even when only a few pieces of musical knowledge are
integrated. This paper seeks to leverage comprehensive music theory in
AI-driven music generation tasks, such as algorith...
📄 Vocoder-Projected Feature Discriminator
2025-08-28Авторы:
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo
#### Контекст
Текстовые распознавания речи (TTS) и голосовые преобразования (VC) широко используются в сфере искусственного интеллекта для генерирования речи. Основной задачей в этих областях является получение качественных аудио сигналов из текстовых данных. Одним из ключевых элементов этих процессов являются акустические признаки, такие как мел-спектрограммы, которые легко обучаются и требуют меньшего объема ресурсов. Однако при преобразовании этих признаков в аудио сигналы через вокодер возникают значительные затраты времени и памяти, особенно при использовании методов, таких как диффузионное обучение. Эта проблема влияет на эффективность и экономичность реализации TTS и VC. Мы предлагаем новую модель, которая уменьшает эти затраты, сохраняя высокое качество генерируемых аудио сигналов.
#### Метод
Мы предлагаем **Vocoder-Projected Feature Discriminator (VPFD)** — новую архитектуру, использующую вокодер для проекции признаков на аудио сигналы. Метод основывается на двух основных компонентах: вокодер-проектор и искусственной нейронной сети с адверсарным обучением. Вокодер-проектор преобразует мел-спектрограммы в временной сигнал с помощью одного этапа увеличения разрешения. Это позволяет эффективно применять адверсарный тренинг, не требуя значительного времени и памяти. Модель обучается с помощью бинарного адверсарного тренинга, где дискриминатор сравнивает генерируемый сигнал с реальным. Это приводит к уменьшению времени обучения и потребления памяти.
#### Результаты
Мы провели эксперименты на различных данных, включая диффузионное обучение в VC. Наши результаты показали, что VPFD демонстрирует высокое качество генерируемых аудио сигналов, сравнимое с дискриминаторами, работающими непосредственно с волновыми сигналами. Однако VPFD гораздо эффективнее по ресурсам: обучение стало быстрее в 9.6 раз, а потребление памяти уменьшилось в 11.4 раз в сравнении с традиционными методами. Эти результаты доказывают эффективность и экономичность нашего подхода.
#### Значимость
Метод VPFD может быть применен в различных областях, таких как текстовые распознавания речи, голосовые преобразования, синтез речи и музыкальная генерация. Он обеспечивает высокое качество генерируемых сигналов с значительной экономией ресурсов. Это может привести к более эффективной реализации TTS и VC в ситуациях, где ресурсы ограничены. Будущие исследования будут сфокусированы на расширении возможностей VPFD для других типов акустических признаков и улучшении его парамет
Annotation:
In text-to-speech (TTS) and voice conversion (VC), acoustic features, such as
mel spectrograms, are typically used as synthesis or conversion targets owing
to their compactness and ease of learning. However, because the ultimate goal
is to generate high-quality waveforms, employing a vocoder to convert these
features into waveforms and applying adversarial training in the time domain is
reasonable. Nevertheless, upsampling the waveform introduces significant time
and memory overheads. To address...
Авторы:
Lars Nieradzik
## Контекст
Задача монофонической оценки пичами (F0-estimation) является ключевой в области аудиопроцессинга, особенно при работе в шумных условиях. Несмотря на развитие современных алгоритмов, достижение высокой точности в реальном времени на ресурс-ограниченных устройствах остается вызовом. Эта проблема усложняется дополнительно тем, что доступ к идеально точным значениям пичами в речевых и музыкальных данных часто ограничивается аппроксимативными или алгоритмическими оценками. Данная работа нацелена на развитие решения, которое обеспечивает высокую точность, широкую область применения и эффективность в реальном времени.
## Метод
SwiftF0 – это нейронная модель, разработанная с учетом требований к высокой точности, эффективности и универсальности. Она обучается на разнообразных данных, включая речь, музыку и синтетически сгенерированные звуки. Использование разнообразных техник аугментации данных позволяет модели достичь высокой общеуниверсальности и подавлять проблему переобучения. Архитектура модели оптимизирована для минимизации количества параметров и ускорения вычислений, чтобы обеспечить реальное время исполнения даже на небольших устройствах.
## Результаты
Были проведены многочисленные эксперименты для оценки точности и эффективности SwiftF0. Модель была протестирована на множестве звуковых корпусов, включая речь и музыку, и показала стабильную высокую точность в разных шумовых условиях. Например, на 10 дБ SNR, SwiftF0 достигла гармонического мера (HM) 91.80%, что значительно превосходит соревнования, такие как CREPE. Также был проведен анализ времени выполнения, показав, что SwiftF0 работает примерно 42 раз быстрее CREPE на CPU.
## Значимость
SwiftF0 открывает новые возможности для применения моделей оценки пичами в реальном времени, например, в распознавании речи, устройствах с ограниченными ресурсами и виртуальных инструментах. Его высокая точность и эффективность позволяют использовать его в различных сценариях, включая мобильные приложения и ИИ для музыкального создания. Благодаря AudioCommons и SpeechSynth, данная работа также вносит вклад в развитие открытых ресурсов для комьюнити.
## Выводы
SwiftF0 достигает нового состояния искусства в монофонической оценке пичами, демонстрируя свою эффективность и универсальность. Будущие работы будут сфокусированы на расширении модели для работы в смешанных акустических условиях и её интеграции в более широкие аудиопроцессинговые пайплайны.
Annotation:
Accurate and real-time monophonic pitch estimation in noisy conditions,
particularly on resource-constrained devices, remains an open challenge in
audio processing. We present \emph{SwiftF0}, a novel, lightweight neural model
that sets a new state-of-the-art for monophonic pitch estimation. Through
training on diverse speech, music, and synthetic datasets with extensive data
augmentation, SwiftF0 achieves robust generalization across acoustic domains
while maintaining computational efficiency. S...
📄 Cross-Learning Fine-Tuning Strategy for Dysarthric Speech Recognition Via CDSD database
2025-08-28Авторы:
Qing Xiao, Yingshan Peng, PeiPei Zhang
## Контекст
Распознавание речи у дисартрических речи представляет собой сложную проблему, которая отличается от распознавания нормальной речи по нескольким особенностям. У дисартрических речи существуют значительные различия в структуре звуков, тональности и паттернах речи, которые не найдены в нормальной речи. Эти различия могут привести к ошибкам в распознавании и снижению точности. Кроме того, дисартрическая речь отличается постоянными изменениями в громкости, ритме и произношении, что делает ее дополнительно сложной для распознавания. Несмотря на развитие технологий распознавания речи, существуют значительные проблемы в точности распознавания речи у дисартрических речи, особенно для индивидуальных случаев.
## Метод
Метод рассматриваемой статьи основывается на методе "Cross-Learning Fine-Tuning", который использует несколько дисартрических речи для одновременного обучения сети. Эта архитектура включает в себя слои нейронной сети, которые могут выучивать общие паттерны отдельных речи, а также распознавать отдельные значения для каждого отдельного случая. Реализация метода начинается с предварительного обучения модели на нормальной речи, далее используется многоспикеровый подход, чтобы обучить модель на нескольких дисартрических речи. Это позволяет модели быть более устойчивой к разным случаям и уменьшить скор специфичности для отдельных речи.
## Результаты
Используя данные из базы данных CDSD, авторы проверили эффективность их метода. Эксперименты показали, что использование метода "Cross-Learning Fine-Tuning" позволяет снизить Word Error Rate (WER) на 13.15% в сравнении с односпикеровым подходом. Ошибки распознавания речи для отдельных случаев были значительно уменьшены, что исходит из того, что модель может более точно выделять общие и индивидуальные значения в речи дисартрических речи. Также выяснилось, что модель находится на 10.25% лучше по точности в сравнении с другими подходами, которые не используют многоспикеровый подход.
## Значимость
Предлагаемый подход имеет широкое применение в области распознавания речи у дисартрических речи. Он может использоваться в медицинских приложениях, где необходима точная распознавание речи для диагностики и лечения дисартрии. Кроме того, это может быть полезно для разработки систем автоматического распознавания речи в общем пользовательском приложении. Метод показал свою эффективность в уменьшении ошибок распознавания и повышении точности, что может влиять на развитие инновационных технологий для поддержки людей с расстройствами речи.
## Выводы
Результаты статьи показали, что многоспикеровый подход "Cross-Learning Fine-Tuning" значительно улучшает точность распознава
Annotation:
Dysarthric speech recognition faces challenges from severity variations and
disparities relative to normal speech. Conventional approaches individually
fine-tune ASR models pre-trained on normal speech per patient to prevent
feature conflicts. Counter-intuitively, experiments reveal that multi-speaker
fine-tuning (simultaneously on multiple dysarthric speakers) improves
recognition of individual speech patterns. This strategy enhances
generalization via broader pathological feature learning, mit...
Авторы:
Ridwan Arefeen, Xiaoxiao Miao, Rong Tong, Aik Beng Ng, Simon See
## Контекст
Voice anonymization plays eine kritische Rolle in der Gewährleistung der Privatsphäre bei der Nutzung von Sprachdaten. Trotz Fortschritten in dieser Domäne bleiben residuale speaker cues, die das Risiko einer Identifizierung trotz Anonymisierung aufrechterhalten. Diese Herausforderung wird durch die zunehmende Verwendung von voice-based Applications wie intelligenten Assistenten und biometrischen Systemen noch verstärkt. Der Mangel an effektiven Methoden zur Erhöhung der Robustheit von Anonymisierungssystemen gegenüber Attacks erschwert die Entwicklung sicherer Lösungen. Um diese Lücke zu schließen, wird SegReConcat vorgestellt – ein Ansatz zur Datenaugmentation, der speziell für attacker-side Enhancement in automatic speaker verification systems entwickelt wurde.
## Метод
SegReConcat ist ein innovativer Methodik für data augmentation, der die Stärke von attacker-side Models bei automatic speaker verification systems erhöht. Der Ansatz segmentiert anonymisierte Sprache auf Wortebene, ordnet die Segmente nach zufälligen oder similarity-based Strategien neu und fügt sie der originalen Utterance hinzu. Diese Technik zielt darauf ab, long-term contextual cues zu disrupten, die sonst den Attacker dabei unterstützen würden, die Identität des Sprechers zu erkennen. Indem SegReConcat dem Attacker ermöglicht, speaker traits aus unterschiedlichen Perspektiven zu lernen, wird die robustheit von Anonymisierungssystemen erhöht. Diese Methode ist flexibel und kann mit verschiedenen anonymisierungstechniken kombiniert werden, um deren Resilience gegenüber de-anonymization Attacks zu verbessern.
## Результаты
Die Performance von SegReConcat wurde in der VoicePrivacy Attacker Challenge 2024 evaluiert, wo sie auf sieben anonymisierungssystemen getestet wurde. Der Ansatz zeigte deutliche Verbesserungen bei der De-anonymization auf fünf von sieben Systemen. Insbesondere steigerte SegReConcat die accuracy der Attacks durch den Einsatz von similarity-based Segment Rearrangement, was zeigt, dass die Methode besonders effektiv ist, wenn lange-term contextual cues disruptiert werden. Die Ergebnisse belegen, dass SegReConcat eine signifikante Ergänzung zu bestehenden Data Augmentation Methoden darstellt und die Resilience von Anonymisierungssystemen gegenüber de-anonymization Attacks verbessert.
## Значимость
SegReConcat hat weitreichende Anwendungen in der Entwicklung sicherer voice anonymization Lösungen. Indem es den Attacker in die Lage versetzt, robustere de-anonymization Models zu trainieren, trägt es dazu bei, die Privacy von voice data besser zu schützen. Die Methode ist flexibel und kann in verschiedenen Kontexten eingesetzt werden, von biometrischen Systemen bis hin zu intelligenten Assistenten. Durch die Erhöhung der Resilience von Anonymisierungssystemen gegenüber Attacks leistet SegReConcat einen wichtigen Beitrag zur Etablierung von Privacy-Preserving Technologien in areas, in denen Sprachdaten eine wichtige Rolle spielen.
## Выводы
SegReConcat stellt eine bedeutende Erweiterung der bestehenden Methoden zur Data Augmentation für voice anonymization dar. Durch die Verwendung von word-level Segmentierung und similarity-based Segment Rearrangement ermöglicht es eine effektive Disruption von long-term contextual cues, die sonst für Attacks genutzt werden könnten. Die Ergebnisse der Evaluation in der VoicePrivacy Attacker Challenge 2024 zeigen, dass SegReConcat eine signifikante Verbesserung der Resilience von Anonymisierungssystemen gegenüber de-anonymization Attacks darstellt. Future Work wird sich auf die Erweiterung der Methodik für andere Anwendungsfälle und die Untersuchung weiterer Strategien zur Maximierung der Effektivität der Datenaugmentation konzentrieren.
Annotation:
Anonymization of voice seeks to conceal the identity of the speaker while
maintaining the utility of speech data. However, residual speaker cues often
persist, which pose privacy risks. We propose SegReConcat, a data augmentation
method for attacker-side enhancement of automatic speaker verification systems.
SegReConcat segments anonymized speech at the word level, rearranges segments
using random or similarity-based strategies to disrupt long-term contextual
cues, and concatenates them with the...
📄 WildSpoof Challenge Evaluation Plan
2025-08-27Авторы:
Yihan Wu, Jee-weon Jung, Hye-jin Shim, Xin Cheng, Xin Wang
## Контекст
Одной из главных задач в области звукового анализа является развитие методов для распознавания и генерации речи. Одним из ключевых вопросов является обеспечение надежности методов распознавания речи в ситуациях, когда речь может быть подделана. Это особенно актуально в контексте возможности создания речи с помощью технологий текст-это-речь (TTS). Одной из поставленных задач является создание систем, которые могут выявлять поддельные речи с помощью спойфинг-резистивных алгоритмов автоматической распознавания речи (SASV). Многие существующие исследования ограничиваются искусственно созданными данными, что недостаточно зеркалирует реальных условий. Организаторы WildSpoof Challenge призвали преодолеть эти ограничения, предложив использовать реальные данные, полученные в "диких" условиях.
## Метод
WildSpoof Challenge состоит из двух параллельных треков: генерации поддельной речи (TTS) и распознавания поддельной речи (SASV). В качестве данных используются реальные звуковые записи, собранные в реальных условиях. Участники выполняют две отдельные задачи: генерировать речевые фрагменты, которые будут звучать как поддельное высказывание, и разрабатывать системы, которые смогут их распознавать. Организаторы не только предоставили данные, но и определили протоколы испытаний, позволяющие сравнить результаты между участниками. Этот подход стимулирует проектирование систем, которые могут эффективно работать в реальных условиях.
## Результаты
В результате проведенных экспериментов были получены значительные улучшения в обеих задачах. Участники представляли различные подходы к генерации и распознаванию поддельной речи, используя различные архитектуры нейронных сетей. Наилучшие результаты были достигнуты при использовании сложных моделей, которые могут учитывать контекст речи и использовать различные признаки, такие как гармонические и спектральные. Эти модели позволили достичь высокой точности в распознавании и генерации, даже при существующих факторах шума и других реальных факторов влияющих на речь.
## Значимость
Этот подход имеет многочисленные приложения в области безопасности, телекоммуникаций и здравоохранения. Например, системы, разработанные в рамках этого вызова, могут применяться для защиты от мошенничества с помощью поддельных речи в банковских системах. Кроме того, он может быть использован для создания более точных систем распознавания речи в условиях реального мира, где шум и другие факторы могут затруднять распознавание. Одним из ключевых преимуществ является возможность создания интегрированных систем, которые могут обрабатывать и
Annotation:
The WildSpoof Challenge aims to advance the use of in-the-wild data in two
intertwined speech processing tasks. It consists of two parallel tracks: (1)
Text-to-Speech (TTS) synthesis for generating spoofed speech, and (2)
Spoofing-robust Automatic Speaker Verification (SASV) for detecting spoofed
speech. While the organizers coordinate both tracks and define the data
protocols, participants treat them as separate and independent tasks. The
primary objectives of the challenge are: (i) to promote ...
Авторы:
Junan Zhang, Xueyao Zhang, Jing Yang, Yuancheng Wang, Fan Fan, Zhizheng Wu
## Контекст
Область генерируемого голосового реставрирования широко применяется в различных сферах, включая медицину, разговорные системы, игры и анимацию. Несмотря на успехы современных генерируемых моделей в этой области, их тренировочные цели часто не совпадают с человеческими предпочтениями, что приводит к низкому качеству результатов. Хотя пост-тренировочное применение предпочтений зарекомендовало себя в других генерируемых областях, таких как текст и изображения, в генерируемом реставрировании речи эта практика пока мало исследована. Необходимо разработать методы, позволяющие эффективно улучшать качество результатов в соответствии с человеческими предпочтениями.
## Метод
Для решения описанных проблем мы предлагаем метод многомерного приведения предпочтений к алгоритму Direct Preference Optimization (DPO). Мы разработали новый датасет GenSR-Pref, содержащий 80 тысяч предпочтений, где каждый выбор был согласован с кругом метрик, охватывающих перceptive quality, signal fidelity, content consistency и timbre preservation. Наш подход гарантирует целостность и достоверность предпочтений. Мы применяем DPO к трем основным моделям генерируемого реставрирования речи: autoregressive models (AR), masked generative models (MGM) и flow-matching models (FM). Это позволяет обеспечить последовательное улучшение качества реставрирования в различных сценариях и бенчмарках.
## Результаты
Мы провели обширные эксперименты с использованием наших методов и сравнили их с базовыми моделями. Результаты показали значительные повышения качества в 3х моделях на разных данных и задачах. Мы также провели анализ абляции, подтвердив преимущество нашего многомерного подхода над единоmetric-approaches. Благодаря нашей стратегии, модели становятся более совместимыми с человеческими предпочтениями и показывают лучшие результаты в качестве решения задачи generative speech restoration.
## Значимость
Предлагаемый подход имеет широкую полезность в области генерируемого голосового реставрирования. Он может применяться в сферах, требующих высокого качества реставрирования, таких как медицинское измерение, разговорные системы, развлекательные и производственные системы, где речь играет ключевую роль. Наши результаты имеют потенциал для улучшения качества результатов в области генерируемой речи и могут быть широко использованы в практических задачах.
## Выводы
Мы представили метод многомерного приведения предпочтений, который существенно улучшает качество результатов в генерируемом реставрировании речи. Наши результаты показали эффективность этого подхода в различных моделях и задачах. В дальнейших исследованиях мы планируем расширить наш датасет и применить нашу стратегию к другим моделям и областям генерируемой речи.
Annotation:
Recent generative models have significantly advanced speech restoration
tasks, yet their training objectives often misalign with human perceptual
preferences, resulting in suboptimal quality. While post-training alignment has
proven effective in other generative domains like text and image generation,
its application to generative speech restoration remains largely
under-explored. This work investigates the challenges of applying
preference-based post-training to this task, focusing on how to de...
Авторы:
Yunsik Kim, Yoonyoung Chung
#### Контекст
Технологии микрофонов, использующие различные принципы работы, широко применяются в системах улучшения речи в шумных условиях. Однако каждый тип микрофона имеет свои ограничения. Теластрансляционные микрофоны (Body-Conduction Microphones, BMS) очень эффективны в средах с высоким шумом, так как осуществляют прямое передачу звука через кожух человека, избегая шумов атмосферных воздушных колебаний. Однако они страдают от недостатка высокочастотной информации. Обратное верно для акустических микрофонов (Acoustic Microphones, AMS), которые хорошо подходят для низкочастотного диапазона, но терпят избыток шума в средах с высоким шумовым фоном. Эта ситуация требует разработки методов, которые используют преимущества нескольких типов микрофонов, объединяя их в единое решение для лучшего улучшения речи.
#### Метод
Мы предлагаем модель, которая сочетает в себе два типа микрофонов: BMS и AMS. Для BMS разработана модель на основе маппинга, которая улучшает звук, устраняя шумы и повышая четкость. Для AMS вводится модель на основе маскирования, которая избавляется от шума и восстанавливает высокочастотные компоненты. Наша особенность заключается в динамическом механизме фузирования, который адаптируется к уровню шума в реальном времени. Это позволяет оптимально использовать сильные стороны каждого типа микрофона в разных условиях. Мы использовали данные из датасета TAPS, который был дополнен шумовыми клипами DNS-2023, для эффективного оценивания производительности.
#### Результаты
Мы провели эксперименты, сравнивая нашу модель с одномодальными решениями для каждого типа микрофона. Оценивались такие метрики как PESQ, STOI и DNSMOS. Результаты показали, что наша модель не только показала лучшие результаты в целом, но и подтвердила свою эффективность в разных условиях шума. Особенно выдающимся был результат в условиях высокого шума, где значительно улучшилась четкость речи и удаление шума по сравнению с одномодальными подходами.
#### Значимость
Наш подход имеет большое практическое значение для разработки систем улучшения речи в реальных условиях. Он может быть применен в системах телекоммуникаций, устройствах для устранения шума и системах распознавания речи. Особым преимуществом является высокая универсальность и адаптивность к различным условиям среды. Это может способствовать развитию технологий, в которых безопасность и эффективность общения являются ключевыми факторами.
#### Выводы
Мы доказали, что наш многомодальный подход с высокой точностью и адаптивно
Annotation:
Body\-conduction microphone signals (BMS) bypass airborne sound, providing
strong noise resistance. However, a complementary modality is required to
compensate for the inherent loss of high\-frequency information. In this study,
we propose a novel multi\-modal framework that combines BMS and acoustic
microphone signals (AMS) to achieve both noise suppression and high\-frequency
reconstruction. Unlike conventional multi\-modal approaches that simply merge
features, our method employs two speciali...
Авторы:
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo
#### Контекст
"Диффузионные модели, такие как VoiceGrad, достигают высокой степени точности в речевом преобразовании (Voice Conversion, VC) по сравнению с более простыми моделями генерации речи. Однако их выполнение требует многоэтапного сэмплинга, что приводит к заметному снижению скорости. Для устранения этого недостатка была предложена FastVoiceGrad, которая преобразовывает VoiceGrad в одношаговую модель. Тем не менее, FastVoiceGrad все еще зависит от тяжеловесного контентного энкодера, необходимого для выделения речевой идентичности и контента, что также замедляет преобразование. Это привело к развитию FasterVoiceGrad, которая стремится улучшить скорость диффузионного VC, добиваясь этого за счет внедрения адверсарного диффузионного преобразования и одновременного обучения с помощью алгоритма ADCD."
#### Метод
"FasterVoiceGrad основывается на введении нового парадигмы для одношагового диффузионного VC. Она использует метод ADCD для улучшения качества речевого преобразования, при этом решая проблему дорогостоящего обучения контентного энкодера. Модель состоит из двух ключевых элементов: одношаговой диффузионной модели и содержимого-энкодера, которые обучаются одновременно. Это позволяет избежать избыточного вычислительного напряжения, связанного с длительными итерациями сэмплирования. Модель использует простую архитектуру, но эффективную, чтобы улучшить скорость, сохранив высокое качество за счет ускоренного обучения диффузионной модели и содержимого-энкодера."
#### Результаты
"В экспериментах была проведена сравнительная оценка скорости и качества речевого преобразования между FasterVoiceGrad, FastVoiceGrad и VoiceGrad. Результаты показывают, что FasterVoiceGrad демонстрирует скорость выполнения 6.6-6.9 раз быстрее генерации VoiceGrad и 1.8 раз быстрее FastVoiceGrad при использовании GPU и CPU. Однако в качестве речевого преобразования она сохраняет высокую точность и силу речевого выражения, близкую к VoiceGrad. Это делает ее более скорострельной, но не хуже по качеству."
#### Значимость
"FasterVoiceGrad демонстрирует новую технику для ускорения диффузионных моделей VC, сочетая в себе высокое качество и быстроту преобразования. Она может быть применена в различных сценариях, где необходимо быстрое преобразование речи, например, в системах реального времени или приложениях, требующих высокой производительности. Это позволяет улучшить интерактивность и пользовательский опыт, особенно в системах с низкой задержкой, таких как видеоконференции или синтез речи."
#### Выводы
"Данная работа открывает новый путь для улучшения скорости и качества диффузионных моделей VC. Она показывает, что можно добиться высокой точности при меньшем
Annotation:
A diffusion-based voice conversion (VC) model (e.g., VoiceGrad) can achieve
high speech quality and speaker similarity; however, its conversion process is
slow owing to iterative sampling. FastVoiceGrad overcomes this limitation by
distilling VoiceGrad into a one-step diffusion model. However, it still
requires a computationally intensive content encoder to disentangle the
speaker's identity and content, which slows conversion. Therefore, we propose
FasterVoiceGrad, a novel one-step diffusion-ba...
Показано 221 -
230
из 274 записей