📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 MuFFIN: Multifaceted Pronunciation Feedback Model with Interactive Hierarchical Neural Modeling

2025-10-08

Авторы:

Bi-Cheng Yan, Ming-Kang Tsai, Berlin Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Computer-assisted pronunciation training (CAPT) manages to facilitate second-language (L2) learners to practice pronunciation skills by offering timely and instructive feedback. To examine pronunciation proficiency from multiple facets, existing methods for CAPT broadly fall into two categories: mispronunciation detection and diagnosis (MDD) as well as automatic pronunciation assessment (APA). The former aims to pinpoint phonetic pronunciation errors and provide diagnostic feedback, while the la...

ID: 2510.04956v2 eess.AS, cs.AI

arXiv PDF

📄 UniverSR: Unified and Versatile Audio Super-Resolution via Vocoder-Free Flow Matching

2025-10-04

Авторы:

Woongjib Choi, Sangmin Lee, Hyungseob Lim, Hong-Goo Kang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In this paper, we present a vocoder-free framework for audio super-resolution that employs a flow matching generative model to capture the conditional distribution of complex-valued spectral coefficients. Unlike conventional two-stage diffusion-based approaches that predict a mel-spectrogram and then rely on a pre-trained neural vocoder to synthesize waveforms, our method directly reconstructs waveforms via the inverse Short-Time Fourier Transform (iSTFT), thereby eliminating the dependence on a...

ID: 2510.00771v1 eess.AS, cs.AI, cs.SD, eess.SP

arXiv PDF

📄 Game-Time: Evaluating Temporal Dynamics in Spoken Language Models

2025-10-02

Авторы:

Kai-Wei Chang, En-Pei Hu, Chun-Yi Kuan, Wenze Ren, Wei-Chih Chen, Guan-Ting Lin, Yu Tsao, Shao-Hua Sun, Hung-yi Lee, James Glass

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Conversational Spoken Language Models (SLMs) are emerging as a promising paradigm for real-time speech interaction. However, their capacity of temporal dynamics, including the ability to manage timing, tempo and simultaneous speaking, remains a critical and unevaluated challenge for conversational fluency. To address this gap, we introduce the Game-Time Benchmark, a framework to systematically assess these temporal capabilities. Inspired by how humans learn a language through language activities...

ID: 2509.26388v1 eess.AS, cs.AI, cs.CL

arXiv PDF

📄 On Deepfake Voice Detection -- It's All in the Presentation

2025-10-02

Авторы:

Héctor Delgado, Giorgio Ramondetti, Emanuele Dalmasso, Gennady Karvitsky, Daniele Colibro, Haydar Talib

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

While the technologies empowering malicious audio deepfakes have dramatically evolved in recent years due to generative AI advances, the same cannot be said of global research into spoofing (deepfake) countermeasures. This paper highlights how current deepfake datasets and research methodologies led to systems that failed to generalize to real world application. The main reason is due to the difference between raw deepfake audio, and deepfake audio that has been presented through a communication...

ID: 2509.26471v1 eess.AS, cs.AI

arXiv PDF

📄 Unsupervised Speech Enhancement using Data-defined Priors

2025-10-01

Авторы:

Dominik Klement, Matthew Maciejewski, Sanjeev Khudanpur, Jan Černocký, Lukáš Burget

#### Контекст Улучшение речевых сигналов — ключевая задача в области обработки звука, нацеленная на повышение чёткости и восприятия речи в условиях шума. Одной из существенных проблем этой области является нехватка больших объёмов парных чистых и шумных речевых сигналов, необходимых для традиционных методов обучения на основе парных данных. Для решения этой проблемы используется синтетическое генерирование шумных сигналов, но это приводит к несоответствию между обучающими и тестовыми данными, что снижает качество решений. В данной работе предлагается методика, основанная на непарных данных, для решения проблемы улучшения речи в условиях недоступности парных данных. #### Метод Предложена двухветвная архитектура с использованием кодировщика-декодировщика для улучшения речи в условиях недоступности парных данных. Каждая ветвь использует алгоритмы адверсarial training для определения приоритетов по чистой речи и шуму. Одна ветвь определяет приоритеты чистой речи, оперируя с непарным набором данных чистой речи. Другая ветвь определяет приоритеты шума, используя непарный набор данных шума. Эта архитектура позволяет создать два различных представления входных данных, которые, в свою очередь, способствуют эффективному улучшению речи. #### Результаты Использовались реальные данные для проверки метода. Наборы данных, включающие чистые и шумные речевые сигналы, были разделены на типы шума и чистоты речи для чёткого определения влияния каждого из них на результат. Эксперименты показали, что предложенный подход даёт результаты, сравнимые с теми, которые достигаются в самых лучших методах непарного улучшения речи. Это подтверждает эффективность адверсарских тренировок в определении приоритетов для чистой речи и шума, даже при отсутствии парных данных. #### Значимость Предложенный подход может быть применён в ситуациях, где сбор парных данных для обучения невозможен или нецелесообразен. Он применим в области улучшения речи в реальных условиях, в том числе в системах транскрибирования речи, устройствах повышения четкости речи и в медицинских приложениях. Одним из основных преимуществ этого метода является то, что он устраняет необходимость в парных данных, что упрощает процесс обучения. Будущие исследования будут направлены на улучшение точности улучшения речи и внедрение этого подхода в различные реальные приложения. #### Выводы Предложенная работа демонстрирует, что непарные данные могут быть эффективно использованы для решения проблемы улучшения речи. Отдельно отмечено влияние выбора чистых данных на качество результата, что может приводить к смещению в пользу результа

Annotation:

The majority of deep learning-based speech enhancement methods require paired clean-noisy speech data. Collecting such data at scale in real-world conditions is infeasible, which has led the community to rely on synthetically generated noisy speech. However, this introduces a gap between the training and testing phases. In this work, we propose a novel dual-branch encoder-decoder architecture for unsupervised speech enhancement that separates the input into clean speech and residual noise. Adver...

ID: 2509.22942v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 AudioFuse: Unified Spectral-Temporal Learning via a Hybrid ViT-1D CNN Architecture for Robust Phonocardiogram Classification

2025-10-01

Авторы:

Md. Saiful Bari Siddiqui, Utsab Saha

## Контекст Физиологические аудиосигналы, такие как фонокардиограммы (PCG), являются ключевыми индикаторами многих заболеваний сердца и требуют точной классификации для диагностики. Однако классические подходы к их обработке часто бьются о проблемы, связанные с неполностью информативностью одного из доменов — спектрального или темпорального. Наличие разрывов в информации между этими доменами ставит перед исследователями задачу создания универсального классификатора, который мог бы эффективно объединить эти два домена для улучшения точности и устойчивости классификации. ## Метод Мы предлагаем AudioFuse, архитектуру, которая использует гибридную свёрточную сеть 1D и трансформерную модель ViT для обработки спектральных и темпоральных признаков соответственно. Для решения проблемы переобучения, часто встречающейся при объединении представлений, мы вводят широкую и малой глубины Vision Transformer с широкой нейронной сетью с 1D сверточной сетью для глубокого изучения ключевых особенностей как в спектральном, так и в темпоральном доменах. Такой подход позволяет достичь более сильного индуктивного задвижки и значительного повышения точности классификации. ## Результаты Мы проверили AudioFuse на двух высококачественных датасетах: PhysioNet 2016 и PASCAL. На PhysioNet 2016, AudioFuse достигло ROC-AUC в 0.8608 при сравнительном уровне ROC-AUC 0.8066 для классификации спектрограмм и 0.8223 для классификации гармонических прогнозов. На PASCAL, AudioFuse показал устойчивость к искажениям в данных, получив ROC-AUC в 0.7181, в то время как гармоническая сеть пропадала в 0.4873. Это указывает на высокую эффективность AudioFuse в обеспечении устойчивости к шумам и разрывам в данных. ## Значимость AudioFuse может быть применен в различных медицинских приложениях, включая диагностику и мониторинг здоровья сердца. Его многослойная архитектура и устойчивость к шумам делают её выгодным инструментом для классификации звуковых сигналов. Данный подход также может привести к более точным наблюдениям в медицинской практике и снижению числа ложных срабатываний в классификации сердечных звуков. ## Выводы Мы продемонстрировали, что AudioFuse является эффективным методом классификации фонокардиограмм, который объединяет спектральные и темпоральные признаки для улучшения точности. Мы намерены продолжать работу над улучшением архитектуры и применением её в других медицинских областях, таких как диагностика дыхательных заболеваний и аудиомониторинг.

Annotation:

Biomedical audio signals, such as phonocardiograms (PCG), are inherently rhythmic and contain diagnostic information in both their spectral (tonal) and temporal domains. Standard 2D spectrograms provide rich spectral features but compromise the phase information and temporal precision of the 1D waveform. We propose AudioFuse, an architecture that simultaneously learns from both complementary representations to classify PCGs. To mitigate the overfitting risk common in fusion models, we integrate ...

ID: 2509.23454v1 eess.AS, cs.AI, cs.LG, cs.SD, eess.SP

arXiv PDF

📄 VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

2025-10-01

Авторы:

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song

#### Контекст Видео-условная генерация звука и речи (Video-conditioned Sound and Speech Generation, VSS) является ключевым направлением в искусственном интеллекте, включая задачи видео-к-звуку (V2S) и визуальной текстовой речи (Visual Text-to-Speech, VisualTTS). Однако, существующие подходы обычно рассматривают эти задачи в отдельности, не добиваясь гармоничного взаимодействия. Это приводит к неэффективности, требованию дополнительных ресурсов и усложнению обучения. Таким образом, сцепление этих задач в единую модель остается актуальной проблемой. Наша мотивация заключается в разработке модели, которая будет эффективно объединять V2S и VisualTTS в единое целое, уменьшая сложность и улучшая качество генерируемых данных. #### Метод Мы предлагаем VSSFlow — модель, основанную на методе течения (flow-matching framework). Эта модель объединяет обе задачи в единый процесс, стремясь к более эффективной интеграции условий. Основным инновационным элементом является уникальный механизм агрегации условий (condition aggregation mechanism), который позволяет эффективно обрабатывать разные типы входных данных, таких как видео и речевые транскрипты. Было выявлено, что разные слои сети (cross-attention и self-attention) демонстрируют разные индуктивные базы при вводе условий. Мы используем эти свойства для эффективного управления: cross-attention для неоднозначных видео-условий и self-attention для более определенных речевых транскриптов. Более того, нами открыто опровергнут миф о том, что усложнение модели для объединения задач приводит к ухудшению качества — VSSFlow благодаря единому циклу обучения демонстрирует более стабильный результат и ускоренное сходимость. #### Результаты Мы проводили эксперименты на задачах V2S и VisualTTS, используя стандартные наборы данных. Наши результаты показывают, что VSSFlow превосходит существующие специализированные модели, устанавливая новые рекорды качества. Особое внимание уделено выявлению преимуществ общего аудио-примитива, который ускоряет обучение, обеспечивает более точное подгонение по условиям и обеспечивает более стабильное генерирование. Эксперименты также подтверждают, что у нас предложенный подход значительно упрощает обучение и улучшает качество генерируемых данных, без дополнительных этапов обучения. #### Значимость Выделяется широкая область применений VSSFlow, включая домашние ассистенты, развлекательные приложения, медицинскую индустрию и искусственные контент-генераторы. Наш подход уникален тем, что объединяет две ранее разделенные задачи в единое решение, сокращая ресурсозатраты и улучшая качество. Преимущества заключаются в простоте развертывания, улучшенной стабильности и улуч

Annotation:

Video-conditioned sound and speech generation, encompassing video-to-sound (V2S) and visual text-to-speech (VisualTTS) tasks, are conventionally addressed as separate tasks, with limited exploration to unify them within a signle framework. Recent attempts to unify V2S and VisualTTS face challenges in handling distinct condition types (e.g., heterogeneous video and transcript conditions) and require complex training stages. Unifying these two tasks remains an open problem. To bridge this gap, we ...

ID: 2509.24773v2 eess.AS, cs.AI, cs.CL, cs.CV, cs.SD

arXiv PDF

📄 ARTI-6: Towards Six-dimensional Articulatory Speech Encoding

2025-09-30

Авторы:

Jihwan Lee, Sean Foley, Thanathai Lertpetchpun, Kevin Huang, Yoonjeong Lee, Tiantian Feng, Louis Goldstein, Dani Byrd, Shrikanth Narayanan

## Контекст Область исследования артикуляторного распознавания речи становится все более важной в связи с ростом требований к точности и эффективности голосовых технологий. Традиционные подходы часто страдают от неэффективности, неточности или нехватки глубины понимания артикуляционных процессов. Эти проблемы влекут за собой ограниченную точность речи, ограниченные возможности для синтеза естественного голоса и дополнительные сложности в применении к реальным задачам. В этом контексте предлагается ARTI-6 — новая модель, которая стремится преодолеть эти ограничения, обеспечивая более подробный и интерпретируемый подход к артикуляционной речи. ## Метод Методология ARTI-6 основывается на реальных данных, полученных с помощью реального временного МРТ. Она включает в себя три основных компонента: (1) шестимерный набор артикуляторных фичей, который представляет ключевые регионы гортани, включая велю, корень языка и глоту; (2) модель инверсии, которая использует базисные модели голоса для предсказания артикуляторных фичей из акустических данных речи, достигнув корреляции 0.87; и (3) модель синтеза, которая генерирует естественное звучание речи на основе артикуляционных фичей. Эта архитектура обеспечивает интерпретируемость, высокую эффективность и физиологическую обоснованность, которые отличают ARTI-6 от предыдущих подходов. ## Результаты Результаты ARTI-6 были проверены в ряде экспериментов, используя разнообразные данные речи. Модель показала высокую точность в предсказании артикуляционных фичей, достигая корреляции 0.87. Была продемонстрирована ее способность генерировать естественно звучащую речь с помощью низкой-размерной артикуляционной модели. Эти результаты были получены на разных наборах данных, что подтверждает широкую применимость ARTI-6 в разных сценариях. ## Значимость ARTI-6 предлагает широкие возможности для развития голосовых технологий, включая продвижение в области артикуляционной инверсии и синтеза. Он предоставляет компактную, но точную модель, которая позволяет создавать естественно звучащую речь с меньшим потреблением ресурсов. Благодаря его физиологической обоснованности, ARTI-6 может быть применен в различных сферах, таких как робототехника, здравоохранение и улучшение интерактивных голосовых систем. ## Выводы В целом, ARTI-6 представляет собой перспективный подход к артикуляторному распознаванию речи, объединяя точность, эффективность и глубину понимания процессов говорения. Будущие исследования будут сконцентрированы на улучшении модели, рас

Annotation:

We propose ARTI-6, a compact six-dimensional articulatory speech encoding framework derived from real-time MRI data that captures crucial vocal tract regions including the velum, tongue root, and larynx. ARTI-6 consists of three components: (1) a six-dimensional articulatory feature set representing key regions of the vocal tract; (2) an articulatory inversion model, which predicts articulatory features from speech acoustics leveraging speech foundation models, achieving a prediction correlation...

ID: 2509.21447v1 eess.AS, cs.AI, cs.CL

arXiv PDF

📄 Data-Efficient ASR Personalization for Non-Normative Speech Using an Uncertainty-Based Phoneme Difficulty Score for Guided Sampling

2025-09-26

Авторы:

Niclas Pokel, Pehuén Moure, Roman Boehringer, Yingqiang Gao

## Контекст Основной акцент в данном исследовании размещен на развитии эффективных методов персонализации автоматической распознавательной системы речи (ASR) для нестандартного речи, которая возникает у индивидов с нарушениями, вызванными такими состояниями, как шизофрения или структурные аномалии. Эти нарушения приводят к высокой акустической вариабельности и ограниченному количеству данных для обучения, что существенно снижает качество работы ASR-систем. Недостаточная точность распознавания речи может ограничить возможности коммуникации для пользователей с нестандартной речью, что делает развитие данной области крайне актуальным. Это исследование адресуется вопросу развития методов, которые могут улучшить точность распознавания для нестандартной речи за счет индивидуализированного тестирования. ## Метод Для достижения поставленных целей, разработчики применяют метод, основанный на моделировании неопределенности, с использованием Monte Carlo Dropout. Это позволяет оценивать уровень неуверенности модели в распознавании отдельных фонем. Эти оценки используются для выделения самых сложных фонем для модели и применения так называемого "отбора на уровне фонемов" (guided sampling). Эта методика позволяет сосредоточиться на сложных для распознавания фонемах, улучшая при этом эффективность обучения. Метод был проверен на двух языках - английском и немецком, что дает возможность проверить его на разных типах нестандартной речи. ## Результаты Эксперименты проводились на двух языках - английском и немецком, чтобы оценить эффективность метода в разных контекстах. Результаты показали, что модель, использующая уровень неуверенности для проведения отбора фонем, показывает значительный рост точности распознавания речи по сравнению с базовой ASR-системой. В частности, улучшение было замечено в случаях, когда модель выделяла самые сложно распознаваемые фонемы. Это демонстрирует, что модель способна эффективно адаптироваться к индивидуальным особенностям речи, что является ключевым преимуществом. ## Значимость Разработанный метод имеет потенциал для применения в различных областях, где нестандартная речь является природной, например, в системах оповещения для инвалидов, в системах поддержки для людей с ограниченными возможностями и в медицинской практике. Одним из основных преимуществ является увеличение точности распознавания речи, что делает систему более доступной и полезной для пользователей. Это также открывает новые возможности для персонализации ASR-систем, что может привести к улучшению интеграции таких систем в существующие технологии. ## Выводы В итоге, разработанный метод является эффек

Annotation:

Automatic speech recognition (ASR) systems struggle with non-normative speech from individuals with impairments caused by conditions like cerebral palsy or structural anomalies. The high acoustic variability and scarcity of training data severely degrade model performance. This work introduces a data-efficient personalization method that quantifies phoneme-level uncertainty to guide fine-tuning. We leverage Monte Carlo Dropout to estimate which phonemes a model finds most difficult and use these...

ID: 2509.20396v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 Variational Low-Rank Adaptation for Personalized Impaired Speech Recognition

2025-09-26

Авторы:

Niclas Pokel, Pehuén Moure, Roman Boehringer, Shih-Chii Liu, Yingqiang Gao

## Контекст Автоматическое распознавание речи (ASR) является ключевым инструментом для обеспечения доступности информации и участия в общении для широкого круга людей. Однако существуют значительные проблемы при работе ASR с нестандартной речью, в том числе речью, поврежденной в результате родовых деформаций (например, лейбенштейна-бинтова хромосомная патология) или аккуратных травм (например, инсульта, травмы или опухолей мозга). Данная проблема становится еще более актуальной в ситуациях, когда доступность данных для обучения нестандартной речи ограничена, а сбор и пометка таких данных требуют дополнительных усилий. Наша мотивация заключается в создании методов, которые могут эффективно адаптировать существующие ASR-системы к нестандартной речи с помощью минимальных дополнительных данных. ## Метод Мы предлагаем Variational Low-Rank Adaptation (VLRA) — метод, основанный на Bayesian Low-Rank Adaptation, для эффективной персонализации ASR для нестандартной речи. Метод заключается в том, чтобы избежать полного переучения модели с помощью больших данных, вместо этого используя небольшие выборки данных для нестандартной речи. Наша архитектура включает два этапа: первичный обучение модели ASR с большим объемом общего языкового материала и последующее применение VLRA для адаптации модели к конкретному говорящему. Мы используем техники низкопорядкового приближения для эффективного представления изменений в модели, которое позволяет минимизировать необходимые вычислительные ресурсы и данные. ## Результаты Мы проверили нашу модель на двух датасетах: English UA-Speech и новосозданном German BF-Sprache. У нас были данные от двух нестандартных говорящих: диагностированного с лейбенштейна-бинтовой хромосомной патологией и структурно нестандартной речи из-за структурных нарушений. Мы сравнили VLRA с другими методами, такими как fine-tuning и zero-shot learning. Наши результаты показали, что VLRA достигает существенного улучшения в ASR-точности для нестандартной речи, специфичной для каждого говорящего. Например, на тестовой выборке BF-Sprache, мы улучшили WER (Word Error Rate) с 78,5% до 25,3%, что значительно превышает эффективность других методов. ## Значимость Метод VLRA значительно повышает действительность ASR для говорящих с нестандартной речью, что может вызвать повышение уровня доступности для многих людей с различными типами повреждений речи. Этот подход требует минимальных данных для обучения, что делает его эффективным в ситуациях с низким ресурсом. Кроме того, он может быть применен в различных языках и контекстах, что делает его полезным для широкого спектра пользовате

Annotation:

Speech impairments resulting from congenital disorders, such as cerebral palsy, down syndrome, or apert syndrome, as well as acquired brain injuries due to stroke, traumatic accidents, or tumors, present major challenges to automatic speech recognition (ASR) systems. Despite recent advancements, state-of-the-art ASR models like Whisper still struggle with non-normative speech due to limited training data availability and high acoustic variability. Moreover, collecting and annotating non-normativ...

ID: 2509.20397v1 eess.AS, cs.AI

arXiv PDF

Показано 21 - 30 из 74 записей