📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

2025-10-17

Авторы:

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi Nia

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Personalized Voice Activity Detection (PVAD) systems activate only in response to a specific target speaker by incorporating speaker embeddings from enrollment utterances. Unlike existing methods that require architectural changes, such as FiLM layers, our approach employs a hypernetwork to modify the weights of a few selected layers within a standard voice activity detection (VAD) model. This enables speaker conditioning without changing the VAD architecture, allowing the same VAD model to adap...

ID: 2510.12947v1 eess.AS, cs.AI, cs.LG, cs.SD

arXiv PDF

📄 FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms

2025-10-14

Авторы:

Atul Shree, Harshith Jupuru

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

CTC-based ASR systems face computational and memory bottlenecks in resource-limited environments. Traditional CTC decoders, requiring up to 90% of processing time in systems (e.g., wav2vec2-large on L4 GPUs), face inefficiencies due to exhaustive token-level operations. This paper introduces Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC), a novel decoding algorithm that employs frame-level token pruning guided by a relative threshold probability. By dynamically e...

ID: 2510.09085v1 cs.LG, cs.SD, eess.AS

arXiv PDF

📄 Drax: Speech Recognition with Discrete Flow Matching

2025-10-08

Авторы:

Aviv Navon, Aviv Shamsian, Neta Glazer, Yael Segal-Feldman, Gill Hetz, Joseph Keshet, Ethan Fetaya

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Diffusion and flow-based non-autoregressive (NAR) models have shown strong promise in large language modeling, however, their potential for automatic speech recognition (ASR) remains largely unexplored. We propose Drax, a discrete flow matching framework for ASR that enables efficient parallel decoding. To better align training with inference, we construct an audio-conditioned probability path that guides the model through trajectories resembling likely intermediate inference errors, rather than...

ID: 2510.04162v1 eess.AS, cs.LG, cs.SD

arXiv PDF

📄 Audio Driven Real-Time Facial Animation for Social Telepresence

2025-10-04

Авторы:

Jiye Lee, Chenghui Li, Linh Tran, Shih-En Wei, Jason Saragih, Alexander Richard, Hanbyul Joo, Shaojie Bai

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We present an audio-driven real-time system for animating photorealistic 3D facial avatars with minimal latency, designed for social interactions in virtual reality for anyone. Central to our approach is an encoder model that transforms audio signals into latent facial expression sequences in real time, which are then decoded as photorealistic 3D facial avatars. Leveraging the generative capabilities of diffusion models, we capture the rich spectrum of facial expressions necessary for natural co...

ID: 2510.01176v1 cs.GR, cs.CV, cs.LG, cs.SD

arXiv PDF

📄 TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics

2025-10-02

Авторы:

Yi-Cheng Lin, Yu-Hua Chen, Jia-Kai Dong, Yueh-Hsuan Huang, Szu-Chi Chen, Yu-Chen Chen, Chih-Yao Chen, Yu-Jung Lin, Yu-Ling Chen, Zih-Yu Chen, I-Ning Tsai, Hsiu-Hsuan Wang, Ho-Lam Chung, Ke-Han Lu, Hung-yi Lee

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large audio-language models are advancing rapidly, yet most evaluations emphasize speech or globally sourced sounds, overlooking culturally distinctive cues. This gap raises a critical question: can current models generalize to localized, non-semantic audio that communities instantly recognize but outsiders do not? To address this, we present TAU (Taiwan Audio Understanding), a benchmark of everyday Taiwanese "soundmarks." TAU is built through a pipeline combining curated sources, human editing,...

ID: 2509.26329v1 eess.AS, cs.CL, cs.LG, cs.SD

arXiv PDF

📄 Training-Free Multimodal Guidance for Video to Audio Generation

2025-10-01

Авторы:

Eleonora Grassucci, Giuliano Galadini, Giordano Cicchetti, Aurelio Uncini, Fabio Antonacci, Danilo Comminiello

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Video-to-audio (V2A) generation aims to synthesize realistic and semantically aligned audio from silent videos, with potential applications in video editing, Foley sound design, and assistive multimedia. Although the excellent results, existing approaches either require costly joint training on large-scale paired datasets or rely on pairwise similarities that may fail to capture global multimodal coherence. In this work, we propose a novel training-free multimodal guidance mechanism for V2A diff...

ID: 2509.24550v1 cs.LG, cs.SD

arXiv PDF

📄 AudioFuse: Unified Spectral-Temporal Learning via a Hybrid ViT-1D CNN Architecture for Robust Phonocardiogram Classification

2025-10-01

Авторы:

Md. Saiful Bari Siddiqui, Utsab Saha

## Контекст Физиологические аудиосигналы, такие как фонокардиограммы (PCG), являются ключевыми индикаторами многих заболеваний сердца и требуют точной классификации для диагностики. Однако классические подходы к их обработке часто бьются о проблемы, связанные с неполностью информативностью одного из доменов — спектрального или темпорального. Наличие разрывов в информации между этими доменами ставит перед исследователями задачу создания универсального классификатора, который мог бы эффективно объединить эти два домена для улучшения точности и устойчивости классификации. ## Метод Мы предлагаем AudioFuse, архитектуру, которая использует гибридную свёрточную сеть 1D и трансформерную модель ViT для обработки спектральных и темпоральных признаков соответственно. Для решения проблемы переобучения, часто встречающейся при объединении представлений, мы вводят широкую и малой глубины Vision Transformer с широкой нейронной сетью с 1D сверточной сетью для глубокого изучения ключевых особенностей как в спектральном, так и в темпоральном доменах. Такой подход позволяет достичь более сильного индуктивного задвижки и значительного повышения точности классификации. ## Результаты Мы проверили AudioFuse на двух высококачественных датасетах: PhysioNet 2016 и PASCAL. На PhysioNet 2016, AudioFuse достигло ROC-AUC в 0.8608 при сравнительном уровне ROC-AUC 0.8066 для классификации спектрограмм и 0.8223 для классификации гармонических прогнозов. На PASCAL, AudioFuse показал устойчивость к искажениям в данных, получив ROC-AUC в 0.7181, в то время как гармоническая сеть пропадала в 0.4873. Это указывает на высокую эффективность AudioFuse в обеспечении устойчивости к шумам и разрывам в данных. ## Значимость AudioFuse может быть применен в различных медицинских приложениях, включая диагностику и мониторинг здоровья сердца. Его многослойная архитектура и устойчивость к шумам делают её выгодным инструментом для классификации звуковых сигналов. Данный подход также может привести к более точным наблюдениям в медицинской практике и снижению числа ложных срабатываний в классификации сердечных звуков. ## Выводы Мы продемонстрировали, что AudioFuse является эффективным методом классификации фонокардиограмм, который объединяет спектральные и темпоральные признаки для улучшения точности. Мы намерены продолжать работу над улучшением архитектуры и применением её в других медицинских областях, таких как диагностика дыхательных заболеваний и аудиомониторинг.

Annotation:

Biomedical audio signals, such as phonocardiograms (PCG), are inherently rhythmic and contain diagnostic information in both their spectral (tonal) and temporal domains. Standard 2D spectrograms provide rich spectral features but compromise the phase information and temporal precision of the 1D waveform. We propose AudioFuse, an architecture that simultaneously learns from both complementary representations to classify PCGs. To mitigate the overfitting risk common in fusion models, we integrate ...

ID: 2509.23454v1 eess.AS, cs.AI, cs.LG, cs.SD, eess.SP

arXiv PDF

📄 Objective Evaluation of Prosody and Intelligibility in Speech Synthesis via Conditional Prediction of Discrete Tokens

2025-09-27

Авторы:

Ismail Rasim Ulgen, Zongyang Du, Junchen Lu, Philipp Koehn, Berrak Sisman

## Контекст Современные методы генерирования говорящего языка сталкиваются с значительными вызовами в области оценки качества синтезируемого речи. Несмотря на развитие технологий, существующие подходы к оценке языковой интеллектуальности и просодических характеристик остаются недостаточно точными или гибкими. Оценка интеллектуальности обычно основывается на метрике Word Error Rate (WER), которая, однако, не учитывает контекст и точность звучания слов. Метрики просодии, такие как F0-RMSE, ограничиваются сравнением с целевым звучанием и не обладают самодостаточностью. Обоснована потребность в развитии универсального подхода, который бы объединил в себе оценку интеллектуальности и просодических характеристик с целью повышения точности и связи с предпочтениями человека. ## Метод Разработан TTScore — новый фреймворк для оценки синтезированного речи, основанный на контекстно зависимой предсказательной модели. Он включает две подсистемы: TTScore-int и TTScore-pro. TTScore-int работает с содержательными токенами для оценки интеллектуальности, тогда как TTScore-pro применяет просодические токены для оценки структуры звучания. Оба предсказателя обучены на крупных данных и работают с синтезированным речью без необходимости ссылочного материала. Модель использует последовательностную архитектуру с подсказками, что позволяет получать прозрачные и варьирующиеся по тексту оценки. ## Результаты Сравнительные эксперименты проводились на базах SOMOS, VoiceMOS, и TTSArena. Использовались данные с различными языками и акцентами, чтобы проверить общую универсальность модели. Результаты показали, что TTScore-int и TTScore-pro способны детально оценивать интеллектуальность и просодию, сохраняя высокую корреляцию с результатами гуманных экспериментов. Это демонстрирует их превосходство по сравнению с традиционными метриками, такими как WER и F0-RMSE. ## Значимость TTScore может быть применен в разработке новых говорящих систем, а также в тестировании вариаций языковых моделей. Он предоставляет более точные инструменты для улучшения качества голосовых синтезаторов, повышая их согласованность с человеческим ощущением. Это может привести к улучшению удобочитаемости, ключевое требование для широкого применения технологий синтеза речи в различных сферах, в том числе интерфейсах, трансляциях и обучении. ## Выводы Результаты показывают, что TTScore является эффективным инструментом для оценки говорящих систем. Этот подход открывает путь к более точной оценке синтезированного речи, учитывая как интеллектуальные, так и просодические аспекты. В будущем плани

Annotation:

Objective evaluation of synthesized speech is critical for advancing speech generation systems, yet existing metrics for intelligibility and prosody remain limited in scope and weakly correlated with human perception. Word Error Rate (WER) provides only a coarse text-based measure of intelligibility, while F0-RMSE and related pitch-based metrics offer a narrow, reference-dependent view of prosody. To address these limitations, we propose TTScore, a targeted and reference-free evaluation framewor...

ID: 2509.20485v1 eess.AS, cs.LG, cs.SD

arXiv PDF

📄 Investigating Modality Contribution in Audio LLMs for Music

2025-09-27

Авторы:

Giovana Morais, Magdalena Fuentes

## Контекст В последние годы появились значительные достижения в области текстовых языковых моделей, включая Large Language Models (LLMs), которые проявляют высокую точность в обработке текста. Однако говорящие модели, взаимодействующие с звуковыми данными, по-прежнему представляют собой сложную техническую проблему. Audio Large Language Models (Audio LLMs) предназначены для обеспечения естественных диалогов об музыке, но остается неясным, насколько эти модели полагаются на аудиоданные при принятии решений. Несмотря на их высокую точность в текстовых задачах, некоторые бенчмарки показывают, что модели могут опираться на текстовые признаки даже при работе с аудио, что подводит к вопросу: воспринимают ли модели действительно аудио, или же опираются лишь на текстовые знания? Данная работа стремится изучить этот вопрос, определив уровень вклада каждой модальности во взаимодействии. ## Метод Для исследования вклада модальностей в Audio LLMs воспользовались MM-SHAP, фреймворком, основанным на теории Шепле, который предоставляет показатели, не зависящие от точности моделей. Метод работает путем вычисления относительного вклада каждой модальности в вывод модели, что позволяет проанализировать, насколько высок уровень вклада аудиоданных в процесс принятия решений. Модели, которые были проанализированы в рамках экспериментов, были протестированы на MuChoMusic, бенчмарке, опирающемся на задачи по музыкальным диалогам. Эта методика позволила получить четкие показатели относительного вклада каждой модальности в процессе работы модели. ## Результаты Экспериментальные результаты показали, что высокоточная модель в значительной степени полагается на текстовые признаки при ответов на вопросы. Тем не менее, детальный анализ показал, что даже при таком поведении, модели могут успешно определять и ключевые события звука, что указывает на то, что аудио не игнорируется в принятии решений. Таким образом, данные результаты указывают на то, что, хотя текст имеет значительный вклад, аудио модальность, хотя и в меньшей степени, все же привлекается в процесс. Этот анализ был впервые проведен в контексте Audio LLMs, и он по высокой степени способствует развитию раздела говорящих и интерпретируемых моделей. ## Значимость Результаты работы имеют важное значение в сфере говорящих технологий и моделей, взаимодействующих с звуковыми данными. Эти модели могут быть применены в музыкальной аналитике, рекомендациях музыки, персонализации контента и других областях. Изучение вклада модальностей позволяет повысить транспарентность в работе Audio LLMs, что в свою очередь может привести к улучшенной надежности и пониманию пользователями. В

Annotation:

Audio Large Language Models (Audio LLMs) enable human-like conversation about music, yet it is unclear if they are truly listening to the audio or just using textual reasoning, as recent benchmarks suggest. This paper investigates this issue by quantifying the contribution of each modality to a model's output. We adapt the MM-SHAP framework, a performance-agnostic score based on Shapley values that quantifies the relative contribution of each modality to a model's prediction. We evaluate two mod...

ID: 2509.20641v1 cs.LG, cs.SD

arXiv PDF

📄 Are Modern Speech Enhancement Systems Vulnerable to Adversarial Attacks?

2025-09-27

Авторы:

Rostislav Makarov, Lea Schönherr, Timo Gerkmann

## Контекст Современные методы машинного обучения, применяемые в области улучшения речи (speech enhancement), достигли высокого уровня выразительности, позволяя значительно модифицировать входные сигналы. Однако эта выразительность также сопряжена с опасностью: в современных моделях могут проникнуть атаки с использованием адверсарных шумов, которые могут изменить семантический смысл улучшенной речи. Такой риск становится крайне актуален в сферах применения, где речь является ключевым способом передачи информации, например, в системах управления, диалоговых системах и автоматизированных системах обработки запросов. Описанная проблема побудила исследователей оценить уязвимость современных моделей к подобным атакам и разработать меры по их противостолбцу. ## Метод Исследователи применили методы адверсарного обучения (adversarial training) для создания имитационных звуковых сигналов, которые могут проникнуть в модели улучшения речи. Шум был специально сконструирован так, чтобы быть искусственным, но при этом незаметным на уровне психоакустического ощущения. Работа также включала в себя анализ различных архитектур моделей улучшения речи, в том числе использование моделей с разными уровнями сложности и обучения. Также было проведено исследование уязвимости различных типов моделей улучшения речи, включая автокодировщики и сверточные модели. ## Результаты Полученные результаты показали, что многие современные модели подвержены угрозам адверсарных атак. Были получены примеры звуковых сигналов, в которых инъекция адверсарного шума приводила к изменению семантического смысла. Данные эксперименты провели на учебных наборах данных, таких как LibriSpeech и DEMAND. Итоговое подтверждение утверждения о возможности атак на модели улучшения речи было получено с помощью высокой точности взаимодействия моделей с адверсарными шумавыми сигналами. ## Значимость Результаты исследований указывают на важность улучшения безопасности моделей улучшения речи. Области применения включают в себя системы управления, автомобильные системы, диалоговые системы, а также системы перевода. Преимуществом данного исследования является получение новых сведений о слабых местах современных моделей и разработка альтернативных моделей, например, diffusion models, которые, благодаря своей структуре, естественно оказываются более устойчивыми к таким атакам. Потенциальное влияние заключается в усилении безопасности и надежности голосовых систем в критически важных сферах применения. ## Выводы Основные достижения исследования заключаются в том, что адверсарные шумы могут быть эффективно использованы для измен

Annotation:

Machine learning approaches for speech enhancement are becoming increasingly expressive, enabling ever more powerful modifications of input signals. In this paper, we demonstrate that this expressiveness introduces a vulnerability: advanced speech enhancement models can be susceptible to adversarial attacks. Specifically, we show that adversarial noise, carefully crafted and psychoacoustically masked by the original input, can be injected such that the enhanced speech output conveys an entirely ...

ID: 2509.21087v1 eess.AS, cs.LG, cs.SD

arXiv PDF

Показано 21 - 30 из 66 записей