📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Synthetic Voices, Real Threats: Evaluating Large Text-to-Speech Models in Generating Harmful Audio

2025-11-17

Авторы:

Guangke Chen, Yuhui Wang, Shouling Ji, Xiapu Luo, Ting Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Modern text-to-speech (TTS) systems, particularly those built on Large Audio-Language Models (LALMs), generate high-fidelity speech that faithfully reproduces input text and mimics specified speaker identities. While prior misuse studies have focused on speaker impersonation, this work explores a distinct content-centric threat: exploiting TTS systems to produce speech containing harmful content. Realizing such threats poses two core challenges: (1) LALM safety alignment frequently rejects harmf...

ID: 2511.10913v1 cs.SD, cs.AI, cs.CR, cs.MM, eess.AS

arXiv PDF

📄 WavInWav: Time-domain Speech Hiding via Invertible Neural Network

2025-10-07

Авторы:

Wei Fan, Kejiang Chen, Xiangkun Wang, Weiming Zhang, Nenghai Yu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Data hiding is essential for secure communication across digital media, and recent advances in Deep Neural Networks (DNNs) provide enhanced methods for embedding secret information effectively. However, previous audio hiding methods often result in unsatisfactory quality when recovering secret audio, due to their inherent limitations in the modeling of time-frequency relationships. In this paper, we explore these limitations and introduce a new DNN-based approach. We use a flow-based invertible ...

ID: 2510.02915v1 cs.SD, cs.AI, cs.CR, cs.LG, eess.AS

arXiv PDF

📄 Impact of Phonetics on Speaker Identity in Adversarial Voice Attack

2025-09-23

Авторы:

Daniyal Kabir Dar, Qiben Yan, Li Xiao, Arun Ross

## Контекст Авторские звуковые атаки (adversarial audio attacks) представляют собой подрывную угрозу для систем автоматического распознавания речи (ASR) и проверки голоса. Они добавляют незаметные для человека изменения в аудиосигнал, которые значительно влияют на вывод системы. Хотя исследования сосредоточены на атаках на классификацию, работы, изучающие влияние таких атак на понятие голоса (speaker identity), остаются редки. В настоящей работе мы рассматриваем эти атаки с точки зрения фонетических изменений и их влияния на голос. Мы проводим эксперименты с целью изучить, как фонетические раскаивания (phonetic distortions) влияют на голос и на возможность идентификации голоса. ## Метод Мы используем DeepSpeech в качестве целевой ASR-системы для генерации атак. Для генерации атак на голос мы применяем алгоритм FGSM (Fast Gradient Sign Method), который генерирует минимальные изменения в аудиосигнале, направленные на максимизацию ошибки системы. Для анализа фонетических изменений, мы применяем распознавание фонетических слов (phoneme recognition) и изучаем как изменения в фонетическом содержании воздействуют на голос. Наши эксперименты проводятся на данных LibriSpeech, которые содержат фонетически разнообразные фразы. ## Результаты Мы выполняем эксперименты на 16 фонетически различных фразах. Мы обнаруживаем, что атаки DeepSpeech приводят к тому, что голос заменяется на другой, что изменяет голос в позиции целевой фразы. Мы увидели, что целевые фразы становятся нераспознаваемыми, и что это может привести к потере идентичности голоса. Мы также обнаружили, что в результате угрозы фонетические раскаивания приводят к тому, что в системе ASR возникают значительные ошибки распознавания текста. ## Значимость Наши результаты показывают, что атаки звуковых атак могут иметь значительное воздействие на системы распознавания речи и проверки голоса. Мы показываем, что эти атаки могут приводить к ошибкам в текстах, получаемых системой, и к тому, что потеря голоса становится возможной. Эти исследования могут быть использованы для создания более надежных систем проверки голоса, более устойчивых к таким атакам. Наша работа также может быть полезна для создания новых алгоритмов ASR, которые могут детектировать такие атаки. ## Выводы Мы показали, что атаки звуковых сигналов могут приводить к серьёзным изменениям голоса в системе ASR, в том числе к тому, что голос будет заменён интересующим нам сигналом. Эти изменения могут привести к потере голоса и к тому, что система не сможет распознать голос как знакомый. Наши исследования показывают, что в будущем необходимо развить более сильные методы защиты

Annotation:

Adversarial perturbations in speech pose a serious threat to automatic speech recognition (ASR) and speaker verification by introducing subtle waveform modifications that remain imperceptible to humans but can significantly alter system outputs. While targeted attacks on end-to-end ASR models have been widely studied, the phonetic basis of these perturbations and their effect on speaker identity remain underexplored. In this work, we analyze adversarial audio at the phonetic level and show that ...

ID: 2509.15437v1 cs.SD, cs.AI, cs.CR, eess.AS, I.2.0; I.2.7; I.5.4; K.6.5

arXiv PDF

📄 SCDF: A Speaker Characteristics DeepFake Speech Dataset for Bias Analysis

2025-08-13

Авторы:

Vojtěch Staněk, Karel Srna, Anton Firc, Kamil Malinka

## Контекст В последние годы возрастает внимание к проблемам глубокой фальшивости (deepfake) в речи, однако многие аспекты, такие как биазы и справедливость, остаются значительно недокрашенными. Это приводит к несбалансированному представлению в данных и несправедливости в результатах детектирования. Добиться более справедливой системы детектирования deepfake зачастую трудно из-за отсутствия представления различных демографических групп. Наша мотивация заключается в разработке справедливой и эффективной системы, которая будет учитывать эти факторы и устранять вклинивающиеся дискриминационные биазы. ## Метод Датасет SCDF (Speaker Characteristics Deepfake) был создан с целью охватить широкий диапазон демографических характеристик, включая пол, язык, возраст и тип генератора речи. Он включает более 237,000 утверждений, моделируемых с использованием многоязычных моделей глубокого обучения. Методология включает в себя подготовку и анализ данных, а также выполнение экспериментов с несколькими алгоритмами детектирования, чтобы исследовать точность и биазы в разных демографических группах. Это предоставляет возможность выявить и устранить существующие необходимые отклонения в системе. ## Результаты В результате экспериментов, проведенных с использованием SCDF, было показано, что дискриминационные биазы влияют на результаты детектирования deepfake. Например, системы оказались более точными для определенных групп (например, молодых мужчин), но менее точными для других (таких как пожилые женщины). Эти результаты подтверждают, что характеристики речи, такие как пол, язык и возраст, влияют на точность детектирования. Был также выявлен более широкий характер дискриминационных отклонений, включая технологии генерации голоса. ## Значимость SCDF может использоваться для разработки систем детектирования deepfake, которые будут более справедливыми и нейтральными в отношении различных демографических групп. Это дает возможность снизить отклонения в системах, улучшить их эффективность и сделать их более включающими. Это может привести к развитию и экосистемы, где системы deepfake будут более этичными и удовлетворять регулирующим требованиям. ## Выводы SCDF представляет собой первый широко изучаемый датасет, позволяющий оценивать дискриминационные биазы в системах детектирования deepfake. Он открывает путь для будущих исследований в области справедливости и этики в сфере глубокой фальшивости. Наша работа также подчеркивает важность развития систем, которые будут у

Annotation:

Despite growing attention to deepfake speech detection, the aspects of bias and fairness remain underexplored in the speech domain. To address this gap, we introduce the Speaker Characteristics Deepfake (SCDF) dataset: a novel, richly annotated resource enabling systematic evaluation of demographic biases in deepfake speech detection. SCDF contains over 237,000 utterances in a balanced representation of both male and female speakers spanning five languages and a wide age range. We evaluate sever...

ID: 2508.07944v1 cs.SD, cs.AI, cs.CR

arXiv PDF

📄 When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs

2025-08-06

Авторы:

Bodam Kim, Hiskias Dingeto, Taeyoun Kwon, Dasol Choi, DongGeon Lee, Haon Park, JaeHoon Lee, Jongho Shin

**Резюме:** С ростом интеграции больших языковых моделей в повседневную жизнь, аудио интерфейсы становятся ключевым элементом взаимодействия человека с ИИ. Однако этот контекст также создаёт новые угрозы, превращая аудио в потенциальную точку атаки. Исследование представляет WhisperInject — двухэтапный фреймворк для атак на аудио-языковые модели, способный вызывать вредоносные реакции, оставаясь незаметным для человеческого слушателя. На первом этапе, с помощью метода Reinforcement Learning with Projected Gradient Descent (RL-PGD), выполняется обход систем безопасности модели. На втором этапе, Payload Injection, используется Projected Gradient Descent (PGD) для внедрения тонких изменений в безопасные аудиозапросы, такие как погодные данные или приветствия. Результаты, проверенные на StrongREJECT, LlamaGuard и Human Evaluation, показывают успешность атак на модели Qwen2.5-Omni-3B, Qwen2.5-Omni-7B и Phi-4-Multimodal с проходной способностью более 86%. Эта работа выявляет практическую угрозу аудио-нативных атак, демонстрируя новый класс угроз для ИИ.

Annotation:

As large language models become increasingly integrated into daily life, audio has emerged as a key interface for human-AI interaction. However, this convenience also introduces new vulnerabilities, making audio a potential attack surface for adversaries. Our research introduces WhisperInject, a two-stage adversarial audio attack framework that can manipulate state-of-the-art audio language models to generate harmful content. Our method uses imperceptible perturbations in audio inputs that remai...

ID: 2508.03365v1 cs.SD, cs.AI, cs.CR, eess.AS

arXiv PDF