📚 Саммари научных статей из arXiv

Найдено 274 результатов по запросу 'cs.SD, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech

2025-10-01

Авторы:

Chengyao Wang, Zhisheng Zhong, Bohao Peng, Senqiao Yang, Yuqi Liu, Haokun Gui, Bin Xia, Jingyao Li, Bei Yu, Jiaya Jia

## Контекст Область исследования, связанная с omni-modal understanding и long-horizon speech generation, является ключевой в современных технологиях синтеза речи и обработки звука. Существующие подходы часто ограничиваются разбиением задачи на отдельные этапы, что приводит к неэффективности и снижению качества результатов. Особенно важной проблемой является способность систем синтезировать длительные и естественные аудиопотоки с целостным звуковым тоном и контекстно-ориентированным содержанием. MGM-Omni предлагает решение этих проблем, сфокусировавшись на создании универсальной модели, которая объединяет мощность многомодального понимания и высококачественного генерирования речи на персонифицированном уровне. Мотивация заключается в развитии системы, которая не только понимает и воспроизводит речь, но также делает это с учётом персонализации и длительных горизонтов. ## Метод MGM-Omni основывается на двойной архитектуре "brain-mouth", где "brain" отвечает за мультимодальное обобщение, а "mouth" за реалистичное генерирование речи. В "brain" входит двухшаговый приём распознавания аудио, включающий в себя двойной аудио-енкодер для обработки длинных аудиопотоков с разными активностями. "Mouth", в свою очередь, использует chunk-based parallel decoding, который существенно ускоряет процесс генерации речи, позволяя её производить потоково, даже при длительных задачах. Этот подход позволяет MGM-Omni обеспечивать эффективное интерактивное взаимодействие между модалами и снижать задержки в реальном времени. Кроме того, система может выполнять voice cloning с точным сохранением голоса, даже в продолжительных сценариях. ## Результаты Эксперименты проводились на специально подготовленных датасетах, включающих длительные аудиопотоки и задачи персонализированного синтеза речи. Модель MGM-Omni показала существенное превосходство по сравнению с другими моделями, особенно в поддержании тональности и естественности речи на длинных потоках. Модель существенно повысила эффективность обучения, используя меньше данных для достижения того же уровня качества, чем свои конкуренты. Она также продемонстрировала высокую точность в voice cloning и может стабильно воспроизводить тональность голоса даже на длительных сегментах. Эти результаты подчёркивают значительное преимущество MGM-Omni в области голосовой синтеза и мультимодального понимания. ## Значимость MGM-Omni открывает новые горизонты в приложениях, требующих естественного и персонализированного голосового синтеза. Она имеет широкие перспективы в области обработки звука, где требуется потоковая синтеза речи с высоким качеством и персонализацией. Эта модель также может применяться в сфере развития сист

Annotation:

We present MGM-Omni, a unified Omni LLM for omni-modal understanding and expressive, long-horizon speech generation. Unlike cascaded pipelines that isolate speech synthesis, MGM-Omni adopts a "brain-mouth" design with a dual-track, token-based architecture that cleanly decouples multimodal reasoning from real-time speech generation. This design enables efficient cross-modal interaction and low-latency, streaming speech generation. For understanding, a unified training strategy coupled with a dua...

ID: 2509.25131v1 cs.SD, cs.AI, cs.CL, cs.CV, cs.MM

arXiv PDF

📄 Zero-Effort Image-to-Music Generation: An Interpretable RAG-based VLM Approach

2025-09-30

Авторы:

Zijian Zhao, Dian Jin, Zijing Zhou

########################## ## Контекст ########################## Область исследования Image-to-Music (I2M) генерирования, которая находит применение в играх, рекламе и многомодальном искусстве, пользуется возрастающим интересом. Однако существующие методы часто скрывают процесс генерирования, что затрудняет понимание результатов пользователями. Эмоциональное обозначение, хотя и используется в некоторых решениях, ограничивается одним аспектом искусства. Большинство методов требуют сложных вычислений и больших объемов данных для обучения, что ограничивает их доступность для обычных пользователей. Наша цель — разработать первый VLM-подход (Vision Language Model) с высокой интерпретируемостью и минимальными требованиями к вычислительным ресурсам. ########################## ## Метод ########################## Мы предлагаем новую модель I2M, основанную на VLM, которая использует ABC-нотацию для связи текстовых и музыкальных модолей. Multi-modal Retrieval-Augmented Generation (RAG) и себе-рефинементные методы позволяют модели генерировать музыку на основе естественного языка без дополнительного обучения. Мы также предоставляем текстовые и изображательные пояснения для процесса генерирования, используя генерируемые мотивации и карты внимательности модели. Это позволяет пользователям понять, как и почему была создана музыка. ########################## ## Результаты ########################## Мы провести эксперименты, используя разные данные и меры качества. Наш метод показал лучшие результаты в музыкальном качестве и согласованности генерирования музыки и изображений. Это подтверждает эффективность нашего подхода в представлении музыки через естественный язык и создании более понятных результатов. ########################## ## Значимость ########################## Наша модель может применяться в многообразных областях, таких как игровой индустрия, реклама и создание многомодального искусства. Она обеспечивает интерпретируемую альтернативу сложным методам, сокращая требования к вычислительным ресурсам и данным. Это открывает новые возможности для обычных пользователей и творческих профессионалов. ########################## ## Выводы ########################## Мы представили первый VLM-подход для I2M с высокой интерпретируемостью и минимальными ресурсами. Наши результаты показали значительные улучшения в качестве генерирования и понимании результатов. Мы планируем расширить наши исследования в области творческих технологий, ориентированных на пользовательский опыт.

Annotation:

Recently, Image-to-Music (I2M) generation has garnered significant attention, with potential applications in fields such as gaming, advertising, and multi-modal art creation. However, due to the ambiguous and subjective nature of I2M tasks, most end-to-end methods lack interpretability, leaving users puzzled about the generation results. Even methods based on emotion mapping face controversy, as emotion represents only a singular aspect of art. Additionally, most learning-based methods require s...

ID: 2509.22378v1 cs.SD, cs.AI, cs.MM, eess.AS

arXiv PDF

📄 MDAR: A Multi-scene Dynamic Audio Reasoning Benchmark

2025-09-30

Авторы:

Hui Li, Changhao Jiang, Hongyu Wang, Ming Zhang, Jiajun Sun, Zhixiong Yang, Yifei Cao, Shihan Dou, Xiaoran Fan, Baoyu Fan, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang

## Контекст Аудиовещание является ключевым инструментом для обеспечения эффективной взаимодействия между ИИ-агентами и реальным миром. Оно включает различные аспекты, такие как речь, паралингвистические признаки, звуки окружающей среды и музыка. Несмотря на продвижение моделей ИИ, существующие бенчмарки аудиопроцессинга ограничены статическими или однопоточными сценариями, не учитывая сложные сценарии, где несколько говорящих, развивающиеся события и разнородные источники аудио взаимодействуют динамически. Для решения этой проблемы представлен MDAR — бенчмарк для оценки моделей в области сложных задач разума по аудио в динамических сценариях. ## Метод MDAR является первым бенчмарком, оценивающим модели на различных сложных задачах разума по аудио в многосценной и динамической среде. Он содержит 3,000 вопросов-ответов, связанных с аудио клипами, разделенными на пять категорий сложного разума и три типа вопросов. Бенчмарк охватывает разные аспекты аудиосигнала, включая речь, паралингвистические признаки, музыку и звуки. Он предназначен для проверки моделей на логическую абстракцию, способность к многоэлементному анализу и пониманию сложного аудио. Таким образом, MDAR является новым исследовательским инструментом для развития ИИ. ## Результаты Для проверки MDAR использовались 26 современных аудио-языковых моделей. На задаче многоэлементного анализа, GPT-4o Audio (закрытая модель) достигла 68.47%, а Qwen2.5-Omni (открытая модель) — 76.67%. Однако GPT-4o Audio показал значительное преимущество на задачах с многоэлементным тестированием и открытым ответом. Ни одна модель не смогла достичь 80% точности, что подтверждает сложность задач бенчмарка. Эти результаты демонстрируют необходимость развития аудио-разума и сделали MDAR отличным исследовательским средством для его достижения. ## Значимость MDAR открывает новые возможности для исследования различных аспектов разума, включая речь, музыку, симуляцию разных сценариев и анализ паралингвистических признаков. Он позволяет проверить модели на логическое мышление, разрешение противоречий и обнаружение звуков. Благодаря своему многогранному подходу, MDAR является идеальным инструментом для развития моделей ИИ, которые способны решать сложные задачи в реальных условиях. Его результаты могут применяться в разработке ИИ для многоязычных систем, систем распознавания речи, автоматизированных систем управления и других областях. ## Выводы MDAR — это первый бенчмарк, который демонстрирует сложность многосценных и динамически

Annotation:

The ability to reason from audio, including speech, paralinguistic cues, environmental sounds, and music, is essential for AI agents to interact effectively in real-world scenarios. Existing benchmarks mainly focus on static or single-scene settings and do not fully capture scenarios where multiple speakers, unfolding events, and heterogeneous audio sources interact. To address these challenges, we introduce MDAR, a benchmark for evaluating models on complex, multi-scene, and dynamically evolvin...

ID: 2509.22461v1 cs.SD, cs.AI, cs.CL, eess.AS

arXiv PDF

📄 i-LAVA: Insights on Low Latency Voice-2-Voice Architecture for Agents

2025-09-27

Авторы:

Anupam Purwar, Aditya Choudhary

#### Контекст Реальному времени международный голосовой сервис важен для многих приложений, включая удаленное обучение, персональные помощники и видеоигры. Однако создание систем голосового взаимодействия с пониженным временем отклика (RTF) для таких приложений, которые должны работать в реальном времени, по-прежнему остается вызовом. Необходимо выяснить особенности этих систем, которые могут улучшить голосовое взаимодействие и сделать его более эффективным. Этот доклад изучает компоненты, которые могут оптимизировать голосовые системы, а также рассматривает аспекты, которые могут повлиять на понижение RTF. #### Метод Мы исследовали V-2-V архитектуру на основе резидентного векторного квантования (RVQ) с возможностью понижения RTF в реальном времени. Модель включает ASR, TTS и диалоговое управление. Мы разделяем данные голосовых запросов на две части: текст и аудио, что позволяет TTS-системе воспроизводить естественный голос, принимая во внимание тему и контекст разговора. Мы использовали систему CSM1b, которая может читать текст и анализировать аудио, чтобы создавать голос с разумами, жестами и эмоциями. Мы оптимизировали TTS-систему, снижая количество RVQ-итераций, что позволяет улучшить RTF, при этом применяя кодбук Mimi. #### Результаты Мы проводили эксперименты с различными моделями V-2-V, используя систему CSM1b. Мы проанализировали RTF и качество голоса в зависимости от количества RVQ-итераций и размера кодбука Mimi. Мы поняли, что оптимизировав количество RVQ-итераций и Mimi-кодбука, мы могли снизить RTF до 1,1 секунды в реальном времени. Это улучшение было достигнуто без существенного снижения качества голоса. Мы также доказали, что естественность разговора сильно зависит от того, насколько хорошо TTS может передавать эмоции и контекст разговора. #### Значимость Наша работа может использоваться в сферах, где требуется надежное взаимодействие в реальном времени, таких как удаленное обучение, медицина, управление роботами и игры. Мы улучшили RTF, что сделало голосовые системы более эффективными и естественными в общении. Это влияние может преобразовать способ работы с реального времени в различных приложениях. #### Выводы Мы успешно оптимизировали V-2-V-систему, уменьшив RTF до 1,1 секунды. Это достижение было достигнуто благодаря оптимизации RVQ-итераций и кодбука Mimi. Мы также установили, что эмоциональная экспрессия и контекст голоса играют ключевую роль в улучшении качества разговора. В будущем, мы планируем исследовать другие способы улучшения TTS-систем, включая использование глубокого обучения для создания более

Annotation:

We experiment with a low-latency, end-to-end voice-to-voice communication model to optimize it for real-time conversational applications. By analyzing components essential to voice to voice (V-2-V) system viz. automatic speech recognition (ASR), text-to-speech (TTS), and dialog management, our work analyzes how to reduce processing time while maintaining high-quality interactions to identify the levers for optimizing V-2-V system. Our work identifies that TTS component which generates life-like ...

ID: 2509.20971v1 cs.SD, cs.AI

arXiv PDF

📄 SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization

2025-09-27

Авторы:

Jiehui Luo, Yuguo Yin, Yuxin Xie, Jinghan Ru, Xianwei Zhuang, Minghua He, Aofan Liu, Zihan Xiong, Dongchao Yang

#### Контекст Contrastive language-audio pretraining (CLAP) широко применяется в сферах, таких как кросс-модальная рекуренция, аудио-текстовые задачи транскрипции и моделирование языка. Основная цель CLAP заключается в создании универсальных мультимодальных представлений в общем пространстве. Однако, несмотря на свои преимущества, CLAP сталкивается с проблемами, такими как нестабильность тренировки и траектория оптимизации. Такие проблемы возникают из-за неконтролируемого вклада отрицательных примеров, которые могут добавлять ненужной шумной информации. Этот феномен создает серьезные сложности для построения точных и стабильных моделей. Мотивация заключается в разработке метода, который мог бы управлять данными шумовыми компонентами и обеспечивать более стабильную и эффективную оптимизацию. #### Метод Методом решения становится Support Vector Regularization (SVR), который вводит в процесс оптимизации дополнительные вспомогательные векторы, называемые "поддерживающие векторы". Эти векторы служат для контроля произвольного вклада отрицательных примеров, который может вызвать нестабильность. SVR использует семантическую радиусную регуляризацию для точного контроля радиуса поддерживающих векторов. Метод предлагает два способа моделирования семантического радиуса: параметрическое описание и адаптивный радиусный предиктор с дополнительными ограничениями. Эти подходы позволяют оптимизировать учёт шумовых компонентов, уменьшая риск нестабильности и улучшая скорость и качество оптимизации. #### Результаты Разработка была проверена на различных знаковых аудио-текстовых датасетах. Метод SVR показал существенные преимущества по сравнению с широко применяемыми подходами, такими как InfoNCE и SigLIP. Эксперименты показали, что SVR существенно улучшает стабильность тренировки и качество моделей в задачах классификации, монолингвой и мультилингвой рекуренции. Теоретические анализы подтверждают, что SVR эффективно контролирует траектории оптимизации и позволяет избежать ненужных шумовых компонентов. Эксперименты также подтвердили, что параметрический и адаптивный подходы к моделированию семантического радиуса дают приемлемую точность в различных сценариях. #### Значимость Результаты SVR находят широкое применение в современных моделях транскрибации, кросс-модальной навигации и взаимодействия с текстом и аудио. Улучшенная стабильность и точность SVR позволяют эффективнее использовать мультимодальные модели в сложных задачах моделирования языка и аудио. Это не только улучшает качество результатов, но и обеспечивает более стабильный и точный процесс тренировки моделей. П

Annotation:

Contrastive language-audio pretraining, which aims to unify multimodal representations in a shared embedding space, serves as a cornerstone for building a wide range of applications, from cross-modal retrieval to cutting-edge multimodal large language models. However, we find that the perpendicular component of the pushing force from negative samples in contrastive learning is a double-edged sword: it contains rich supplementary information from negative samples, yet its unconstrained nature cau...

ID: 2509.21033v1 cs.SD, cs.AI

arXiv PDF

📄 UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice

2025-09-27

Авторы:

Sitong Cheng, Weizhen Bian, Xinsheng Wang, Ruibin Yuan, Jianyi Chen, Shunshun Yin, Yike Guo, Wei Xue

## Контекст Область исследования связана с развитием технологии экспрессивной речи-к-речи (S2ST, Speech-to-Speech Translation). Целью этой технологии является точное переводение речи, сохраняя эмоциональный стиль и личность речи. Несмотря на прогрессы, три основных проблемы ограничивают развитие этой области: ограниченность количества парных семантических данных, сохраняющих эмоциональный стиль; сложность многоэтапных процессинговых цепочек; и слабое влияние больших текстовых моделей на голосовые модели. Данное исследование целеустремлено устранить эти проблемы, обеспечив непрерывный трансформационный подход в S2ST с использованием новых моделей и данных. ## Метод Предложенный UniSS (Unified Expressive Speech-to-Speech Translation) — это одноэтапная система, которая соединяет моделирование семантики и эмоционального стиля речи в едином процессе. Основной идеей является интеграция текстовых моделей с голосовыми, чтобы сделать модель трансляции более мощной и универсальной. Для передачи эмоционального стиля и голоса между языками используется цепочка-мышления (chain-of-thought), которая передает текстовые модели особенности речи. Для обучения и оценки системы разработана большая высококачественная база данных UniST, содержащая 44.8k часов звуковых данных. ## Результаты Эксперименты показали, что UniSS превосходит предыдущие модели по фидбэку достоверности и качеству голоса. Модель успешно сохраняет эмоциональный стиль и личность речи в переводе, даже при переводе на другие языки. Результаты подтверждают, что UniSS не только повышает точность перевода, но и обеспечивает естественность речи, сохраняя эмоциональную глубину и стиль речи. ## Значимость Данная работа открывает новые возможности в области экспрессивной S2ST, показав возможность создания моделей, которые сохраняют не только смысл речи, но и эмоциональные особенности речи. Она может быть применена в сферах, где важно сохранение эмоционального контекста в интернациональных коммуникациях, обучении или туризме. Благодаря единой системе моделирования UniSS значительно упрощается процесс развития экспрессивных S2ST-систем, что может привести к более широкому распространению этой технологии. ## Выводы UniSS достигает существенного прогресса в области экспрессивной S2ST, объединяя моделирование семантики и эмоционального стиля в единой системе. Она показала эффективность и превосходство по сравнению с предыдущими моделями. В дальнейшем будут проводиться исследования для улучшения качества звучания и дополнительного тренирования моделей для разных языков и стилей речи.

Annotation:

The ultimate goal of expressive speech-to-speech translation (S2ST) is to accurately translate spoken content while preserving the speaker identity and emotional style. However, progress in this field is largely hindered by three key challenges: the scarcity of paired speech data that retains expressive styles, the complexity of multi-stage processing pipelines, and the limited transfer of translation capabilities from large language models (LLMs). In this work, we address these challenges by in...

ID: 2509.21144v1 cs.SD, cs.AI

arXiv PDF

📄 ArtiFree: Detecting and Reducing Generative Artifacts in Diffusion-based Speech Enhancement

2025-09-26

Авторы:

Bhawana Chhaglani, Yang Gao, Julius Richter, Xilin Li, Syavosh Zadissa, Tarun Pruthi, Andrew Lovitt

## Контекст Diffusion-based speech enhancement (SE) является перспективной технологией, которая позволяет достичь естественного звучания и высокую степень общеприменимости. Однако она сталкивается с такими ограничениями, как присутствие генерируемых артефактов и высокая задержка при обработке. Эти проблемы становятся ключевыми препятствиями для применения diffusion-based SE в реальных сценариях, где высокая точность и низкая задержка являются критически важными. Одним из основных аспектов, который требует решения, является то, что артефакты генеративного характера могут влиять на точность распознавания речи и ухудшать качество семантического содержания. Изучение этой проблемы и разработка эффективных методов для ее решения могут способствовать расширению возможностей diffusion-based SE в полевых приложениях. ## Метод В работе предлагается создать методику, основанную на семантических признаках, для предсказания и устранения генерируемых артефактов в diffusion-based SE. Модель работает путем анализа разброса эмбеддингов речи во время работы модели и использования этих метрик для предсказания генерируемых ошибок. Для устранения артефактов предложено использовать множественные запуски модели с разными настройками, позволяющими сравнивать результаты и выбирать те, которые лучше согласуются с семантическими признаками речи. Этот подход включает в себя адаптивный выбор количества шагов в процессе распространения, который позволяет сбалансировать степень устранения артефактов и задержку вывода. Метод рассматривает данные в разных условиях отношения сигнал-шум (SNR), чтобы проверить его эффективность в разных сценариях. ## Результаты Исследования проводились на широком наборе данных, включая условия с высоким и низким отношением сигнал-шум (SNR). Результаты показали, что метод снижает Word Error Rate (WER) на 15% в условиях низкого SNR, что является существенным улучшением в сравнении с базовой моделью. Также было проведено анализирование семантического содержания звуков, подтвердив, что подход сведет силу к генерируемым артефактам и повысит точность распознавания речи. Эксперименты также показали, что адаптивный выбор шагов распространения позволяет достичь более эффективного баланса между уменьшением артефактов и низкой задержкой вывода. ## Значимость Предлагаемый подход может быть применен в различных областях, таких как звуковая обработка, транскрибирование речи, голосовые помощники и трансляция речи в разные языки. Одним из основных преимуществ является уменьшение генерируемых артефактов, что положительно сказывается на качестве получаемого результата. Это может сделать diffusion-

Annotation:

Diffusion-based speech enhancement (SE) achieves natural-sounding speech and strong generalization, yet suffers from key limitations like generative artifacts and high inference latency. In this work, we systematically study artifact prediction and reduction in diffusion-based SE. We show that variance in speech embeddings can be used to predict phonetic errors during inference. Building on these findings, we propose an ensemble inference method guided by semantic consistency across multiple dif...

ID: 2509.19495v1 cs.SD, cs.AI

arXiv PDF

📄 Thinking While Listening: Simple Test Time Scaling For Audio Classification

2025-09-26

Авторы:

Prateek Verma, Mert Pilanci

## Контекст Аудиоклассификация — это важная задача в области обработки звуковых данных, которая находит применение в многочисленных приложениях, таких как звуковой анализ, речевые ассистенты, автоматическая распознавание речи и анализ сенсорных сетей. Однако существуют сложности, связанные с ограниченной точностью и способностью существующих моделей обрабатывать сложные аудиоданные. Недавние развития в области языковых моделей, особенно те, что связаны с улучшением "мыслительных" способностей, показали, что модели могут быть обучены не только просто классифицировать, но и "думать" над задачами, что позволяет повысить точность классификации и улучшить понимание категорий. Наша мотивация заключается в исследовании способов интегрировать такие "мыслительные" процессы в модели для аудиоданных, а также в разработке архитектур, которые могут обеспечить эффективность в реальном времени, в том числе тест-тайм скалированием. ## Метод Мы предлагаем фреймворк, который включает в себя несколько ключевых элементов: (i) интеграция "мыслительных" процессов в модели классификации аудио, чтобы они могли выполнять рациональные выводы над категориями; (ii) разработка архитектуры, которая поддерживает "мыслительные" процессы во время тестирования (тест-тайм скалирование); (iii) эффективное использование моделей с меньшим количеством параметров для реализации этих возможностей. Мы используем методы тест-тайм скалирования, где модель производит несколько повторных проходов по тестовым данным с различными инициализациями, что позволяет повысить точность. Мы также рассматриваем два открытых текстовых модели размышления — GPT-OSS-20B и Qwen3-14B — для сравнения с нашей моделью. ## Результаты Мы проводим эксперименты, используя широкий набор данных, включая AudioSet и ESC-50, для оценки нашей модели. Мы сравниваем наше решение с существующими моделями, включая GPT-OSS-20B и Qwen3-14B. Наши эксперименты показывают, что модель, использующая тест-тайм скалирование, показывает значительные повышения точности в классификации аудио по сравнению с стандартными моделями. Мы также показываем, что модели с меньшим количеством параметров, такие как retrained GPT-2, могут превосходить в показателях точности модели с миллиардами параметров, таких как GPT-OSS-20B, благодаря ретраинированию только входного вектора. ## Значимость Наш фреймворк может применяться в различных сферах, таких как автоматическая распознавание речи (ASR), анализ сенсорных сетей, аудио аналитика для робототехники и даже в области здравоохранения (например, звуковые сигналы для диаг

Annotation:

We propose a framework that enables neural models to "think while listening" to everyday sounds, thereby enhancing audio classification performance. Motivated by recent advances in the reasoning capabilities of large language models, we address two central questions: (i) how can thinking be incorporated into existing audio classification pipelines to enable reasoning in the category space and improve performance, and (ii) can a new architecture be designed from the ground up to support both thin...

ID: 2509.19676v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 QAMO: Quality-aware Multi-centroid One-class Learning For Speech Deepfake Detection

2025-09-26

Авторы:

Duc-Tuan Truong, Tianchi Liu, Ruijie Tao, Junjie Li, Kong Aik Lee, Eng Siong Chng

#### Контекст В последние годы глубокоподделанные речи (deepfake speech) стали возрастающей угрозой в различных областях, включая медиа, финансы и правоохранительные структуры. Одним из ключевых вызовов в обнаружении таких поддельных речи является моделирование разнообразия в естественных речевых выражениях. Традиционные методы часто опираются на сингулярное представление естественных речи, что может упускать важные признаки, такие как качество звука. Это влияет на точность и общую эффективность систем обнаружения глубокоподделанных речи. Моделирование вариативности естественных речевых выражений, включая качество звука, может значительно улучшить точность и устойчивость таких систем. #### Метод Мы предлагаем QAMO (Quality-Aware Multi-Centroid One-Class Learning) — расширенную модель одноклассового обучения, которая использует несколько качество-осведомленных центроидов для представления естественных речевых выражений. Каждый центроид адаптируется для представления отдельного подпространства качества речи, что позволяет лучше адаптироваться к разнообразию в естественных речевых выражениях. Мы также вводим многоцентровый стратегию множественного оценивания, которая улучшает точность и уменьшает необходимость в качественных метках во время инференции. Модель QAMO оптимизируется с помощью машинного обучения, с целью достичь оптимального баланса между точностью и общей эффективностью в обнаружении глубокоподделанных речи. #### Результаты Мы проводили эксперименты на широко известных датасетах для сравнения QAMO с другими методами. Модель QAMO показала существенное улучшение в обнаружении глубокоподделанных речи по сравнению с традиционными одноклассовыми методами. В частности, на In-the-Wild датасете, QAMO достигла долей ошибок в 5.09% при использовании двух качество-осведомленных центроидов, что значительно превосходит результаты предыдущих систем. Это демонстрирует мощь QAMO в моделировании разнообразия естественных речевых выражений, что позволяет более точно и устойчиво отличать естественные речи от глубокоподделанных. #### Значимость QAMO может быть применена в различных сферах, где необходимо обнаруживать глубокоподделанные речи, включая безопасность медиа, модуляцию доверия в финансовых операциях и защиту голосовых систем. Эта модель предлагает несколько преимуществ, таких как улучшенная точность обнаружения, устойчивость к разнообразию в естественных речевых выражениях и эффективность в использовании ресурсов. Мы видим будущие направления исследований в расширении QAMO для обнаружения других типов глубокоподделанных медиа и улучшении ее работы в реальных условиях. #### В

Annotation:

Recent work shows that one-class learning can detect unseen deepfake attacks by modeling a compact distribution of bona fide speech around a single centroid. However, the single-centroid assumption can oversimplify the bona fide speech representation and overlook useful cues, such as speech quality, which reflects the naturalness of the speech. Speech quality can be easily obtained using existing speech quality assessment models that estimate it through Mean Opinion Score. In this paper, we prop...

ID: 2509.20679v1 cs.SD, cs.AI

arXiv PDF

📄 Addressing Gradient Misalignment in Data-Augmented Training for Robust Speech Deepfake Detection

2025-09-26

Авторы:

Duc-Tuan Truong, Tianchi Liu, Junjie Li, Ruijie Tao, Kong Aik Lee, Eng Siong Chng

## Контекст Одна из основных проблем в области глубокого подделывания речи (Deepfake Detection, DFD) заключается в том, что модели должны быть устойчивы к различным условиям речи и способам модификации звука. Данные для обучения моделей часто аugmented (усилены), чтобы улучшить их общеуниверсальность. Однако во время тренировки модели могут возникать конфликты между градиентами, полученными от исходных данных и их усиленных версий. Эти конфликты приводят к неэффективным обновлениям параметров модели, что может замедлить обучение и привести к плохим результатам. В этом исследовании решается проблема недостаточной совместимости градиентов в процессе обучения моделей к Deepfake Detection в условиях использования данных с аugmentation. ## Метод Мы предлагаем **двухпутной процесс обучения** с использованием оригинальных и усиленных версий звуковых данных. Оригинальные данные и их усиленные версии проходят через два отдельных пути обучения. Затем мы сравниваем и анализируем направления градиентов, полученных от двух версий аудио, чтобы выявить и устранить конфликты. Это позволяет привести направление градиентов к одному общему направлению, уменьшая количество конфликтов и улучшая процесс обучения. Метод был применен к модели Deepfake Detection в реальных условиях (In-the-Wild). ## Результаты Мы провели эксперименты на двух разных наборах данных: VCTK и In-the-Wild. Мы сравнили наш метод с базовой моделью, которая не использует метод алмагентезации градиентов. Результаты показали, что наш метод уменьшает количество эпох, необходимых для достижения оптимального результата, и повышает производительность модели. На In-the-Wild датасете, мы достигли уменьшения **Equal Error Rate (EER)** на **18.69%**, что является значительным улучшением по сравнению с базовой моделью. ## Значимость Наш метод имеет большое значение для области глубокого подделывания речи, так как он улучшает устойчивость моделей к разнообразным аудио-усилениям. Это позволяет моделям быть более точными и надежными в реальных условиях. Метод может быть применен в системах аудио-анализа для обнаружения поддельных звуковых файлов, в том числе в системах безопасности и модули для проверки аутентичности звуковых файлов в цифровых платформах. ## Выводы Мы успешно разработали двухпутную систему обучения с аугментированными данными для Deepfake Detection, которая устраняет конфликты между градиентами и улучшает обучение моделей. Наши результаты показали, что этот подход может быть эффективным для повышения точности и устойчивости моделей к разным аудио-усилениям. Мы планируем дальнейшее продолжение исследований в области улучшения моделей Deepfake Detection с использованием разных методов аугментации и сравнения их эфф

Annotation:

In speech deepfake detection (SDD), data augmentation (DA) is commonly used to improve model generalization across varied speech conditions and spoofing attacks. However, during training, the backpropagated gradients from original and augmented inputs may misalign, which can result in conflicting parameter updates. These conflicts could hinder convergence and push the model toward suboptimal solutions, thereby reducing the benefits of DA. To investigate and address this issue, we design a dual-p...

ID: 2509.20682v1 cs.SD, cs.AI

arXiv PDF

1
2
12
13
14
15
16
27
28

Показано 131 - 140 из 274 записей