📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations

2025-10-22

Авторы:

Bo-Han Feng, Chien-Feng Liu, Yu-Hsuan Li Liang, Chih-Kai Yang, Szu-Wei Fu, Zhehuai Chen, Ke-Han Lu, Sung-Feng Huang, Chao-Han Huck Yang, Yu-Chiang Frank Wang, Yun-Nung Chen, Hung-yi Lee

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large audio-language models (LALMs) extend text-based LLMs with auditory understanding, offering new opportunities for multimodal applications. While their perception, reasoning, and task performance have been widely studied, their safety alignment under paralinguistic variation remains underexplored. This work systematically investigates the role of speaker emotion. We construct a dataset of malicious speech instructions expressed across multiple emotions and intensities, and evaluate several s...

ID: 2510.16893v1 cs.SD, cs.AI, cs.CL, eess.AS

arXiv PDF

📄 SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models

2025-10-22

Авторы:

Chih-Kai Yang, Yen-Ting Piao, Tzu-Wen Hsu, Szu-Wei Fu, Zhehuai Chen, Ke-Han Lu, Sung-Feng Huang, Chao-Han Huck Yang, Yu-Chiang Frank Wang, Yun-Nung Chen, Hung-yi Lee

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Knowledge editing offers an efficient way to update model knowledge without full retraining, but prior work has concentrated almost exclusively on textual or visual modalities. We introduce SAKE, the first benchmark specifically designed for editing auditory attribute knowledge in Large Audio-Language Models (LALMs). Unlike factual updates, SAKE targets several abstract auditory attributes, capturing knowledge types that go beyond conventional textual and visual domains. We benchmark seven editi...

ID: 2510.16917v1 cs.SD, cs.AI, cs.CL, eess.AS

arXiv PDF

📄 ControlAudio: Tackling Text-Guided, Timing-Indicated and Intelligible Audio Generation via Progressive Diffusion Modeling

2025-10-14

Авторы:

Yuxuan Jiang, Zehua Chen, Zeqian Ju, Yusheng Dai, Weibei Dou, Jun Zhu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Text-to-audio (TTA) generation with fine-grained control signals, e.g., precise timing control or intelligible speech content, has been explored in recent works. However, constrained by data scarcity, their generation performance at scale is still compromised. In this study, we recast controllable TTA generation as a multi-task learning problem and introduce a progressive diffusion modeling approach, ControlAudio. Our method adeptly fits distributions conditioned on more fine-grained information...

ID: 2510.08878v1 cs.SD, cs.AI, cs.CL, eess.AS

arXiv PDF

📄 AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs

2025-10-10

Авторы:

Peize He, Zichen Wen, Yubo Wang, Yuxuan Wang, Xiaoqian Liu, Jiajie Huang, Zehui Lei, Zhuangcheng Gu, Xiangqi Jin, Jiabing Yang, Kai Li, Zhifei Liu, Weijia Li, Cunxiang Wang, Conghui He, Linfeng Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Processing long-form audio is a major challenge for Large Audio Language models (LALMs). These models struggle with the quadratic cost of attention ($O(N^2)$) and with modeling long-range temporal dependencies. Existing audio benchmarks are built mostly from short clips and do not evaluate models in realistic long context settings. To address this gap, we introduce AudioMarathon, a benchmark designed to evaluate both understanding and inference efficiency on long-form audio. AudioMarathon provid...

ID: 2510.07293v1 cs.SD, cs.AI, cs.CL, eess.AS

arXiv PDF

📄 From Scores to Preferences: Redefining MOS Benchmarking for Speech Quality Reward Modeling

2025-10-04

Авторы:

Yifei Cao, Changhao Jiang, Jiabao Zhuang, Jiajun Sun, Ming Zhang, Zhiheng Xi, Hui Li, Shihan Dou, Yuran Wang, Yunke Zhang, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Assessing the perceptual quality of synthetic speech is crucial for guiding the development and refinement of speech generation models. However, it has traditionally relied on human subjective ratings such as the Mean Opinion Score (MOS), which depend on manual annotations and often suffer from inconsistent rating standards and poor reproducibility. To address these limitations, we introduce MOS-RMBench, a unified benchmark that reformulates diverse MOS datasets into a preference-comparison sett...

ID: 2510.00743v1 cs.SD, cs.AI, cs.CL, eess.AS

arXiv PDF

📄 MDAR: A Multi-scene Dynamic Audio Reasoning Benchmark

2025-09-30

Авторы:

Hui Li, Changhao Jiang, Hongyu Wang, Ming Zhang, Jiajun Sun, Zhixiong Yang, Yifei Cao, Shihan Dou, Xiaoran Fan, Baoyu Fan, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang

## Контекст Аудиовещание является ключевым инструментом для обеспечения эффективной взаимодействия между ИИ-агентами и реальным миром. Оно включает различные аспекты, такие как речь, паралингвистические признаки, звуки окружающей среды и музыка. Несмотря на продвижение моделей ИИ, существующие бенчмарки аудиопроцессинга ограничены статическими или однопоточными сценариями, не учитывая сложные сценарии, где несколько говорящих, развивающиеся события и разнородные источники аудио взаимодействуют динамически. Для решения этой проблемы представлен MDAR — бенчмарк для оценки моделей в области сложных задач разума по аудио в динамических сценариях. ## Метод MDAR является первым бенчмарком, оценивающим модели на различных сложных задачах разума по аудио в многосценной и динамической среде. Он содержит 3,000 вопросов-ответов, связанных с аудио клипами, разделенными на пять категорий сложного разума и три типа вопросов. Бенчмарк охватывает разные аспекты аудиосигнала, включая речь, паралингвистические признаки, музыку и звуки. Он предназначен для проверки моделей на логическую абстракцию, способность к многоэлементному анализу и пониманию сложного аудио. Таким образом, MDAR является новым исследовательским инструментом для развития ИИ. ## Результаты Для проверки MDAR использовались 26 современных аудио-языковых моделей. На задаче многоэлементного анализа, GPT-4o Audio (закрытая модель) достигла 68.47%, а Qwen2.5-Omni (открытая модель) — 76.67%. Однако GPT-4o Audio показал значительное преимущество на задачах с многоэлементным тестированием и открытым ответом. Ни одна модель не смогла достичь 80% точности, что подтверждает сложность задач бенчмарка. Эти результаты демонстрируют необходимость развития аудио-разума и сделали MDAR отличным исследовательским средством для его достижения. ## Значимость MDAR открывает новые возможности для исследования различных аспектов разума, включая речь, музыку, симуляцию разных сценариев и анализ паралингвистических признаков. Он позволяет проверить модели на логическое мышление, разрешение противоречий и обнаружение звуков. Благодаря своему многогранному подходу, MDAR является идеальным инструментом для развития моделей ИИ, которые способны решать сложные задачи в реальных условиях. Его результаты могут применяться в разработке ИИ для многоязычных систем, систем распознавания речи, автоматизированных систем управления и других областях. ## Выводы MDAR — это первый бенчмарк, который демонстрирует сложность многосценных и динамически

Annotation:

The ability to reason from audio, including speech, paralinguistic cues, environmental sounds, and music, is essential for AI agents to interact effectively in real-world scenarios. Existing benchmarks mainly focus on static or single-scene settings and do not fully capture scenarios where multiple speakers, unfolding events, and heterogeneous audio sources interact. To address these challenges, we introduce MDAR, a benchmark for evaluating models on complex, multi-scene, and dynamically evolvin...

ID: 2509.22461v1 cs.SD, cs.AI, cs.CL, eess.AS

arXiv PDF

📄 SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models

2025-09-23

Авторы:

Qiaolin Wang, Xilin Jiang, Linyang He, Junkai Wu, Nima Mesgarani

#### Контекст Современные audio-language models (LALMs) демонстрируют состояние техники в аудио-уровне, но их возможности в комплексных аудио-сценариях остаются ниже уровня vision-language models (LVLMs). Этот разрыв обусловлен нехваткой больших аудио-учебных данных с цепочкой мышления (chain-of-thought, CoT), необходимых для шагами воспроизведения решения задач. Этому ограничению мы направляемся, предлагая SightSound-R1 — рамочную методику для переноса знаний с помощью cross-modal distillation. #### Метод SightSound-R1 основывается на трех основных этапах: 1. **Тест-time scaling**: Генерация аудио-целенаправленных цепочек мышления (CoT) с помощью LVLM-teacher. 2. **Audio-grounded validation**: Фильтрация нежелательных халлуцинаций в цепочках мышления. 3. **Distillation pipeline**: Реализация двухступенчатого адаптированного обучения — дискриминативного уровня (supervised fine-tuning, SFT) и группового уровня (Group Relative Policy Optimization, GRPO). #### Результаты Проведенные эксперименты показали, что SightSound-R1 улучшает разумование LALM не только на встроенном AVQA-тестовом наборе, но и на более широком спектре звуковых сценариев и вопросов. Оно превосходит другие модели, оперирующие только с меток или базовыми формулами переноса знаний. #### Значимость Метод предлагает гибкое решение для переноса знаний из моделей зрения в модели звука, позволяя улучшить их восприятие сложных сценариев. Это может быть применено в областях, где высокий уровень понимания сложной аудио-информации критичен (например, в аксессуарах, диагностических системах, домашней автоматизации). #### Выводы Результаты подтверждают, что модели звука могут быть эффективно обогащены знаниями доставленными из моделей зрения. Будущие исследования будут сконцентрированы на усовершенствовании структуры GRPO и достижении широкой готовности для практического применения.

Annotation:

While large audio-language models (LALMs) have demonstrated state-of-the-art audio understanding, their reasoning capability in complex soundscapes still falls behind large vision-language models (LVLMs). Compared to the visual domain, one bottleneck is the lack of large-scale chain-of-thought audio data to teach LALM stepwise reasoning. To circumvent this data and modality gap, we present SightSound-R1, a cross-modal distillation framework that transfers advanced reasoning from a stronger LVLM ...

ID: 2509.15661v1 cs.SD, cs.AI, cs.CL, eess.AS

arXiv PDF

📄 FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs

2025-09-17

Авторы:

Md Mubtasim Ahasan, Rafat Hasan Khan, Tasnim Mohiuddin, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Amin Ahsan Ali, Md Mofijul Islam, A K M Mahbubur Rahman

#### Контекст Современные нейронные кодеки (neural codecs) играют ключевую роль в обработке звука, обеспечивая эффективный сжатий и декодирования звуковых сигналов. Однако большинство существующих кодеков сосредоточены на трансляции низкоуровневых акустических особенностей, пропуская важные семантические и контекстуальные признаки, которые являются важной частью человеческого языка. Этот аспект особенно важен для решения проблем, таких как транскрипция речи и генерация текста. Несмотря на попытки интегрировать семантические и контекстуальные представления в традиционные кодеки, эффективное сочетание этих представлений остается значительной технической проблемой. Мы предлагаем FuseCodec, который адресует эти проблемы, объединяя акустические, семантические и контекстуальные представления в единое целое с использованием глобальной ведомости и кросс-модального выравнивания. #### Метод FuseCodec основывается на трёх основных компонентах, которые позволяют эффективно объединять и управлять семантическими и контекстуальными представлениями. (i) **Latent Representation Fusion**: это техника позволяет интегрировать семантические и контекстуальные фичи непосредственно в пространство латентного представления кодека. Это способствует созданию более глубокого и единообразного представления речи. (ii) **Global Semantic-Contextual Supervision**: в данной технике используется глобальное пулинг знаков, которое позволяет сопоставлять контекстуальные и семантические представления, что улучшает временную консистентность и кросс-модальное выравнивание. (iii) **Temporally Aligned Contextual Supervision**: данный метод синхронизирует контекстуальные представления и звуковые токены в рамках локального окна, обеспечивая точное, лексические и фонетические соответствия. Эти компоненты вместе способствуют улучшению токенизации речи и его применимости в различных задачах. #### Результаты Мы провели эксперименты на звуковых данных LibriSpeech, сравнив FuseCodec с трёх современных кодеками: EnCodec, SpeechTokenizer и DAC. FuseCodec показал значительное превосходство в нескольких ключевых метриках, включая точность транскрипции, читабельность, интеллектуальность, и гармонию голоса. Эмпирические результаты демонстрируют, что FuseCodec эффективно использует семантические и контекстуальные признаки для улучшения общей точности и качества транскрипции. Дополнительно, мы представили FuseCodec-TTS, показав его применимость к нулевой-срабатыванию речи (zero-shot speech synthesis). Физические модели и код доступны на GitHub по адресу: [https://github.com/mubtasimahasan/FuseCodec](https://github.com/mubtasimahasan/FuseCodec). #### Значимость FuseCodec обеспечивает устойчивое объединение сем

Annotation:

Speech tokenization enables discrete representation and facilitates speech language modeling. However, existing neural codecs capture low-level acoustic features, overlooking the semantic and contextual cues inherent to human speech. While recent efforts introduced semantic representations from self-supervised speech models or incorporated contextual representations from pre-trained language models, challenges remain in aligning and unifying the semantic and contextual representations. We introd...

ID: 2509.11425v1 cs.SD, cs.AI, cs.CL, eess.AS

arXiv PDF

📄 TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

2025-09-10

Авторы:

Minh N. H. Nguyen, Anh Nguyen Tran, Dung Truong Dinh, Nam Van Vo

## Контекст Code-switching (CS), или перемешивание языков в речи, является важной проблемой для общей системы автоматического распознавания речи (ASR). В случае таких языковых пар, как вьетский и английский, существуют сложности в распознавании специфичных фонологических особенностей каждого языка, а также в ситуациях, когда звуки одинаковые в разных языках создают второспецифическую амбигуарность. Эти проблемы становятся особенно актуальными в аспекте развития технологий для региональных и многоязычных сценариев. В этом исследовании фокус делается на разработке новых подходов для улучшения распознавания речи в условиях CS версии вьетско-английского языка. Такие подходы могут существенно повысить точность распознавания, уменьшить ресурсы обучения и сделать ASR более эффективным в каждый день использовании. ## Метод Методология TSPC (Two-Stage Phoneme-Centric) основывается на расширенном наборе фонологических единиц вьетского языка. Философия данного подхода заключается в использовании фонологической модели, которая позволяет адаптировать распознавание речи к контексту CS. Основной архитектурой является две фазы: фаза превращения речи в фонологические единицы (фаза распознавания) и фаза перевода этих единиц в транскрипции текста (фаза распознавания текста). Эта архитектура также включает в себя моделирование сложностей CS с помощью модификаций признаков фонологических единиц, чтобы улучшить точность распознавания. Такой метод позволяет строить модели, которые лучше подходят для характеристик CS вьетского-английского языка. ## Результаты Для проверки эффективности TSPC были проведены эксперименты на специально подготовленных данных, включающих звуковые фрагменты и текстовые транскрипции. Результаты показали, что TSPC существенно превосходит базовые модели, такие как PhoWhisper-base, в области распознавания речи в сценариях CS вьетского-английского языка. Более того, TSPC достиг значительно низкого уровня ошибок в тексте распознавания - 20.8% WER (Word Error Rate) - при меньших требованиях к ресурсам обучения. Эти результаты указывают на то, что TSPC не только улучшает точность распознавания, но и позволяет экономить ресурсы в процессе обучения, что является ключевым преимуществом для применения в реальных условиях. ## Значимость Параметры TSPC демонстрируют широкий потенциал для развития и применения в различных областях, включая область транскрипции речи с кодовым переключением вьетского-английского языка. Этот подход может быть применен в сферах, таких как лингвистические исс

Annotation:

Code-switching (CS) presents a significant challenge for general Auto-Speech Recognition (ASR) systems. Existing methods often fail to capture the subtle phonological shifts inherent in CS scenarios. The challenge is particularly difficult for language pairs like Vietnamese and English, where both distinct phonological features and the ambiguity arising from similar sound recognition are present. In this paper, we propose a novel architecture for Vietnamese-English CS ASR, a Two-Stage Phoneme-Ce...

ID: 2509.05983v1 cs.SD, cs.AI, cs.CL, eess.AS

arXiv PDF

📄 Maestro-EVC: Controllable Emotional Voice Conversion Guided by References and Explicit Prosody

2025-08-13

Авторы:

Jinsung Yoon, Wooyeol Jeong, Jio Gim, Young-Joo Suh

## Контекст Emotional Voice Conversion (EVC) является важной задачей в области речевых технологий, способствующей созданию эмоционально окрашенного голоса, сохраняющего языковой контент. Известно, что в ситуациях, где требуется контролируемое изменение эмоционального содержания речи, важно моделировать не только отдельные эмоциональные выражения, но и передавать их динамику во времени. Существующие методы часто сталкиваются с проблемами несовершенного разделения спикерской идентичности и эмоционального стиля, а также недостаточной моделирования динамики эмоционального выражения. Целью данной работы является разработка метода, который обеспечит контроль над контентом, спикерской идентичностью и эмоциональным стилем, а также улучшит передачу временных динамических особенностей эмоции в случае несоответствия просодических характеристик. ## Метод Мы предлагаем Maestro-EVC — многозадачный фреймворк для контролируемой эмоциональной голосовой конверсии. Он основывается на моделировании независимого разделения контента, спикерской идентичности и эмоции с помощью различных четко отделенных референсов. Для лучшего передачи динамики эмоции во времени мы предлагаем новую темпоральную представление эмоции, а также вводим эксплититный просодический моделирование с помощью усиления просодии. Мы используем архитектуру, основанную на transformer, для эффективного извлечения и контроля этих атрибутов. Эта модель обеспечивает высококачественные эмоциональные изменения речи, даже при несоответствии просодических особенностей. ## Результаты Мы проводили эксперименты с различными данными, включая синтезированные и реальные речевые выражения с разными эмоциональными стилями. В результате показаны высокие показатели улучшения дисентеграции атрибутов речи, как по спикерской идентичности, так и по эмоциональному стилю. Мы также провели сравнение с другими подходами, демонстрируя преимущества Maestro-EVC в том, что он обеспечивает более точный контроль над эмоциональными изменениями. Особенно выдающимися результатами показался Maestro-EVC в задаче сегментации временных эмоциональных динамик, даже при просодически несовпадающих условиях. ## Значимость Maestro-EVC может быть применен в различных областях, включая создание эмоционально окрашенных голосовых помощников, лингвистических исследований, а также в сфере интерактивных технологий. Он предоставляет значительные преимущества в сравнении с традиционными методами, такими как улучшенная точность контроля и лучшая моделирование динамики эмоциональных звуков. Этот подход может оказаться важным для развития новых возможностей в области разговорных интерфейсов, где эмоции и

Annotation:

Emotional voice conversion (EVC) aims to modify the emotional style of speech while preserving its linguistic content. In practical EVC, controllability, the ability to independently control speaker identity and emotional style using distinct references, is crucial. However, existing methods often struggle to fully disentangle these attributes and lack the ability to model fine-grained emotional expressions such as temporal dynamics. We propose Maestro-EVC, a controllable EVC framework that enab...

ID: 2508.06890v1 cs.SD, cs.AI, cs.CL, eess.AS

arXiv PDF