📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap

2025-10-15

Авторы:

KiHyun Nam, Jongmin Choi, Hyeongkeun Lee, Jungwoo Heo, Joon Son Chung

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Contrastive audio-language pretraining yields powerful joint representations, yet a persistent audio-text modality gap limits the benefits of coupling multimodal encoders with large language models (LLMs). We present Diffusion-Link, a diffusion-based modality-bridging module that generatively maps audio embeddings into the text-embedding distribution. The module is trained at the output embedding from the frozen multimodal encoder and implemented as a lightweight network with three residual MLP ...

ID: 2510.11330v1 cs.SD, cs.AI, cs.CL, cs.LG, eess.AS

arXiv PDF

📄 Speak, Edit, Repeat: High-Fidelity Voice Editing and Zero-Shot TTS with Cross-Attentive Mamba

2025-10-08

Авторы:

Baher Mohammad, Magauiya Zhussip, Stamatios Lefkimmiatis

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We introduce MAVE (Mamba with Cross-Attention for Voice Editing and Synthesis), a novel autoregressive architecture for text-conditioned voice editing and high-fidelity text-to-speech (TTS) synthesis, built on a cross-attentive Mamba backbone. MAVE achieves state-of-the-art performance in speech editing and very competitive results in zero-shot TTS, while not being explicitly trained on the latter task, outperforming leading autoregressive and diffusion models on diverse, real-world audio. By in...

ID: 2510.04738v1 cs.SD, cs.AI, cs.CL, cs.LG, eess.AS

arXiv PDF

📄 Competitive Audio-Language Models with Data-Efficient Single-Stage Training on Public Data

2025-09-11

Авторы:

Gokul Karthik Kumar, Rishabh Saraf, Ludovick Lepauloux, Abdul Muneer, Billel Mokeddem, Hakim Hacid

#### Контекст В последние годы технологии звукового анализа и обработки языка стали ключевыми для развития интеллектуальных систем. Однако сочетание звукового анализа и естественного языка во многом остается недостаточно исследованом. Уже достигнутые успехи в области больших языковых моделей (LLMs) не полностью использованы для аудио-данных, несмотря на то, что звук является основополагающим средством человеческой коммуникации. Это ситуация стимулирует развитие аудио-языковых моделей (ALMs), которые могут обрабатывать и интерпретировать аудио-информацию вместе с текстовыми данными. Falcon3-Audio — это новая семейство ALMs, которые используют уже проинструктированные языковые модели и кодировщики звука с открытым кодом, такими как Whisper. Они предлагают новую точку зрения на объединение звуковых и текстовых данных. #### Метод Falcon3-Audio основана на современных трендах в обучении языковых моделей, но придерживается простоты в своей архитектуре. Она использует Whisper для кодирования звуковых сигналов и обучает языковую модель на основе существующих процедур обучения с инструкциями. Это позволяет проводить одностадийное обучение, не требуя дополнительных сложных методов, таких как курсивное обучение или многоэтапная архитектура. Используется минимальное количество аудио-данных — менее 30 тысяч часов (5 тысяч уникальных аудио-записей) — что демонстрирует высокую эффективность ресурсов. Набор данных Whisper, используемый для обучения, также обеспечивает широкий покрытие различных акцентов и языков. #### Результаты В ходе исследования Falcon3-Audio-7B демонстрирует выдающуюся эффективность, совпадая с результатами лучших моделей на открытом коде в задаче моделирования MMAU. Она построена на меньшем количестве параметров (7 миллиардов) и тренируется на меньшем количестве данных, чем многие соревновательные модели. Например, Falcon3-Audio-1B превосходит различные модели 2–13 миллиардов параметров, открытых и закрытых. Эти результаты достигнуты благодаря простоте архитектуры и эффективности используемых данных. Эксперименты также показали, что Falcon3-Audio достигает этих результатов без дополнительных сложных методов, что демонстрирует ее простоту и надёжность. #### Значимость Модель Falcon3-Audio открывает новый подход к объединению звуковых и текстовых данных в языковых моделях, снижая требования к объему обучающих данных и ресурсам вычислительных систем. Она может применяться в различных областях, включая распознавание речи, генерацию аудио-содержимого и анализ аудио-содержимого. Ее простота, эффектив

Annotation:

Large language models (LLMs) have transformed NLP, yet their integration with audio remains underexplored -- despite audio's centrality to human communication. We introduce Falcon3-Audio, a family of Audio-Language Models (ALMs) built on instruction-tuned LLMs and Whisper encoders. Using a remarkably small amount of public audio data -- less than 30K hours (5K unique) -- Falcon3-Audio-7B matches the best reported performance among open-weight models on the MMAU benchmark, with a score of 64.14, ...

ID: 2509.07526v1 cs.SD, cs.AI, cs.CL, cs.LG

arXiv PDF