📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 The Ghost in the Keys: A Disklavier Demo for Human-AI Musical Co-Creativity

2025-11-06

Авторы:

Louis Bradshaw, Alexander Spangher, Stella Biderman, Simon Colton

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

While generative models for music composition are increasingly capable, their adoption by musicians is hindered by text-prompting, an asynchronous workflow disconnected from the embodied, responsive nature of instrumental performance. To address this, we introduce Aria-Duet, an interactive system facilitating a real-time musical duet between a human pianist and Aria, a state-of-the-art generative model, using a Yamaha Disklavier as a shared physical interface. The framework enables a turn-taking...

ID: 2511.01663v1 cs.SD, cs.AI, cs.HC

arXiv PDF

📄 ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis

2025-10-16

Авторы:

Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Existing Persian speech datasets are typically smaller than their English counterparts, which creates a key limitation for developing Persian speech technologies. We address this gap by introducing ParsVoice, the largest Persian speech corpus designed specifically for text-to-speech(TTS) applications. We created an automated pipeline that transforms raw audiobook content into TTS-ready data, incorporating components such as a BERT-based sentence completion detector, a binary search boundary opti...

ID: 2510.10774v2 cs.SD, cs.AI, cs.HC, cs.LG

arXiv PDF

📄 Emotion-Disentangled Embedding Alignment for Noise-Robust and Cross-Corpus Speech Emotion Recognition

2025-10-14

Авторы:

Upasana Tiwari, Rupayan Chakraborty, Sunil Kumar Kopparapu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Effectiveness of speech emotion recognition in real-world scenarios is often hindered by noisy environments and variability across datasets. This paper introduces a two-step approach to enhance the robustness and generalization of speech emotion recognition models through improved representation learning. First, our model employs EDRL (Emotion-Disentangled Representation Learning) to extract class-specific discriminative features while preserving shared similarities across emotion categories. Ne...

ID: 2510.09072v1 cs.SD, cs.AI, cs.HC, cs.LG, eess.AS

arXiv PDF

📄 Attribution-by-design: Ensuring Inference-Time Provenance in Generative Music Systems

2025-10-11

Авторы:

Fabio Morreale, Wiebke Hutiri, Joan Serrà, Alice Xiang, Yuki Mitsufuji

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The rise of AI-generated music is diluting royalty pools and revealing structural flaws in existing remuneration frameworks, challenging the well-established artist compensation systems in the music industry. Existing compensation solutions, such as piecemeal licensing agreements, lack scalability and technical rigour, while current data attribution mechanisms provide only uncertain estimates and are rarely implemented in practice. This paper introduces a framework for a generative music infrast...

ID: 2510.08062v1 cs.SD, cs.AI, cs.HC

arXiv PDF

📄 Learning Relationships Between Separate Audio Tracks for Creative Applications

2025-10-02

Авторы:

Balthazar Bujard, Jérôme Nika, Fédéric Bevilacqua, Nicolas Obin

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This paper presents the first step in a research project situated within the field of musical agents. The objective is to achieve, through training, the tuning of the desired musical relationship between a live musical input and a real-time generated musical output, through the curation of a database of separated tracks. We propose an architecture integrating a symbolic decision module capable of learning and exploiting musical relationships from such musical corpus. We detail an offline impleme...

ID: 2509.25296v1 cs.SD, cs.AI, cs.HC, cs.LG, eess.AS

arXiv PDF

📄 CabinSep: IR-Augmented Mask-Based MVDR for Real-Time In-Car Speech Separation with Distributed Heterogeneous Arrays

2025-09-05

Авторы:

Runduo Han, Yanxin Hu, Yihui Fu, Zihan Zhang, Yukai Jv, Li Chen, Lei Xie

## Контекст Одной из ключевых задач в области звукового взаимодействия с автомобилями является разделение сложно перекрывающихся речи нескольких говорящих. Это необходимо для повышения точности распознавания речи в моделях ASR, что в свою очередь повышает качество пользовательского опыта в автоматизированных системах диктовки и помощи водителям. Традиционные методы часто сталкиваются с трудностями в условиях реальных автомобильных сред, где звуковые источники плотно перекрываются, и имеют высокую сложность вычислительной части. Многоканальные задачи разделения речи, включая локализацию говорящих и отделение их речи, являются важными для решения этих проблем, но требуют эффективных алгоритмов с умеренными вычислительными затратами. ## Метод CabinSep представляет собой новую реализацию маски-ориентированного метода MVDR (Minimum Variance Distortionless Response) для разделения речи в реальном времени. Основным инновационным элементом является использование информации о каналах для извлечения пространственных признаков, которые улучшают оценку масок речи и шума. Это позволяет повысить точность разделения, даже если источники речи находятся в разных зонах пространства. Метод также использует МВДР в процессе инференса, что уменьшает дисторсию речи и делает разделенный звук более подходящим для ASR. Для повышения устойчивости и точности расположения говорящих, CabinSep вводит метод увеличения данных, который сочетает симулированные и реально записанные отзвуки (Impulse Responses, IRs). Это позволяет улучшить локализацию говорящих, особенно на границах зон. ## Результаты Для оценки эффективности CabinSep проводились эксперименты на реально записанных данных. Результаты показали, что метод достигает 17.5% относительной снижения ошибок распознавания речи по сравнению со стандартным DualSep моделью. Это достижение достигается при относительно низкой вычислительной сложности — 0.4 GMACs. Эксперименты также показали, что CabinSep обеспечивает более точное расположение говорящих в многоканальной среде, что значительно повышает качество распознавания в условиях сложных автомобильных сред. ## Значимость CabinSep может быть применен в автомобильных системах, где необходимо эффективно разделить речи нескольких говорящих в реальном времени. Его преимущества заключаются в низком компьютерном затрат, высокой точности разделения и улучшенной локализации говорящих. Это делает CabinSep подходящим для систем самого разного уровня сложности, от простой помощи водителю до сложных систем автоматического управления автомобилем. Дальнейшие исследования могут сосредоточиться на дальнейшем повышении эффективности и уменьшении компь

Annotation:

Separating overlapping speech from multiple speakers is crucial for effective human-vehicle interaction. This paper proposes CabinSep, a lightweight neural mask-based minimum variance distortionless response (MVDR) speech separation approach, to reduce speech recognition errors in back-end automatic speech recognition (ASR) models. Our contributions are threefold: First, we utilize channel information to extract spatial features, which improves the estimation of speech and noise masks. Second, w...

ID: 2509.01399v1 cs.SD, cs.AI, cs.HC, eess.AS

arXiv PDF

📄 Opening Musical Creativity? Embedded Ideologies in Generative-AI Music Systems

2025-08-14

Авторы:

Liam Pram, Fabio Morreale

## Контекст Проблема и мотивация: Современные системы генерирующих музыку с помощью искусственного интеллекта (ИИ) становятся все более популярными и доступными для пользователей, даже тем, у кого нет музыкальных навыков. Это привело к тому, что генерирующая ИИ-музыка получила рекламу как средство демократизации музыкального творчества. Однако этот подход часто остается в области рыночной рекламы, а не реального улучшения доступности и инклюзивности. Этот анализ фокусируется на том, как эти системы развиваются и применяются, особенно в свете их рыночной дискурсивности и индивидуализма. Область исследования: Анализ феномена генерирующей ИИ-музыки включает в себя исследование ее технологических моделей, а также ее практического использования. Работа ставит перед собой цель разоблачить подсознательные идеологии, которые влияют на развитие генерирующих ИИ-систем в музыкальном сфере. Особое внимание уделяется идеологии «демократизации музыки» и ее противоречивости в контексте текущих рыночных моделей. ## Метод Методология: Для изучения этой проблемы используется комбинация автоэтнографии и цифровой этнографии. Это позволяет изучить как рыночные характеристики систем, так и их практическое использование. Авторы проанализировали четыре генерирующих ИИ-системы, доступные на момент исследования (AIVA, Stable Audio, Suno, Udio), с целью отследить паттерны и несоответствия в рекламных текстах и функциональных возможностях продуктов. Технические решения: Исследование основывается на анализе текстов, описывающих системы, и данных о поведении пользователей. Здесь используются методы семиотического и текстового анализа для выявления идеологических стереотипов и их воздействия на развитие и применение технологий. ## Результаты Эксперименты и результаты: Авторы выявили три основных идеологических курсора в развитии генерирующих ИИ-систем: 1) техно-либерализм, 2) глобализм и 3) индивидуализм. Эти идеологии отождествляются с тем, как системы были рассказаны разработчиками и как они были поняты пользователями. Однако включение, которое рас propagandируется этими системами, часто остается маркетинговой методологией, а не реальным улучшением доступности и инклюзивности. Выявлены несоответствия между рыночным рассказом и реальной функциональностью систем: хотя в рекламе упор делается на демократизации и доступности музыкального творчества, фактический доступ часто ограничен и включение ограничено. ## Значимость Применение: Результаты этого ис

Annotation:

AI systems for music generation are increasingly common and easy to use, granting people without any musical background the ability to create music. Because of this, generative-AI has been marketed and celebrated as a means of democratizing music making. However, inclusivity often functions as marketable rhetoric rather than a genuine guiding principle in these industry settings. In this paper, we look at four generative-AI music making systems available to the public as of mid-2025 (AIVA, Stabl...

ID: 2508.08805v1 cs.SD, cs.AI, cs.HC

arXiv PDF