📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Louis Bradshaw, Alexander Spangher, Stella Biderman, Simon Colton
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
While generative models for music composition are increasingly capable, their
adoption by musicians is hindered by text-prompting, an asynchronous workflow
disconnected from the embodied, responsive nature of instrumental performance.
To address this, we introduce Aria-Duet, an interactive system facilitating a
real-time musical duet between a human pianist and Aria, a state-of-the-art
generative model, using a Yamaha Disklavier as a shared physical interface. The
framework enables a turn-taking...
📄 ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis
2025-10-16Авторы:
Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Existing Persian speech datasets are typically smaller than their English
counterparts, which creates a key limitation for developing Persian speech
technologies. We address this gap by introducing ParsVoice, the largest Persian
speech corpus designed specifically for text-to-speech(TTS) applications. We
created an automated pipeline that transforms raw audiobook content into
TTS-ready data, incorporating components such as a BERT-based sentence
completion detector, a binary search boundary opti...
Авторы:
Upasana Tiwari, Rupayan Chakraborty, Sunil Kumar Kopparapu
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Effectiveness of speech emotion recognition in real-world scenarios is often
hindered by noisy environments and variability across datasets. This paper
introduces a two-step approach to enhance the robustness and generalization of
speech emotion recognition models through improved representation learning.
First, our model employs EDRL (Emotion-Disentangled Representation Learning) to
extract class-specific discriminative features while preserving shared
similarities across emotion categories. Ne...
Авторы:
Fabio Morreale, Wiebke Hutiri, Joan Serrà, Alice Xiang, Yuki Mitsufuji
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The rise of AI-generated music is diluting royalty pools and revealing
structural flaws in existing remuneration frameworks, challenging the
well-established artist compensation systems in the music industry. Existing
compensation solutions, such as piecemeal licensing agreements, lack
scalability and technical rigour, while current data attribution mechanisms
provide only uncertain estimates and are rarely implemented in practice. This
paper introduces a framework for a generative music infrast...
Авторы:
Balthazar Bujard, Jérôme Nika, Fédéric Bevilacqua, Nicolas Obin
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
This paper presents the first step in a research project situated within the
field of musical agents. The objective is to achieve, through training, the
tuning of the desired musical relationship between a live musical input and a
real-time generated musical output, through the curation of a database of
separated tracks. We propose an architecture integrating a symbolic decision
module capable of learning and exploiting musical relationships from such
musical corpus. We detail an offline impleme...
Авторы:
Runduo Han, Yanxin Hu, Yihui Fu, Zihan Zhang, Yukai Jv, Li Chen, Lei Xie
## Контекст
Одной из ключевых задач в области звукового взаимодействия с автомобилями является разделение сложно перекрывающихся речи нескольких говорящих. Это необходимо для повышения точности распознавания речи в моделях ASR, что в свою очередь повышает качество пользовательского опыта в автоматизированных системах диктовки и помощи водителям. Традиционные методы часто сталкиваются с трудностями в условиях реальных автомобильных сред, где звуковые источники плотно перекрываются, и имеют высокую сложность вычислительной части. Многоканальные задачи разделения речи, включая локализацию говорящих и отделение их речи, являются важными для решения этих проблем, но требуют эффективных алгоритмов с умеренными вычислительными затратами.
## Метод
CabinSep представляет собой новую реализацию маски-ориентированного метода MVDR (Minimum Variance Distortionless Response) для разделения речи в реальном времени. Основным инновационным элементом является использование информации о каналах для извлечения пространственных признаков, которые улучшают оценку масок речи и шума. Это позволяет повысить точность разделения, даже если источники речи находятся в разных зонах пространства. Метод также использует МВДР в процессе инференса, что уменьшает дисторсию речи и делает разделенный звук более подходящим для ASR. Для повышения устойчивости и точности расположения говорящих, CabinSep вводит метод увеличения данных, который сочетает симулированные и реально записанные отзвуки (Impulse Responses, IRs). Это позволяет улучшить локализацию говорящих, особенно на границах зон.
## Результаты
Для оценки эффективности CabinSep проводились эксперименты на реально записанных данных. Результаты показали, что метод достигает 17.5% относительной снижения ошибок распознавания речи по сравнению со стандартным DualSep моделью. Это достижение достигается при относительно низкой вычислительной сложности — 0.4 GMACs. Эксперименты также показали, что CabinSep обеспечивает более точное расположение говорящих в многоканальной среде, что значительно повышает качество распознавания в условиях сложных автомобильных сред.
## Значимость
CabinSep может быть применен в автомобильных системах, где необходимо эффективно разделить речи нескольких говорящих в реальном времени. Его преимущества заключаются в низком компьютерном затрат, высокой точности разделения и улучшенной локализации говорящих. Это делает CabinSep подходящим для систем самого разного уровня сложности, от простой помощи водителю до сложных систем автоматического управления автомобилем. Дальнейшие исследования могут сосредоточиться на дальнейшем повышении эффективности и уменьшении компь
Annotation:
Separating overlapping speech from multiple speakers is crucial for effective
human-vehicle interaction. This paper proposes CabinSep, a lightweight neural
mask-based minimum variance distortionless response (MVDR) speech separation
approach, to reduce speech recognition errors in back-end automatic speech
recognition (ASR) models. Our contributions are threefold: First, we utilize
channel information to extract spatial features, which improves the estimation
of speech and noise masks. Second, w...
Авторы:
Liam Pram, Fabio Morreale
## Контекст
Проблема и мотивация: Современные системы генерирующих музыку с помощью искусственного интеллекта (ИИ) становятся все более популярными и доступными для пользователей, даже тем, у кого нет музыкальных навыков. Это привело к тому, что генерирующая ИИ-музыка получила рекламу как средство демократизации музыкального творчества. Однако этот подход часто остается в области рыночной рекламы, а не реального улучшения доступности и инклюзивности. Этот анализ фокусируется на том, как эти системы развиваются и применяются, особенно в свете их рыночной дискурсивности и индивидуализма.
Область исследования: Анализ феномена генерирующей ИИ-музыки включает в себя исследование ее технологических моделей, а также ее практического использования. Работа ставит перед собой цель разоблачить подсознательные идеологии, которые влияют на развитие генерирующих ИИ-систем в музыкальном сфере. Особое внимание уделяется идеологии «демократизации музыки» и ее противоречивости в контексте текущих рыночных моделей.
## Метод
Методология: Для изучения этой проблемы используется комбинация автоэтнографии и цифровой этнографии. Это позволяет изучить как рыночные характеристики систем, так и их практическое использование. Авторы проанализировали четыре генерирующих ИИ-системы, доступные на момент исследования (AIVA, Stable Audio, Suno, Udio), с целью отследить паттерны и несоответствия в рекламных текстах и функциональных возможностях продуктов.
Технические решения: Исследование основывается на анализе текстов, описывающих системы, и данных о поведении пользователей. Здесь используются методы семиотического и текстового анализа для выявления идеологических стереотипов и их воздействия на развитие и применение технологий.
## Результаты
Эксперименты и результаты: Авторы выявили три основных идеологических курсора в развитии генерирующих ИИ-систем: 1) техно-либерализм, 2) глобализм и 3) индивидуализм. Эти идеологии отождествляются с тем, как системы были рассказаны разработчиками и как они были поняты пользователями. Однако включение, которое рас propagandируется этими системами, часто остается маркетинговой методологией, а не реальным улучшением доступности и инклюзивности.
Выявлены несоответствия между рыночным рассказом и реальной функциональностью систем: хотя в рекламе упор делается на демократизации и доступности музыкального творчества, фактический доступ часто ограничен и включение ограничено.
## Значимость
Применение: Результаты этого ис
Annotation:
AI systems for music generation are increasingly common and easy to use,
granting people without any musical background the ability to create music.
Because of this, generative-AI has been marketed and celebrated as a means of
democratizing music making. However, inclusivity often functions as marketable
rhetoric rather than a genuine guiding principle in these industry settings. In
this paper, we look at four generative-AI music making systems available to the
public as of mid-2025 (AIVA, Stabl...