📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Hyung Gun Chi, Florian Pesce, Wonil Chang, Oggi Rudovic, Arturo Argueta, Stefan Braun, Vineet Garg, Ahmed Hussen Abdelaziz

**Резюме** В статье рассматривается проблема детекции устного запроса пользователя к голосовому помощнику (Device-Directed Speech Detection, DDSD), которая критична для обеспечения естественного интерфейса. Авторы предлагают новую адаптивную методику сбыстрования модели через **Knowledge Distillation (KD)**. Уникальность этого подхода заключается в использовании адаптивных адаптеров, которые применяются над замороженным предварительно обученным акустическим кодировщиком (teacher), основанным на трансформере или конформере. Эти адаптеры взаимодействуют с моделью-учеником (student) для целевой задачи DDSD. Эксперименты показали, что такой подход повышает точность работы модели, снижая ошибку на ключевых запросах (Equal Error Rate) на +26% при ключевых запросах и на +19% при следующих (follow-up) запросах. Результаты доказали генерализируемость метода для разных архитектур моделей.
Annotation:
Device-directed speech detection (DDSD) is a binary classification task that separates the user's queries to a voice assistant (VA) from background speech or side conversations. This is important for achieving naturalistic user experience. To this end, we propose knowledge distillation (KD) to enhance DDSD accuracy while ensuring efficient deployment. Specifically, we introduce a novel adaptive KD method that transfers knowledge from general representations of an ASR large pre-trained acoustic e...
ID: 2508.02801v1 cs.SD, cs.AI, eess.AS
Авторы:

Justin Luong, Hao Xue, Flora D. Salim

**Резюме** Диагностика респираторных заболеваний часто основывается на анализе респираторных звуков, но ограничения по доступности меток данных и ресурсов для обучения моделей существенно снижают точность и надежность таких систем. В статье предлагается CoughViT — новая самостоятельной самоспособляющейся архитектура, основанная на Vision Transformer, для обучения представлений аудио-данных постукань легких. Методом маскированного моделирования данных в рамках самостоятельного самоспособляющегося обучения разработчики обучают модель для генерирования универсальных представлений респираторных звуков. Эти представления доказали свою эффективность при решении задач классификации респираторных звуков, даже при ограниченном объеме меток. На трех классических задачах классификации респираторных звуков, включая классификацию заболеваний, CoughViT показала примерно равную или лучшую производительность по сравнению с текущими лучшими моделями на основе супервизованного обучения. Это демонстрирует перспективу таких подходов в повышении доступности и точности диагностики респираторных заболеваний.
Annotation:
Physicians routinely assess respiratory sounds during the diagnostic process, providing insight into the condition of a patient's airways. In recent years, AI-based diagnostic systems operating on respiratory sounds, have demonstrated success in respiratory disease detection. These systems represent a crucial advancement in early and accessible diagnosis which is essential for timely treatment. However, label and data scarcity remain key challenges, especially for conditions beyond COVID-19, lim...
ID: 2508.03764v1 cs.SD, cs.AI, eess.AS
Авторы:

Jingyi Chen, Ju Seung Byun, Micha Elsner, Pichao Wang, Andrew Perrault

**Резюме** Проблема. Диффузионные модели генерации речи (TTS) обеспечивают высокое качество звука, но их работа неэффективна в реальном времени из-за длительных денойзинг-шагов и сложности моделирования интонации и ритма. Решение. Мы предлагаем Diffusion Loss-Guided Policy Optimization (DLPO), фреймворк RLHF для TTS-диффузионных моделей. DLPO интегрирует исходный функционал обучения в функцию награды, сохраняя порождающие способности модели и оптимизируя её работу. Обучение происходит с использованием естественности речи в качестве отзывов. Основные выводы. На модели WaveGrad 2 DLPO показал улучшение в объективных метриках (UTMOS 3.65, NISQA 4.02) и подверждался предпочтению человеческого слушателя в 67% случаев. Это демонстрирует перспективу DLPO для эффективной и качественной генерации речи в реальном времени.
Annotation:
Diffusion models produce high-fidelity speech but are inefficient for real-time use due to long denoising steps and challenges in modeling intonation and rhythm. To improve this, we propose Diffusion Loss-Guided Policy Optimization (DLPO), an RLHF framework for TTS diffusion models. DLPO integrates the original training loss into the reward function, preserving generative capabilities while reducing inefficiencies. Using naturalness scores as feedback, DLPO aligns reward optimization with the di...
ID: 2508.03123v1 cs.SD, cs.AI, eess.AS
Авторы:

Vignesh Ethiraj, Ashwath David, Sidhanth Menon, Divya Vijay

Мы предлагаем полностью структурированную низкозадержковую систему для AI-агентов, ориентированных на голосовые запросы, разработанную специально для телеком-индустрии. Наша реализация включает в себя семь моделей, которые позволяют выполнять надежные, быстрые и достаточно гибкие ансамбли. Обеспеченные системой обработки естественного языка, автоматическим распознаванием речи, текстом-в-речь и генерацией актуальных ответов на основе документов, эти агенты предназначены для автоматизации звонков в службу поддержки, обеспечения интерактивных интеллектуальных IVR-систем и улучшения общей эффективности систем связи. Мы проводим тщательный анализ позволяющий измерить влияние различных компонентов на производительность и задержки в реальном времени. Наши результаты показали, что полученные модели обеспечивают надежное выполнение задач в реальном времени, с поддержкой телеком-гибридного подхода. Это открывает новые возможности для интеллектуальных систем, построенных на технологии глубокого обучения, для телекоммуникаций.
Annotation:
We introduce a low-latency telecom AI voice agent pipeline for real-time, interactive telecommunications use, enabling advanced voice AI for call center automation, intelligent IVR (Interactive Voice Response), and AI-driven customer support. The solution is built for telecom, combining four specialized models by NetoAI: TSLAM, a 4-bit quantized Telecom-Specific Large Language Model (LLM); T-VEC, a Telecom-Specific Embedding Model; TTE, a Telecom-Specific Automatic Speech Recognition (ASR) model...
ID: 2508.04721v1 cs.SD, cs.AI, eess.AS, 68T50, 68T10, 94A12, I.2.7; H.3.3; C.2.2
Авторы:

Sha Zhao, Song Yi, Yangxuan Zhou, Jiadong Pan, Jiquan Wang, Jie Xia, Shijian Li, Shurong Dong, Gang Pan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Изучение эмоций и их связи с музыкой представляет собой важный аспект в области affective computing и нейротехнологий. Музыка известна как мощный стимул для индукции эмоций, и её применение в комбинации с техниками Brain-computer Interface (BCI) открывает новые возможности для оценки и регуляции эмоционального состояния. Однако существующие исследования сталкиваются с тремя ключевыми проблемами. Во-первых, **ограничения в выборе стимулов**: традиционные музыкальные корпусы ограничены по размеру из-за проблем с авторскими правами и высокими затратами на кураторство. Это приводит к субъективности выбора музыки, основанной на грубой корреляции между эмоциями и музыкальными характеристиками, которая не учитывает индивидуальные эмоциональные профили. Во-вторых, **ограниченность модальности данных**: многие исследования основываются на унимодальных данных, таких как электроэнцефалография (EEG), что ограничивает понимание эмоциональных процессов, так как игнорируются дополнительные данные из других модальностей, таких как функциональная оптическая томография (fNIRS). В-третьих, **ограниченность портативности**: традиционные системы, такие как штатные гелевые EEG-капы с большим числом каналов, тяжелые и неудобные для повседневного использования, что создает значительные препятствия для реального применения. Для решения этих проблем, исследование предлагает MEEtBrain – инновационный портативный мультимодальный фреймворк, который комбинирует музыку, сгенерированную с помощью искусственного интеллекта (AI), с одновременной записью EEG и fNIRS с помощью лёгкого беспроводного головного устройства, оснащенного сухой электродой. ## ПРЕДЛОЖЕННЫЙ МЕТОД MEEtBrain представляет собой комплексное решение для анализа эмоций (валентность/возбудимость) с помощью мультимодальных нейрофизиологических сигналов. Основными компонентами фреймворка являются: 1. **AI-генерированные музыкальные стимулы**: Искусственный интеллект генерирует музыку в реальном времени, обеспеченную разнообразием и устраняющую субъективность выбора стимулов. 2. **Портативное устройство**: Головное устройство в виде лёгкого беспроводного бандана, оснащенного сухой электродой, позволяет одновременно записывать EEG и fNIRS. Это обеспечивает высокую портативность и комфорт для пользователя. 3. **Мультимодальный анализ**: Данные EEG и fNIRS синхронизированы, что позволяет получать более глубокие и точные инсайты в эмоциональные реакции на музыку. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности фреймворка было проведено исследование с 20 участниками, в ходе которого была собрана 14-часовая база данных. Участники слушали музыку, сгенерированную AI, при этом регистрировались их эмоциональные реакции через EEG и fNIRS. Результаты показали, что AI-генерированная музыка эффективно индуцирует целевые эмоции (валентность/возбудимость). В настоящее время исследование продолжается, и база данных расширена до 44 участников. Данные будут доступны в открытом доступе для дальнейшего исследования и применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ MEEtBrain имеет широкое применение в областях психотерапии, управления стрессом, и взаимодействия человека с искусственным интеллектом. Портативность и мультимодальность делают его применимым в реальных условиях, в том числе в домашних условиях и вне клинических помещений. Открытый доступ к данным позволяет разработчикам и исследователям продолжать работу над улучшением алгоритмов и приложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ MEEtBrain успешно решает проблемы субъективности выбора музыки, ограниченности модальности данных и непортативности существующих систем. Будущие исследования могут фокусироваться на улучшении точности анализа эмоций, расширении базы данных и интеграции дополнительных модальностей, таких как движения и голосовые сигналы. Такой подход может привести к созданию более эффективных систем для мониторинга и регуляции эмоционального состояния в реальном времени.
Annotation:
Emotions critically influence mental health, driving interest in music-based affective computing via neurophysiological signals with Brain-computer Interface techniques. While prior studies leverage music's accessibility for emotion induction, three key limitations persist: \textbf{(1) Stimulus Constraints}: Music stimuli are confined to small corpora due to copyright and curation costs, with selection biases from heuristic emotion-music mappings that ignore individual affective profiles. \textb...
ID: 2508.04723v1 cs.SD, cs.AI, eess.AS
Авторы:

Katharina Hoedt, Arthur Flexer, Gerhard Widmer

Модели глубокого обучения часто страдают от нестабильности — они не всегда обеспечивают согласованные выводы при мелких изменениях входных данных. Эта нерешительность часто связана с зависимостью от спурывых корреляций. В статье "Are Inherently Interpretable Models More Robust? A Study In Music Emotion Recognition" авторы рассматривают возможность улучшения устойчивости моделей путем интеграции принципов интерпретируемости. Они сравнивают робастность интерпретируемой модели MER с блэк-бокс-альтернативой и моделью, натренированной с использованием адверсарного обучения. Исследование показало, что интерпретируемые модели не только демонстрируют более высокую устойчивость к адверсарным примерам, но и экономят ресурсы в процессе. Эти результаты подтверждают потенциал интерпретируемых моделей в повышении устойчивости и эффективности в задачах музыкального распознавания эмоций.
Annotation:
One of the desired key properties of deep learning models is the ability to generalise to unseen samples. When provided with new samples that are (perceptually) similar to one or more training samples, deep learning models are expected to produce correspondingly similar outputs. Models that succeed in predicting similar outputs for similar inputs are often called robust. Deep learning models, on the other hand, have been shown to be highly vulnerable to minor (adversarial) perturbations of the i...
ID: 2508.03780v1 cs.SD, cs.AI, eess.AS
Авторы:

Tianxin Xie, Shan Yang, Chenxing Li, Dong Yu, Li Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА За последние годы технологии Text-to-Speech (TTS) достигли значительных успехов, однако большинство современных систем TTS ограничены в контроле эмоционального тона голоса. Традиционно, эмоции контролируются при помощи дискретных лейблов или специально сконструированных текстовых подсказок, что делает тонкую манипуляцию эмоциями недоступной или нестабильной. Также, эти модели требуют обширных, высококачественных наборов данных для обучения, что создает дополнительные трудности. Эта проблема особенно актуальна для приложений, требующих тонкой эмоциональной настройки речи, таких как виртуальные помощники, системы досуга и образования. Нехватка возможности непрерывного и тонкого контроля эмоционального тона ограничивает возможности этих систем в создании более естественного и привлекательного взаимодействия с пользователями. Кроме того, необходимость в обучении на больших данных увеличивает временные и вычислительные затраты, что делает разработку таких систем менее доступной. В этой статье авторы предлагают решение для достижения непрерывного и тонкого контроля эмоционального тона синтезированной речи без необходимости дополнительного обучения. Это открывает новые возможности для применения TTS в различных областях, где эмоциональное выражение играет ключевую роль. ## ПРЕДЛОЖЕННЫЙ МЕТОД Aвторы представляют EmoSteer-TTS, инновационный подход к тонкому контролю эмоционального тона речи, основанный на концепции Activation Steering. Основная идея заключается в том, что модификация подмножества внутренних активаций в модели TTS, основанной на flow matching, позволяет эффективно изменять эмоциональный тон синтезированной речи. Метод состоит из трех ключевых этапов: активационное извлечение, поиск эмоциональных токенов и настройка во время вывода. Активационное извлечение подразумевает выделение ключевых внутренних представлений модели, которые влияют на эмоциональный тон. Далее, эмоциональные токены идентифицируются и настраиваются для достижения желаемой эмоции. Наконец, во время вывода производится тонкая настройка этих активаций для достижения нужного эмоционального эффекта без необходимости переобучения модели. EmoSteer-TTS может быть легко интегрирован в различные предобученные модели TTS, такие как F5-TTS, CosyVoice2, и E2-TTS, что делает его высоко вертикально используемым. Для получения эффективных векторов направления авторы также создали специальный набор данных с разнообразными эмоциональными выражениями разных говорящих, что позволяет достичь высокого уровня контроля и точности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности EmoSteer-TTS авторы провели ряд экспериментов, используя разнообразные данные и модели. Они использовали датасеты с различными эмоциональными тонами речи, включая радость, грусть, ярость и нейтральное состояние. Эксперименты демонстрируют, что EmoSteer-TTS позволяет достичь непрерывного и тонкого контроля эмоций в речи, превосходящего состояние искусствующих методов (SOTA). В частности, эксперименты показали, что модификация активаций позволяет не только конвертировать эмоции, но и интерполировать их, а также удалять эмоциональный тон, создавая более гибкий инструмент для манипуляции эмоциями в речи. Результаты показали, что подход EmoSteer-TTS не только эффективен, но и интерпретируемый, позволяя пользователям точно регулировать эмоциональные выражения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ EmoSteer-TTS имеет широкий круг применений в различных областях, где эмоциональное выражение голоса играет важную роль. Например, в виртуальных помощниках этот метод может улучшить взаимодействие с пользователями, создавая более естественные и эмоционально выразительные ответы. В области образования и досуга EmoSteer-TTS может быть использован для создания более захватывающих и персонализированных опытов. Одним из ключевых преимуществ этого метода является его простота и эффективность. Он не требует дополнительного обучения, что существенно сокращает временные и вычислительные затраты. Кроме того, EmoSteer-TTS может быть интегрирован в существующие системы TTS без каких-либо модификаций, что делает его высоко доступным для разработчиков и исследователей. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ EmoSteer-TTS является первым методом, который достигает непрерывного и тонкого контроля эмоционального тона в речи без необходимости дополнительного обучения. Это открывает новые возможности для применения TTS в различных областях, где эмоциональное выражение играет ключевую роль. В будущем, авторы планируют расширить этот подход для включения более широкого спектра эмоций и улучшить его совместимость с различными моделями TTS. Также, они планируют исследовать возможности использования этого метода в реальном времени для создания более динамичных и адаптивных систем TTS.
Annotation:
Text-to-speech (TTS) has shown great progress in recent years. However, most existing TTS systems offer only coarse and rigid emotion control, typically via discrete emotion labels or a carefully crafted and detailed emotional text prompt, making fine-grained emotion manipulation either inaccessible or unstable. These models also require extensive, high-quality datasets for training. To address these limitations, we propose EmoSteer-TTS, a novel training-free approach, to achieve fine-grained sp...
ID: 2508.03543v2 cs.SD, cs.AI, eess.AS
Авторы:

Huan Liao, Qinke Ni, Yuancheng Wang, Yiheng Lu, Haoyue Zhan, Pengyuan Xie, Qiang Zhang, Zhizheng Wu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Паралингвистические вокализации, такие как смех, вздох, интерьекции типа "ум" или "о", являются важной частью естественной устной коммуникации. Они передают эмоции, намерения и социальные сигналы, которые невозможно выразить только с помощью лексического контекста. Однако традиционные системы автоматического распознования речи (ASR) и системы текст-в-голос (TTS) обычно игнорируют эти аспекты, сосредоточиваясь исключительно на лексическом контенте. Это приводит к недостатку выразительности и натуральности в синтезированной речи, что особенно заметно в многомодальных системах коммуникации. Несмотря на прогресс в области ASR и TTS, отсутствие интегрированных решений для распознавания и синтеза паралингвистических элементов остается ключевой проблемой. Многие существующие модели не способны эффективно обрабатывать невербальные звуки или управлять ими в процессе синтеза. Это ограничивает возможности создания высококачественных систем, способных моделировать человеческую речь во всей ее сложности. Мотивация данного исследования заключается в том, чтобы предложить комплексное решение, которое бы объединило распознавание и синтез паралингвистических вокализаций в единый рабочий процесс. Такой подход должен быть масштабируемым, контролируемым и применимым к разным языкам, в том числе к китайскому, где специфика языковой модели требует особого внимания к невербальным элементам речи. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют NVSpeech – интегрированную и масштабируемую пайплайн для моделирования паралингвистических вокализаций. Этот подход включает три основных компонента: создание датасетов, моделирование ASR и контролируемый TTS. В первую очередь, был разработан набор данных из 48 430 ручно аннотированных утверждений с 18 категориями паралингвистических отметок на уровне слов. Этот датасет позволяет обучить модели распознавать и аннотировать паралингвистические элементы. Далее, разработана паралингвистически-ориентированная моделя ASR, которая включает паралингвистические отметок в процесс распознавания. Например, речь "You're so funny [Laughter]" будет распознана как сочетание лексических и невербальных элементов. Эта модель была использована для автоматического аннотирования большого набора данных из 174 179 утверждений (573 часа речи), полученных из китайского корпуса. Наконец, была проведена файнтюнинг TTS моделей на данных, полученных вручную и автоматически, что позволяет контролировать паралингвистические элементы в процессе синтеза речи. Эта функция позволяет вставлять паралингвистические элементы в любой момент речи, обеспечивая более естественную и выразительную модель речи. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проведены на китайском датасете, который включает в себя 573 часа речи с паралингвистическими аннотациями. Результаты показывают, что предложенная модель ASR достигает высокой точности в распознавании как лексических, так и невербальных элементов речи. TTS модель, обученная на этом датасете, показала высокую точность в воспроизведении паралингвистических вокализаций. Особенно заметно было улучшение выразительности синтезированной речи, когда паралингвистические элементы были вставлены в контексте. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ NVSpeech предлагает практические преимущества в областях, требующих высококачественной выразительной речи, таких как виртуальные помощники, электронные обучающие системы и мультимодальные системы коммуникации. Его способность контролировать паралингвистические элементы позволяет создавать более натуральную и адаптивную речь, что может улучшить взаимодействие между человеком и машиной. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ NVSpeech является первым открытым и масштабируемым решением для моделирования паралингвистических вокализаций в китайском языке. Он объединяет распознавание и синтез в единый процесс, что открывает пути для дальнейших исследований в области выразительной речи. Будущие исследования могут сосредоточиться на расширении датасетов, улучшении точности моделей и применении этого подхода к другим языкам и культурным контекстам.
Annotation:
Paralinguistic vocalizations-including non-verbal sounds like laughter and breathing, as well as lexicalized interjections such as "uhm" and "oh"-are integral to natural spoken communication. Despite their importance in conveying affect, intent, and interactional cues, such cues remain largely overlooked in conventional automatic speech recognition (ASR) and text-to-speech (TTS) systems. We present NVSpeech, an integrated and scalable pipeline that bridges the recognition and synthesis of parali...
ID: 2508.04195v1 cs.SD, cs.AI, cs.LG
Авторы:

Huaicheng Zhang, Wei Tan, Guangzheng Li, Yixuan Zhang, Hangting Chen, Shun Lei, Chenyu Yang, Zhiyong Wu, Shuai Wang, Qijun Huang, Dong Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА В настоящее время AI-driven lyric-to-song generation представляет собой одну из наиболее перспективных областей в музыкальном генеративном искусстве. На основе аудио-ориентированных генеративных языковых моделей (Generative Audio-based Language Models, GALMs), эти системы способны превращать тексты песен в полноценные музыкальные композиции. Однако, несмотря на значительные успехи в этой области, существует серьезная проблема, связанная с content hallucination. Это явление заключается в том, что модели часто генерируют выходные данные, которые не соотносятся с входными текстами песен, что приводит к потере смысловой согласованности и нарушению музыкальной когеренции. Традиционные подходы к решению этой проблемы, такие как supervised fine-tuning (SFT), оказываются ограниченными в своей эффективности. Они заключаются в пассивном подстройке модели под заранее определенные ярлыки, что не позволяет модели самостоятельно улучшаться и активно решать проблемы с Hallucination. Таким образом, требуется более динамичный и адаптивный метод, который бы мог не только минимизировать несоответствие между текстом и музыкой, но и повысить общую качественную согласованность генерируемых композиций. Решение этой проблемы требует разработки новых методологий, которые могли бы обеспечить более высокую точность и соответствие генерируемых музыкальных треков оригинальным текстам. Здесь важным аспектом является не только уменьшение ошибок в контексте текста, но также сохранение музыкальной качественности и эстетического выразительного потенциала композиции. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы content hallucination, авторы предлагают инновационный reinforcement learning (RL) framework, основанный на preference optimization. Основная идея заключается в том, чтобы использовать reinforcement learning для улучшения выравнивания между текстом и генерируемым музыкальным контентом. Ключевым элементом этого подхода является разработка robust hallucination preference dataset. Этот набор данных строится на основе phoneme error rate (PER) и rule-based filtering, что позволяет лучше захватить ожидания человека относительно качества и соответствия текста. PER служит ключевым показателем для измерения несоответствия между входным текстом и генерируемым аудио. В рамках RL-framework предлагаются три различных preference optimization стратегии: 1. **Direct Preference Optimization (DPO)**: Этот подход работает в off-policy режиме и направлен на увеличение вероятности положительных токенов, что приводит к существенному снижению PER на 7.4%. 2. **Proximal Policy Optimization (PPO)**: Этот метод использует on-policy подход, где модель обучается с помощью PER-based reward model. Этот подход стремится максимизировать награду и регуляризировать модель с помощью KL-divergence, что приводит к снижению PER на 4.9%. 3. **Group Relative Policy Optimization (GRPO)**: Этот подход также основан на on-policy методах и использует групповую оптимизацию, что позволяет достичь PER снижения на 4.7%. Общая архитектура RL-framework включает в себя не только обучение на основе PER, но также регуляризацию для поддержания музыкального качества, что является важной составляющей для поддержания гармонии и когерентности генерируемых композиций. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода были проведены объективные и субъективные эксперименты. Объективные эксперименты включали измерение PER для оценки уровня hallucination в генерируемых музыкальных треках. Результаты показали, что DPO достигает наибольшего снижения PER (7.4%), в то время как PPO и GRPO также демонстрируют значительные улучшения (4.9% и 4.7% соответственно). Субъективные оценки, проведенные с помощью панели экспертов, подтвердили, что предложенные методы не только эффективны в снижении hallucination, но также сохраняют высокое качество музыкальных композиций. Это подтверждает, что предложенный RL-framework не только эффективен в контроле Hallucination, но также поддерживает высокий уровень музыкальной качественности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкий спектр практических применений в области генеративного музыкального искусства. Он может быть использован для создания более точных и когерентных музыкальных композиций, основанных на текстах песен. Этот подход также может быть применен для улучшения стилевой привязки и музыкальной выразительности генерируемых треков. Кроме того, данный фреймворк может быть интегрирован в различные музыкальные приложения и платформы, что позволит создавать более качественные и личностно-ориентированные музыкальные продукты. Это открывает новые возможности для исследования и развития музыкальных генеративных моделей, особенно в контексте улучшения качества и соответствия текстам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Предложенный RL-based framework является важной отправной точкой для решения проблемы content hallucination в AI-driven lyric-to-song generation. Он не только эффективен в снижении ошибок, но также поддерживает высокое качество музыкальных композиций. В будущем, этот подход может быть расширен для улучшения музыкальной стилевой привязки и дальнейшего повышения качества генерируемых композиций. Также, можно исследовать возможности интеграции этого метода с другими генеративными моделями для создания более сложных и совершенных музыкальных продуктов. Открываются также перспективы для исследования адаптивности данного подхода к различным жанрам и стилям музыки, что может привести к новым открытиям в области музыкального генеративного искусства.
Annotation:
Recent advances in audio-based generative language models have accelerated AI-driven lyric-to-song generation. However, these models frequently suffer from content hallucination, producing outputs misaligned with the input lyrics and undermining musical coherence. Current supervised fine-tuning (SFT) approaches, limited by passive label-fitting, exhibit constrained self-improvement and poor hallucination mitigation. To address this core challenge, we propose a novel reinforcement learning (RL) f...
ID: 2508.05011v1 cs.SD, cs.AI, eess.AS
Авторы:

Yunpeng Li, Kehang Han, Brian McWilliams, Zalan Borsos, Marco Tagliasacchi

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие технологий кодирования и сжатия звука является ключевым для эффективной передачи, хранения и воспроизведения аудиоконтента. Существующие методы, такие как традиционные кодеки, хорошо справляются со сжатием низкочастотных монофонических аудиоданных, однако сталкиваются с значительными ограничениями при работе с высококачественным полнополосным стерео-звуком. Требования к качеству воспроизведения, особенно в областях стереофонической музыки и мультиканального аудио, постоянно растут, что создает потребность в более продвинутых решениях. Одной из основных проблем является необходимость достижения высокого качества воспроизведения при ограниченном битрейте, особенно при кодировании мультиканального звука, где необходимо сохранять как высокую тональность каждого канала, так и консистентность фазовой связности между каналами. SpectroStream предлагается как решение для этих проблем. Он расширяет возможности существующих кодеков, таких как SoundStream, предлагая поддержку высоких частот (до 48 kHz) и многоканального аудио, с целью предоставления качественного воспроизведения в условиях ограниченного битрейта. ## ПРЕДЛОЖЕННЫЙ МЕТОД SpectroStream использует нейронную архитектуру, опирающуюся на представление звука во временно-частотной области, что позволяет достичь значительно более высокого качества воспроизведения при работе с высокими частотами дискретизации. Основной новшеством является использование так называемой delayed-fusion стратегии, которая позволяет обрабатывать многоканальный звук. Эта стратегия работает путем отложенного объединения каналов на разных этапах обработки, что позволяет балансировать качество воспроизведения каждого канала и обеспечивать консистентность фазы между ними. Архитектура SpectroStream состоит из нескольких компонентов, включая модуль кодирования временно-частотных представлений, модуль сжатия и декодирования, а также модуль для обработки многоканального звука. Нейронная сеть обучается на данных с высоким битрейтом, что позволяет достичь высокого качества реконструкции при низких битрейтах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов, чтобы оценить качество SpectroStream по сравнению с другими кодеками. Использовались наборы данных, состоящие из высококачественного стерео-звука с частотой дискретизации 48 kHz. Результаты показали, что SpectroStream достигает высокого качества реконструкции, приближающегося к качеству несжатого аудио, при битрейтах от 4 до 16 kbps. В качестве основных метрик качества были использованы Mean Opinion Score (MOS) и другие субъективные метрики. SpectroStream показал значительно лучшие результаты по сравнению с другими нейронными кодеками, особенно при кодировании мультиканального звука. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SpectroStream имеет широкий спектр применений в различных областях, где высококачественная передача и хранение мультиканального аудио имеют решающее значение. Это может быть применено в стриминговых сервисах, виртуальной и дополненной реальности, телекоммуникационных системах и многих других областях. Преимущества SpectroStream включают в себя высокое качество воспроизведения при низких битрейтах, эффективное кодирование многоканального звука, а также возможность работы с высокими частотами дискретизации. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SpectroStream представляет собой значительный шаг вперед в области нейронных кодеков для аудио. Он обеспечивает высокое качество воспроизведения для полнополосного стерео-звука при ограниченных битрейтах, что делает его пригодным для многих практических приложений. В будущем, авторы предлагают расширить модель для поддержки более высоких частот дискретизации и более сложных многоканальных конфигураций. Также представляется интересным исследовать возможность применения других нейронных архитектур и методов оптимизации для дальнейшего улучшения качества.
Annotation:
We propose SpectroStream, a full-band multi-channel neural audio codec. Successor to the well-established SoundStream, SpectroStream extends its capability beyond 24 kHz monophonic audio and enables high-quality reconstruction of 48 kHz stereo music at bit rates of 4--16 kbps. This is accomplished with a new neural architecture that leverages audio representation in the time-frequency domain, which leads to better audio quality especially at higher sample rate. The model also uses a delayed-fusi...
ID: 2508.05207v1 cs.SD, cs.AI, eess.AS
Показано 261 - 270 из 274 записей