📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Boxuan Cao, Linkai Li, Hanlin Yu, Changgeng Mo, Haoshuai Zhou, Shan Xiang Wang

## Контекст Оценка человеческого звукового понимания (speech intelligibility) является ключевым аспектом в сфере акустики и применения устройств слухового сознания (hearing aids). Особенно важной является эта задача для людей с ограниченной слуховой функцией (hearing-impaired, HI). Несмотря на то, что существуют методы для оценки этого показателя, такие как слуховые тесты или интрузивные методы, такие как HASPI, они часто требуют чистой сигнализации, которая может быть недоступна в реальных условиях. Такая ситуация создает проблему в оценке устройств в реальном мире. Задача этой статьи — разработать неинтрузивный метод оценки звукового понимания, используя мощь нескольких разных техник улучшения звука (speech enhancers). ## Метод Разработанная методология основывается на использовании нескольких существующих моделей улучшения звука для создания "улучшенного" сигнала. Затем, эти улучшенные сигналы используются для предсказания интеллигентности речи (intelligibility prediction). Мы исследовали три разных модели улучшения звука и проанализировали, как их различные архитектуры влияют на точность предсказаний. Для улучшения устойчивости к неизвестным данным (cross-dataset generalization), мы предложили стратегию 2-clips augmentation, которая добавляет различность на уровне пользователей. Эта стратегия позволяет модели улучшать свою наглядность при оценке звука на новых данных. ## Результаты Мы провели эксперименты на нескольких наборах данных с разными условиями звука и сложностью. Наши результаты показали, что выбор спецификаций улучшения звука (enhancer) имеет существенное влияние на качество предсказаний. Мы также обнаружили, что сочетание нескольких эффективных моделей улучшения звука (ensembles) приводит к существенному повышению точности. Метод, использующий 2-clips augmentation, показал существенное улучшение в устойчивости к неизвестным данным в сравнении с базовыми моделями, такими как CPC2 Champion. ## Значимость Мы увидели, что наш метод может иметь широкое применение в оценке слуховых устройств в реальных условиях. Наша модель показала лучшие результаты в сравнении с другими неинтрузивными методами. Он может помочь улучшить наше понимание, как работают слуховые устройства в реальном мире, а также помочь в создании более эффективных тестов и моделей в будущем. ## Выводы Мы доказали, что использование нескольких моделей улучшения звука может значительно повысить эффективность неинтрузивных методов оценки интеллигентности речи. Наша работа открывает путь к более точным и реалистичным оценкам слухового понимания в реальных условиях. Будущие исследования будут фокусироваться на дополнительном улучшении устойчивости
Annotation:
Speech intelligibility evaluation for hearing-impaired (HI) listeners is essential for assessing hearing aid performance, traditionally relying on listening tests or intrusive methods like HASPI. However, these methods require clean reference signals, which are often unavailable in real-world conditions, creating a gap between lab-based and real-world assessments. To address this, we propose a non-intrusive intelligibility prediction framework that leverages speech enhancers to provide a paralle...
ID: 2509.16979v1 cs.SD, cs.AI, eess.AS
Авторы:

Gang Yang, Yue Lei, Wenxin Tai, Jin Wu, Jia Chen, Ting Zhong, Fan Zhou

#### Контекст Современные системы обработки речи чрезвычайно важны для различных приложений, включая распознавание речи, перевод и улучшение речи. Однако существуют серьезные проблемы, связанные с низкой эффективностью и высокой затратой ресурсов при обработке речи в реальном времени. Одна из основных проблем заключается в том, что многие существующие методы требуют многократного вычисления для достижения качественного результата. Это приводит к высоким затратам на вычисления и неэффективности в реальном времени. Необходимо разработать более эффективные алгоритмы, которые обеспечивают высокое качество улучшения речи с меньшими затратами на вычисления. #### Метод Мы предлагаем **COSE (Compose Yourself: Average-Velocity Flow Matching for One-Step Speech Enhancement)**, новый метод для одношаговой обработки речи. Метод основан на **алгоритме Флоу (Flow)**, но вместо традиционных методов, основанных на многошаговых вычислениях, мы предлагаем использовать **скоростные поля средней скорости**. Это позволяет эффективно преобразовывать исходные звуковые сигналы в целевые сигналы за один шаг. Также мы ввели **композиционную идентитеть скорости**, которая упрощает вычисления и уменьшает накладные расходы. Это позволяет методу работать быстрее и эффективнее, сохраняя теоретическую корректность и качество звука. #### Результаты Мы проверили COSE на стандартных бенчмарках для обработки речи. Эксперименты показали, что COSE достигает результатов, которые в 5 раз быстрее, чем существующие методы, при этом уменьшая затраты на обучение в 40%. Мы также проверили качество улучшения речи и показали, что COSE не отстает от конкурентов в этом плане. Наши результаты подтверждают, что COSE является эффективным и пра prактичным алгоритмом для одношаговой обработки речи. #### Значимость COSE может быть применен в различных сферах, включая распознавание речи, генерацию речи и улучшение речи в реальном времени. Он обеспечивает значительное улучшение производительности за счет уменьшения затрат на вычисления и ускорения обработки. Основное преимущество COSE заключается в том, что он позволяет достичь высокого качества речи с меньшими затратами на ресурсы. Это может быть ответственно за будущие развития в области интеллектуальных систем обработки речи. #### Выводы Мы представили COSE, новый одношаговый метод для обработки речи, который эффективно решает проблему высоких затрат на вычисления. Наши эксперименты показали, что COSE достигает высоких результатов качества с меньшими расходами на ресурсы. В дальнейшем мы планируем расширить применение COSE на другие сферы и улучшить его алгоритм, чтобы достичь еще более высокого качества и эффективности.
Annotation:
Diffusion and flow matching (FM) models have achieved remarkable progress in speech enhancement (SE), yet their dependence on multi-step generation is computationally expensive and vulnerable to discretization errors. Recent advances in one-step generative modeling, particularly MeanFlow, provide a promising alternative by reformulating dynamics through average velocity fields. In this work, we present COSE, a one-step FM framework tailored for SE. To address the high training overhead of Jacobi...
ID: 2509.15952v1 cs.SD, cs.AI, cs.LG, eess.AS
Авторы:

Stelios Katsis, Vassilis Lyberatos, Spyridon Kantarelis, Edmund Dervakos, Giorgos Stamou

#### Контекст Область исследования, связанная с эмоциональным воздействием аудио-эффектов (FX, таких как реверберация, дисторшн, модуляция и динамический диапазон), широко рассматривается в кино, музыке и интерактивных системах. Несмотря на эту активность, остается существенное недоумение о том, как именно эти эффекты влияют на чувства слушателя и какие звуковые характеристики служат их источником. Эта проблема становится все более актуальной в контексте развития глубокого обучения и фондациональных моделей, которые могут обрабатывать разнообразные мультимодальные данные. Имея в виду потенциал фондациональных моделей для раскрытия эмоциональных характеристик музыки, это исследование нацелено на изучение их воздействия на чувства слушателя и развитие понимания этих процессов. #### Метод Для изучения вопросов, связанных с эмоциональным воздействием аудио-эффектов, были использованы фондациональные модели, обученные мультимодальными данными, такие как audioLM и audioLM-large. Эти модели были применены к эмбеддингам, полученным из звуковых эффектов, чтобы извлечь их представления. Затем, используя методы пробирования эмбеддингов, было проанализировано, как эффекты влияют на эмоциональные характеристики. Для сравнения использовались стандартные модели, такие как SPL, и анализы статистических моделей для оценки роли каждого эффекта. #### Результаты Эксперименты показали, что аудио-эффекты, такие как реверберация и дисторшн, могут существенно изменять эмоциональную окраску музыки. Например, реверберация способствует созданию более глубоких и атмосферных эмоций, в то время как дисторшн делает запись более живой и рваной. Использование фондациональных моделей позволило выявить тонкие различии в эмоциональном воздействии, которые были бы недоступны с помощью стандартных методов. Также были получены результаты, показавшие, что фондациональные модели могут лучше определять эмоциональные тенденции, чем более простые модели. #### Значимость Выявленные результаты имеют значительное значение для музыкальной продукции, композиции и восприятия. Например, исследование может помочь музыкантам и продюсерам понять, как изменение аудио-эффектов влияет на чувства слушателя. Кроме того, результаты могут быть применены в области эмоционального компьютинга, где требуется понимание воздействия звука на чувства. Это также может привести к развитию новых технологий для интерактивных систем, таких как реалистичные музыкальные игры или системы с аудио-реактивным интерфейсом. #### В
Annotation:
Audio effects (FX) such as reverberation, distortion, modulation, and dynamic range processing play a pivotal role in shaping emotional responses during music listening. While prior studies have examined links between low-level audio features and affective perception, the systematic impact of audio FX on emotion remains underexplored. This work investigates how foundation models - large-scale neural architectures pretrained on multimodal data - can be leveraged to analyze these effects. Such mod...
ID: 2509.15151v2 cs.SD, cs.AI
Авторы:

Daniyal Kabir Dar, Qiben Yan, Li Xiao, Arun Ross

## Контекст Авторские звуковые атаки (adversarial audio attacks) представляют собой подрывную угрозу для систем автоматического распознавания речи (ASR) и проверки голоса. Они добавляют незаметные для человека изменения в аудиосигнал, которые значительно влияют на вывод системы. Хотя исследования сосредоточены на атаках на классификацию, работы, изучающие влияние таких атак на понятие голоса (speaker identity), остаются редки. В настоящей работе мы рассматриваем эти атаки с точки зрения фонетических изменений и их влияния на голос. Мы проводим эксперименты с целью изучить, как фонетические раскаивания (phonetic distortions) влияют на голос и на возможность идентификации голоса. ## Метод Мы используем DeepSpeech в качестве целевой ASR-системы для генерации атак. Для генерации атак на голос мы применяем алгоритм FGSM (Fast Gradient Sign Method), который генерирует минимальные изменения в аудиосигнале, направленные на максимизацию ошибки системы. Для анализа фонетических изменений, мы применяем распознавание фонетических слов (phoneme recognition) и изучаем как изменения в фонетическом содержании воздействуют на голос. Наши эксперименты проводятся на данных LibriSpeech, которые содержат фонетически разнообразные фразы. ## Результаты Мы выполняем эксперименты на 16 фонетически различных фразах. Мы обнаруживаем, что атаки DeepSpeech приводят к тому, что голос заменяется на другой, что изменяет голос в позиции целевой фразы. Мы увидели, что целевые фразы становятся нераспознаваемыми, и что это может привести к потере идентичности голоса. Мы также обнаружили, что в результате угрозы фонетические раскаивания приводят к тому, что в системе ASR возникают значительные ошибки распознавания текста. ## Значимость Наши результаты показывают, что атаки звуковых атак могут иметь значительное воздействие на системы распознавания речи и проверки голоса. Мы показываем, что эти атаки могут приводить к ошибкам в текстах, получаемых системой, и к тому, что потеря голоса становится возможной. Эти исследования могут быть использованы для создания более надежных систем проверки голоса, более устойчивых к таким атакам. Наша работа также может быть полезна для создания новых алгоритмов ASR, которые могут детектировать такие атаки. ## Выводы Мы показали, что атаки звуковых сигналов могут приводить к серьёзным изменениям голоса в системе ASR, в том числе к тому, что голос будет заменён интересующим нам сигналом. Эти изменения могут привести к потере голоса и к тому, что система не сможет распознать голос как знакомый. Наши исследования показывают, что в будущем необходимо развить более сильные методы защиты
Annotation:
Adversarial perturbations in speech pose a serious threat to automatic speech recognition (ASR) and speaker verification by introducing subtle waveform modifications that remain imperceptible to humans but can significantly alter system outputs. While targeted attacks on end-to-end ASR models have been widely studied, the phonetic basis of these perturbations and their effect on speaker identity remain underexplored. In this work, we analyze adversarial audio at the phonetic level and show that ...
ID: 2509.15437v1 cs.SD, cs.AI, cs.CR, eess.AS, I.2.0; I.2.7; I.5.4; K.6.5
Авторы:

Xinxin Meng, Jiangtao Guo, Yunxiang Zhang, Shun Huang

## Контекст Аномальный звуковой детектор (abnormal sound detection, ASD) является важной задачей в области звукового мониторинга и анализа. Он применяется для обнаружения неисправностей в машинных системах, а также для мониторинга звукового окружения. Однако существуют значительные вызовы, связанные с нехваткой меток и малоизвестными особенностями аномалий. Большинство существующих подходов ориентированы на обнаружение аномалий в низких частотах, что может ограничивать их точность и общую эффективность. Наша мотивация заключается в том, чтобы развить более устойчивый подход к обнаружению аномалий, используя аугментацию данных на основе частотного пространства. ## Метод Мы предлагаем метод аугментации данных на основе частотного пространства в контрастивном обучении (contrastive learning). Этот метод заключается в том, чтобы увеличить внимание модели к низким частотным компонентам аудио, которые отражают нормальное рабочее режим machine. Мы используем трансформацию частотного пространства для генерирования дополнительных данных, которые выделяют низкие частоты. Эти данные добавляются к исходным данным в процессе обучения модели, чтобы улучшить ее уязвимость к нормальному режиму работы. Метод базируется на методологии outlier exposure, которая используется для обучения модели к распределению нормальных данных. ## Результаты Мы проверили нашу модель на двух датасетах: DCASE 2020 Task 2 и DCASE 2022 Task 2. На DCASE 2020 Task 2 наш метод показал значительное улучшение в отношении существующих методов контрастивного обучения, повысив точность обнаружения аномалий. На DCASE 2022 Task 2 датасете мы также продемонстрировали устойчивость нашего подхода, получив высокие результаты в обнаружении аномалий в новых условиях. Эти результаты подтверждают эффективность нашего метода в обнаружении аномалий, даже в условиях ограниченной доступности меток. ## Значимость Наш подход имеет значительное значение в области аномального звукового детектирования. Он может применяться в техническом мониторинге, здравоохранении, безопасности и других областях, где аномалии могут привести к серьезным последствиям. Наш метод позволяет улучшить точность обнаружения, уменьшая зависимость от меток. Это делает его привлекательным для решения задач, где доступ к метокам ограничен. В будущем мы планируем расширить применение нашего подхода к другим типам аудиоданных и изучить его потенциал в реальном времени. ## Выводы Мы предложили новую методику для обнаружения аномалий, основанную на контрастивном обучении с аугментацией частотного пространства. Этот подход отличается увеличенной чувствительностью
Annotation:
The outlier exposure method is an effective approach to address the unsupervised anomaly sound detection problem. The key focus of this method is how to make the model learn the distribution space of normal data. Based on biological perception and data analysis, it is found that anomalous audio and noise often have higher frequencies. Therefore, we propose a data augmentation method for high-frequency information in contrastive learning. This enables the model to pay more attention to the low-fr...
ID: 2509.15570v1 cs.SD, cs.AI, eess.AS
Авторы:

Qiaolin Wang, Xilin Jiang, Linyang He, Junkai Wu, Nima Mesgarani

#### Контекст Современные audio-language models (LALMs) демонстрируют состояние техники в аудио-уровне, но их возможности в комплексных аудио-сценариях остаются ниже уровня vision-language models (LVLMs). Этот разрыв обусловлен нехваткой больших аудио-учебных данных с цепочкой мышления (chain-of-thought, CoT), необходимых для шагами воспроизведения решения задач. Этому ограничению мы направляемся, предлагая SightSound-R1 — рамочную методику для переноса знаний с помощью cross-modal distillation. #### Метод SightSound-R1 основывается на трех основных этапах: 1. **Тест-time scaling**: Генерация аудио-целенаправленных цепочек мышления (CoT) с помощью LVLM-teacher. 2. **Audio-grounded validation**: Фильтрация нежелательных халлуцинаций в цепочках мышления. 3. **Distillation pipeline**: Реализация двухступенчатого адаптированного обучения — дискриминативного уровня (supervised fine-tuning, SFT) и группового уровня (Group Relative Policy Optimization, GRPO). #### Результаты Проведенные эксперименты показали, что SightSound-R1 улучшает разумование LALM не только на встроенном AVQA-тестовом наборе, но и на более широком спектре звуковых сценариев и вопросов. Оно превосходит другие модели, оперирующие только с меток или базовыми формулами переноса знаний. #### Значимость Метод предлагает гибкое решение для переноса знаний из моделей зрения в модели звука, позволяя улучшить их восприятие сложных сценариев. Это может быть применено в областях, где высокий уровень понимания сложной аудио-информации критичен (например, в аксессуарах, диагностических системах, домашней автоматизации). #### Выводы Результаты подтверждают, что модели звука могут быть эффективно обогащены знаниями доставленными из моделей зрения. Будущие исследования будут сконцентрированы на усовершенствовании структуры GRPO и достижении широкой готовности для практического применения.
Annotation:
While large audio-language models (LALMs) have demonstrated state-of-the-art audio understanding, their reasoning capability in complex soundscapes still falls behind large vision-language models (LVLMs). Compared to the visual domain, one bottleneck is the lack of large-scale chain-of-thought audio data to teach LALM stepwise reasoning. To circumvent this data and modality gap, we present SightSound-R1, a cross-modal distillation framework that transfers advanced reasoning from a stronger LVLM ...
ID: 2509.15661v1 cs.SD, cs.AI, cs.CL, eess.AS
Авторы:

Yongsheng Feng, Yuetonghui Xu, Jiehui Luo, Hongjia Liu, Xiaobing Li, Feng Yu, Wei Li

#### Контекст Source separation является фундаментальной задачей в области обработки речи, музыки и аудио, а также является важной частью подготовки данных для генеративных моделей. Однако повышение производительности разделения в практических задачах часто приводит к необходимости использовать более крупные сети, что увеличивает затраты на обучение и развертывание. В этом контексте эффективность и скорость выполнения моделей являются ключевыми факторами, особенно для низкоскоростных приложений. Мотивированные этими проблемами, авторы предлагают **TISDiSS** — расширенный инструментарий, который объединяет различные подходы для решения проблемы. #### Метод TISDiSS применяет **множественное управление ранним разделением потерь**, **двустороннюю совместимость сеть-параметры** и **динамическую повторяемость вывода**. Это позволяет управлять скоростью и точностью разделения в ходе вывода без необходимости дополнительного обучения. Авторы также проводят исчерпывающий анализ различных архитектур и характеристик тренировочного процесса. Особое внимание уделено динамическому взаимодействию между скоростью и точностью модели в ходе работы. #### Результаты На экспериментальных данных, включая стандартные бенчмарки разделения речи, модель TISDiSS показала состояние техники в отношении точности разделения с меньшим числом параметров. Также было проведено подробное сравнение с другими подходами, в том числе посредством тестирования скорости и эффективности разделения на низкоскоростных приложениях. Данные результаты подтверждают высокую эффективность TISDiSS в решении задач с требованиями к малому латентному времени. #### Значимость Расширенность TISDiSS заключается в её универсальности и применимости к различным задачам разделения аудио. Она позволяет применять модель в различных сценариях, включая низкоскоростные и реальноработающие приложения, благодаря гибкой масштабируемости. Это означает, что модель может быть использована в областях, где необходимо быстро реагировать на аудиосигналы, при этом не теряя в качестве разделения. #### Выводы TISDiSS доказывает свою полезность в области эффективных и масштабируемых подходов к разделению источников. Будущие исследования могут концентрироваться на повышении её многозадачности и добавлении дополнительных модификаций, чтобы улучшить её применение в новых аудио-приложениях. Данный подход может стать ключевым для развития новых технологий в области разделения и обработки звуковых сигналов.
Annotation:
Source separation is a fundamental task in speech, music, and audio processing, and it also provides cleaner and larger data for training generative models. However, improving separation performance in practice often depends on increasingly large networks, inflating training and deployment costs. Motivated by recent advances in inference-time scaling for generative modeling, we propose Training-Time and Inference-Time Scalable Discriminative Source Separation (TISDiSS), a unified framework that ...
ID: 2509.15666v2 cs.SD, cs.AI, eess.AS
Авторы:

Gang Yang, Yue Lei, Wenxin Tai, Jin Wu, Jia Chen, Ting Zhong, Fan Zhou

## Контекст Современные методы синтеза речи, такие как diffusion и flow matching (FM), достигли выдающихся результатов в области улучшения речи (speech enhancement, SE). Однако эти подходы обычно требуют многошагового генерирования, что не только требует высоких ресурсов вычислений, но и подвержено ошибкам дискретизации. В последнее время наблюдается рост интереса к одношаговым моделям генерирования, которые могут обеспечить более эффективное и точное генерирование с меньшими затратами. Одним из таких подходов является MeanFlow, который использует среднюю скорость в качестве динамического поля для генерирования. Тем не менее, существуют проблемы, связанные с вычислительной сложностью расчета Jacobian-vector product (JVP) в MeanFlow. В этой работе мы предлагаем COSE — новую одношаговую модель FM, оптимизированную для SE, которая решает эти проблемы и позволяет достичь высокой эффективности. ## Метод COSE основывается на идее автоматического сложения скоростей вдоль многомерных пространственных полей. В центре модели лежит концепция velocity composition identity, которая позволяет эффективно вычислять среднюю скорость без необходимости вычислять дорогостоящие Jacobian-vector product. Модель COSE реализует одношаговое генерирование речи, используя среднюю скорость в качестве главного динамического управляющего поля. Эта архитектура обеспечивает высокую эффективность вычислений, но при этом сохраняет теоретическую точность и качество звука. ## Результаты Мы провели исследования на различных стандартных бенчмарках для SE. COSE показала скорость генерирования до 5 раз выше по сравнению с традиционными многошаговыми FM-моделями. Это достигнуто без каких-либо потерь в качестве речи. Кроме того, уменьшение затрат на обучение достигло 40%, что делает COSE более экономичной в плане ресурсов. Эксперименты подтверждают, что COSE сохраняет высокое качество речи в то же время, что и традиционные методы, но с значительно более высокой эффективностью. ## Значимость Модель COSE может применяться в различных сферах, где требуется высококачественное улучшение речи, например, в голосовых помощниках, видеоконференциях, медицине и т. д. Особым преимуществом COSE является ее высокая эффективность и компактность, что делает ее подходом выгодным для реализации в реальных системах. Благодаря своей одношаговой природе, COSE также может быть интегрирована с другими моделями генерирования, что повышает потенциал для развития будущих технологий в области синтеза речи. ## Выводы Мы представили COSE — новую одношаговую модель FM, оптимизированную для SE, которая эффективно решает проблемы вычислительной сложности и затрат на обучение. Резу
Annotation:
Diffusion and flow matching (FM) models have achieved remarkable progress in speech enhancement (SE), yet their dependence on multi-step generation is computationally expensive and vulnerable to discretization errors. Recent advances in one-step generative modeling, particularly MeanFlow, provide a promising alternative by reformulating dynamics through average velocity fields. In this work, we present COSE, a one-step FM framework tailored for SE. To address the high training overhead of Jacobi...
ID: 2509.15952v2 cs.SD, cs.AI, cs.LG, eess.AS
Авторы:

Qi Wang, Shituo Ma, Guoxin Yu, Hanyang Peng, Yue Yu

## Контекст Федеративное обучение (FL) предлагает мощный подход для решения задач генерации речи, обеспечивая при этом конфиденциальность данных и эффективное использование ресурсов. Однако в случае текстово-речевой синтеза (TTS) существуют серьёзные проблемы, связанные с высокими затратами на связь и неэффективной обработкой стилистической многообразия. Особенно важной задачей является создание голосовых клонов, которые не только очень точно воспроизводят голос целевого речи, но и сохраняют его индивидуальные стилистические особенности. В настоящей работе мы адресуем эти проблемы, предлагая эффективный подход для FL в области TTS, который минимизирует затраты на связь и улучшает стилистическую многообразие. ## Метод Мы предлагаем Fed-PISA (Federated Personalized Identity-Style Adaptation), который использует дисептентированный подход Low-Rank Adaptation (LoRA) для минимизации затрат на связь и улучшения обработки стилистических особенностей. Для этого введены два отдельных локальных лора-механизма: ID-LoRA, который сохраняет голосовую личность каждого клиента, и Style-LoRA, который описывает стилистические характеристики речи. Только Style-LoRA передаётся на сервер для агрегации, что эффективно обрабатывает стилистическую многообразие. Наш подход также включает в себя метод объединения, основанный на стохастическом фильтровании, который использует стилистические схожести между клиентами для создания личных моделей TTS. ## Результаты Мы проводили эксперименты на данных LibriTTS, оценивая Fed-PISA по метрикам style expressivity, naturalness, и speaker similarity. Наши результаты показывают, что Fed-PISA превосходит стандартные FL-подходы, обеспечивая значительное улучшение этих метрик, в то же время значительно минимизируя затраты на связь. Также мы проводили анализ на стилистической многообразии, показав, что Fed-PISA эффективно учитывает различия в стиле речи между клиентами. ## Значимость Предложенный подход Fed-PISA может быть применён в сфере текстово-речевой синтеза для создания голосовых клонов, которые наиболее точно воспроизводят голос и стиль целевого речи. Он демонстрирует преимущества в минимизации затрат на связь и улучшении стилистического многообразия, что делает его привлекательным для приложений в сфере личных дикторов, личных ассистентов и интерактивных систем. Будущие исследования будут сфокусированы на увеличении эффективности FL в TTS и расширении применения Fed-PISA для других типов речевых данных. ## Выводы Fed-PISA представляет собой эффективный подход к федеративному обучению для TTS, который решает проблемы связанные с высокими затратами на связь и стилистическим многоо
Annotation:
Voice cloning for Text-to-Speech (TTS) aims to generate expressive and personalized speech from text using limited data from a target speaker. Federated Learning (FL) offers a collaborative and privacy-preserving framework for this task, but existing approaches suffer from high communication costs and tend to suppress stylistic heterogeneity, resulting in insufficient personalization. To address these issues, we propose Fed-PISA, which stands for Federated Personalized Identity-Style Adaptation....
ID: 2509.16010v1 cs.SD, cs.AI, eess.AS
Авторы:

Luca Della Libera, Cem Subakan, Mirco Ravanelli

## Контекст Современные генерирующие аудиопротоколы широко используются в различных технологических областях, включая голосовое воспроизведение, умные динамики и синтез речи. Одним из ключевых элементов этих протоколов являются нейронные аудиокодеки, которые обеспечивают эффективную сжатие звуковых сигналов с минимальным ущербом качества. Несмотря на то, что некоторые аудиокодеки предлагают высокое качество воспроизведения и успешно применяются в статических сценариях, большинство из них не подходят для реального времени, так как не поддерживают потоковое кодирование. Это ограничение влечет за собой затруднения в использовании таких кодеков в потоковых голосовых сервисах, устройствах для синтеза речи и других приложениях, требующих чрезвычайно низкой задержки. ## Метод FocalCodec-Stream представляет собой новшество в области потокового аудиокодирования, основанное на фокальной модуляции. Этот кодек сжимает звуковые сигналы в один бинарный код, работая при битрейте от 0.55 до 0.80 кбит/с. Задержка, характерная для FocalCodec-Stream, ограничена 80 мс, что делает его применимым для реального времени. Основой методики является многоэтапное дистилляционное обучение с использованием WavLM. Для повышения качества реконструкции в рамках указанных ограничений позиционировано небольшое модульное рефинера, обеспечивающее баланс между качеством и задержкой. Таким образом, FocalCodec-Stream достигает соотношения между качеством, эффективностью и задержкой, которое отличает его от современных альтернатив. ## Результаты Исследования проводились на наборе данных звуков, включающих различные голоса и акустические условия. Результаты показали, что FocalCodec-Stream превосходит существующие потоковые кодеки в задачах реконструкции голоса и сохранения акцентов, даже при подвисании и небольшой задержке. Общий ряд экспериментов также подтвердил улучшение качества речевых признаков и уменьшение потерь в сигнале, сопоставимое с традиционными кодеками непотокового обеспечения. ## Значимость FocalCodec-Stream открывает новые возможности для развития реального времени в области голосового взаимодействия. Его можно применять в умных гаджетах, голосовых помощниках и видеоконференцсервисах, где низкая задержка критична. Преимуществоми является высокая эффективность в режиме потока, возможность применения в реальном времени, а также улучшение качества реконструкции. Этот подход может вести к развитию новых технологий в сфере звукового анализа, помочь в создании улучшенных методов управления голосовыми динамиками и в концепции "умных городов", где звуковые д
Annotation:
Neural audio codecs are a fundamental component of modern generative audio pipelines. Although recent codecs achieve strong low-bitrate reconstruction and provide powerful representations for downstream tasks, most are non-streamable, limiting their use in real-time applications. We present FocalCodec-Stream, a hybrid codec based on focal modulation that compresses speech into a single binary codebook at 0.55 - 0.80 kbps with a theoretical latency of 80 ms. Our approach combines multi-stage caus...
ID: 2509.16195v1 cs.SD, cs.AI, cs.LG, eess.AS
Показано 151 - 160 из 274 записей