📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Nikolai Lund Kühne, Jesper Jensen, Jan Østergaard, Zheng-Hua Tan
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Recent advances in speech enhancement have shown that models combining Mamba
and attention mechanisms yield superior cross-corpus generalization
performance. At the same time, integrating Mamba in a U-Net structure has
yielded state-of-the-art enhancement performance, while reducing both model
size and computational complexity. Inspired by these insights, we propose
RWSA-MambaUNet, a novel and efficient hybrid model combining Mamba and
multi-head attention in a U-Net structure for improved cross...
Авторы:
Edmund Dervakos, Spyridon Kantarelis, Vassilis Lyberatos, Jason Liartis, Giorgos Stamou
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Music performance is a distinctly human activity, intrinsically linked to the
performer's ability to convey, evoke, or express emotion. Machines cannot
perform music in the human sense; they can produce, reproduce, execute, or
synthesize music, but they lack the capacity for affective or emotional
experience. As such, music performance is an ideal candidate through which to
explore aspects of collaboration between humans and machines. In this paper, we
introduce the witheFlow system, designed to...
📄 Scattering Transformer: A Training-Free Transformer Architecture for Heart Murmur Detection
2025-09-25Авторы:
Rami Zewail
#### Контекст
Автоматизация измерения сердечных звуков, таких как сердечные мурлы, является ключевым направлением в современной медицине. Несмотря на развитие глубокого обучения, эта область сталкивается с рядом проблем, в том числе ограниченным количеством тренировочных данных и высокими требованиями к вычислительной мощности современных моделей. Данные проблемы ограничивают применение глубокого обучения в условиях ресурсосложных сред, таких как районы с недостатком квалифицированных клинических работников.
#### Метод
Для решения этой проблемы предложена новая архитектура Scattering Transformer, основанная на стандартных цепочках волнового сказывания. Модель использует контекстные зависимости звуковых фреймов, аналогично трансформеру, но без необходимости обучения с помощью функции потерь. Этот подход позволяет получить модель, требующую минимальных вычислительных ресурсов и освобождающуюся от зависимости от больших объемов данных.
#### Результаты
Выполнены эксперименты на публичном наборе данных CirCor DigiScope. Модель Scattering Transformer показала весовую точность (Weighted Accuracy, WAR) в 0.786 и невесовую среднюю точность (Unweighted Average Recall, UAR) в 0.697. Эти результаты достигаются при минимальном потреблении ресурсов, что делает модель высокоэффективной в условиях нехватки вычислительных мощностей.
#### Значимость
Предложенная модель может быть применена в условиях ресурсосложных систем, таких как сердечная аустуляция в медицинских учреждениях без доступа к высокопроизводительным вычислительным средствам. Она предоставляет высокую точность при очень низком потреблении вычислительных мощностей, что делает ее уникальной в сравнении с традиционными архитектурами.
#### Выводы
Scattering Transformer демонстрирует высокую эффективность в автоматизации диагностики сердечных мурлы, даже при ограниченных вычислительных ресурсах. Будущие исследования будут ориентированы на расширение модели для диагностики других сердечных аномалий и улучшение ее общих характеристик.
Annotation:
In an attempt to address the need for skilled clinicians in heart sound
interpretation, recent research efforts on automating cardiac auscultation have
explored deep learning approaches. The majority of these approaches have been
based on supervised learning that is always challenged in occasions where
training data is limited. More recently, there has been a growing interest in
potentials of pre-trained self-supervised audio foundation models for
biomedical end tasks. Despite exhibiting promisi...
Авторы:
Changfeng Gao, Yabin Li, Keyu An, Zhifu Gao, Zhihao Du, Han Zhao, Xiangang Li
## Контекст
Современные технологии звукового обработки, такие как автоматическое распознавание речи (ASR) и тексто- NAO виде речи (TTS), широко используются в различных областях, от смартфонов до систем самообучающегося анализа. Однако надежность этих систем часто ограничивается качеством данных и ограниченными моделями. Большие языковые модели (LLMs) получили много годы широкого применения в области текстовых задач, однако их применение к ASR и TTS остается нерегулярным и требует повышения качества. Реинфорсмент-обучение (RL) доказало свою эффективность в текстовых задачах, но его применение к ASR и TTS остается относительно не изученным. Это связано с тем, что тренировка систем аудио-сигналов требует больших ресурсов и тестовых данных, что затрудняет применение RL в этих областях. Цель данного исследования — разработать легковесный RL-фреймворк для обработки аудиосигналов, который может улучшить ASR и TTS системы, даже при ограниченных ресурсах.
## Метод
Предлагаемый RL-фреймворк основывается на Group Relative Policy Optimization (GRPO) и ориентируется на данные, полученные из аудиосигналов. Метод GRPO основывается на групповом сравнении, что позволяет улучшить точность взаимодействия модели с аудиоданными. Были разработаны разные варианты правил для подачи награды в зависимости от результатов ASR и TTS. Для TTS, была введена Diffrentiable Reward Optimization (DiffRO), которая позволяет настроить награды через градиентное спусковое методирование. Архитектура RL-фреймворка включает в себя нейронные сети, обученные на аудиоданных, где модель взаимодействует с данными, изменяя поведение в зависимости от награды. Эта модель используется как для ASR, так и для TTS, что позволяет исследовать качество речи и генерацию речи в разных условиях.
## Результаты
Исследования проводились на наборах данных ASR и TTS, где были проведены эксперименты с разными наградами в GRPO и DiffRO. Исследование показало, что RL может улучшить качество ASR и TTS, даже при ограниченных ресурсах. В ASR, награда, основанная на правилах, позволила распознавать речь с более высокой точностью, чем без RL. В TTS, гибкость DiffRO позволила значительно улучшить соответствие генерируемого звука исходному тексту. Комбинация GRPO и DiffRO дала лучший результат в объединенных экспериментах, повысив качество и превратившая RL в мощный инструмент для улучшения ASR и TTS.
## Значимость
Результаты данного исследования могут быть применены в различных областях, где требуется эффективное распознавание речи и генерация речи. Это включает в себя системы самообучающегося перевода, синтеза речи в системах помощи и системы распознавания речи в смартфонах. RL позволяет повысить точност
Annotation:
In recent years, large language models (LLMs) have played an important role
in automatic speech recognition (ASR) and text-to-speech (TTS) systems. While
reinforcement learning (RL) has significantly enhanced LLM performance in
text-based tasks, its application to ASR and TTS remains underexplored due to
the complexity of training audio-based models. In this study, we propose a
lightweight RL framework tailored for audio-based LLMs that can process audio
inputs and generate audio outputs. Based ...
Авторы:
Sarthak Yadav, Sergios Theodoridis, Zheng-Hua Tan
#### Контекст
Нейронные сети становятся все более важной частью машинного обучения, особенно для обработки аудиоданных. Одна из задач, которая привлекла внимание, — это обучение от неоркестрованных данных (self-supervised learning), когда модель выучивает семантически значимые представления без использования меток. Маскированное моделирование спектрограмм (masked spectrogram modeling) является одним из таких подходов, где модель предсказывает отсутствующие части аудиоспектрограммы, чтобы получить контекстуемые представления. Этот подход, основанный на трансформерной архитектуре, стал ключевым для создания основных моделей аудио (audio foundation models). Однако недавно возросло интерес к повторному осмыслению последовательностного моделирования посредством состояний состояния состояния (state-space models) и продвинутых вариантах LSTM (например, xLSTM). Настоящая статья стремится предоставить подробный обзор этих тем и разработать основу для сравнения методов.
#### Метод
Мы рассматриваем две основные методологии: моделирование масок спектрограмм и расширенные подходы к последовательному моделированию (например, Mamba и xLSTM). Для сравнения мы используем обучение с маскированной спектрограммой, где некоторые части аудиоданных скрываются, и модель должна их восстановить. Мы применяем обученные модели к 10 различным задачам классификации аудио, при этом оцениваем их качество и рентабельность. Мы также проводим сравнения между трансформером, Mamba и xLSTM, чтобы определить их сильные и слабые стороны.
#### Результаты
Мы провели эксперименты на десяти различных задачах классификации аудио, включая распознавание речи, музыки и звуков окружения. Модели, основанные на трансформерах, показали высокую точность, особенно при работе с большими объемами данных. Однако Mamba и xLSTM показали более эффективность в обработке длинных последовательностей, снизив нагрузку на вычисления. Наши результаты показывают, что Mamba и xLSTM лучше подходят для задач, где нужно обрабатывать длинные аудиопотоки, в то время как трансформеры более эффективны для кратких входных сигналов.
#### Значимость
Наша работа имеет значительное значение для развития обучения с подкреплением без меток в аудиоданных. Мы предоставляем инструментарий для сравнения различных подходов, что позволяет выбрать решение, наиболее подходящее для конкретной задачи. Наши результаты могут быть полезны для разработчиков моделей, которые ищут эффективные способы обработки аудиоданных. Мы также открываем возможности для будущих исследований в области состояния состояния состояния и последовательных моделей для аудиоданных.
#### Выводы
Мы пред
Annotation:
In recent years, self-supervised learning has amassed significant interest
for training deep neural representations without labeled data. One such
self-supervised learning approach is masked spectrogram modeling, where the
objective is to learn semantically rich contextual representations by
predicting removed or hidden portions of the input audio spectrogram. With the
Transformer neural architecture at its core, masked spectrogram modeling has
emerged as the prominent approach for learning gene...
Авторы:
Hyun Jun Kim, Hyeong Yong Choi, Changwon Lim
#################################################
## Контекст
#################################################
В данной работе представлена система AISTAT, разработанная для решения задачи 6 (Language-based audio retrieval) в рамках DCASE 2025. Целью исследования является развитие эффективных методов для поиска аудиофайлов с помощью языковых запросов. Эта проблема играет важную роль в области обработки звука, так как поиск аудио по текстовому описанию широко применяется в сферах, таких как запросы пользователей, управление домашними устройствами и мобильные приложения. Несмотря на прогресс в области компьютерного зрения и машинного обучения, аудио-текстовый поиск остается вызовом из-за сложности извлечения семантических признаков из звуковых сигналов. Существующие решения часто страдают от недостатка точности или универсальности. Таким образом, целью настоящей работы является развитие универсальной системы, обеспечивающей высокую точность и широкую применимость для решения этой задачи.
#################################################
## Метод
#################################################
Разработанная система основывается на двухэнкодерной архитектуре, где аудио и текст обрабатываются независимо друг от друга, а их представления выравниваются с использованием контрастного обучения. За основу архитектуры взята модель Dual Encoder. Для повышения качества их алгоритмы дистилляции использовались для передачи знаний из крупных языковых моделей (LLMs). Затем, для расширения данных использовались техники, такие как back-translation и LLM mix. Для улучшения точности кластеризация реализована в качестве классификационной задачи, которая вводит дополнительную тонкую настройку. Обучение производилось с использованием Clotho development test split. Наилучшая модель (в одиночном варианте) показала mAP@16 равное 46.62, а консенсусный подход из четырех моделей достиг mAP@16 в 48.83.
#################################################
## Результаты
#################################################
Система была оценена на Clotho development test split. Лучшая модель в одиночном варианте показала mAP@16 (mean average precision at 16) в размере 46.62. Консенсусный подход, включавший четыре модели, достиг mAP@16 в размере 48.83. Эти результаты показывают, что система AISTAT выдает высокую точность в предсказании аудиофайлов по текстовым запросам. Также был проведен сравнительный анализ с другими моделями, включая конкурентные решения, что подтвердило преимущества данного подхода в ситуациях, требующих высокой точности поиска звуковых файлов.
#################################################
## Значимость
#################################################
Разработанная система AISTAT может быть применена в разных областях, где требуется автоматическое поисковое решение с помощью текстовых запросов. Например, это могут быть приложения для поиска музыки, управление домашними устройствами при помощи голосовых команд, а также мобильные приложения для поиска аудиоконтента. Система
Annotation:
This report presents the AISTAT team's submission to the language-based audio
retrieval task in DCASE 2025 Task 6. Our proposed system employs dual encoder
architecture, where audio and text modalities are encoded separately, and their
representations are aligned using contrastive learning. Drawing inspiration
from methodologies of the previous year's challenge, we implemented a
distillation approach and leveraged large language models (LLMs) for effective
data augmentation techniques, including...
Авторы:
Boxuan Cao, Linkai Li, Hanlin Yu, Changgeng Mo, Haoshuai Zhou, Shan Xiang Wang
## Контекст
Оценка человеческого звукового понимания (speech intelligibility) является ключевым аспектом в сфере акустики и применения устройств слухового сознания (hearing aids). Особенно важной является эта задача для людей с ограниченной слуховой функцией (hearing-impaired, HI). Несмотря на то, что существуют методы для оценки этого показателя, такие как слуховые тесты или интрузивные методы, такие как HASPI, они часто требуют чистой сигнализации, которая может быть недоступна в реальных условиях. Такая ситуация создает проблему в оценке устройств в реальном мире. Задача этой статьи — разработать неинтрузивный метод оценки звукового понимания, используя мощь нескольких разных техник улучшения звука (speech enhancers).
## Метод
Разработанная методология основывается на использовании нескольких существующих моделей улучшения звука для создания "улучшенного" сигнала. Затем, эти улучшенные сигналы используются для предсказания интеллигентности речи (intelligibility prediction). Мы исследовали три разных модели улучшения звука и проанализировали, как их различные архитектуры влияют на точность предсказаний. Для улучшения устойчивости к неизвестным данным (cross-dataset generalization), мы предложили стратегию 2-clips augmentation, которая добавляет различность на уровне пользователей. Эта стратегия позволяет модели улучшать свою наглядность при оценке звука на новых данных.
## Результаты
Мы провели эксперименты на нескольких наборах данных с разными условиями звука и сложностью. Наши результаты показали, что выбор спецификаций улучшения звука (enhancer) имеет существенное влияние на качество предсказаний. Мы также обнаружили, что сочетание нескольких эффективных моделей улучшения звука (ensembles) приводит к существенному повышению точности. Метод, использующий 2-clips augmentation, показал существенное улучшение в устойчивости к неизвестным данным в сравнении с базовыми моделями, такими как CPC2 Champion.
## Значимость
Мы увидели, что наш метод может иметь широкое применение в оценке слуховых устройств в реальных условиях. Наша модель показала лучшие результаты в сравнении с другими неинтрузивными методами. Он может помочь улучшить наше понимание, как работают слуховые устройства в реальном мире, а также помочь в создании более эффективных тестов и моделей в будущем.
## Выводы
Мы доказали, что использование нескольких моделей улучшения звука может значительно повысить эффективность неинтрузивных методов оценки интеллигентности речи. Наша работа открывает путь к более точным и реалистичным оценкам слухового понимания в реальных условиях. Будущие исследования будут фокусироваться на дополнительном улучшении устойчивости
Annotation:
Speech intelligibility evaluation for hearing-impaired (HI) listeners is
essential for assessing hearing aid performance, traditionally relying on
listening tests or intrusive methods like HASPI. However, these methods require
clean reference signals, which are often unavailable in real-world conditions,
creating a gap between lab-based and real-world assessments. To address this,
we propose a non-intrusive intelligibility prediction framework that leverages
speech enhancers to provide a paralle...
📄 Contrastive Learning with Spectrum Information Augmentation in Abnormal Sound Detection
2025-09-23Авторы:
Xinxin Meng, Jiangtao Guo, Yunxiang Zhang, Shun Huang
## Контекст
Аномальный звуковой детектор (abnormal sound detection, ASD) является важной задачей в области звукового мониторинга и анализа. Он применяется для обнаружения неисправностей в машинных системах, а также для мониторинга звукового окружения. Однако существуют значительные вызовы, связанные с нехваткой меток и малоизвестными особенностями аномалий. Большинство существующих подходов ориентированы на обнаружение аномалий в низких частотах, что может ограничивать их точность и общую эффективность. Наша мотивация заключается в том, чтобы развить более устойчивый подход к обнаружению аномалий, используя аугментацию данных на основе частотного пространства.
## Метод
Мы предлагаем метод аугментации данных на основе частотного пространства в контрастивном обучении (contrastive learning). Этот метод заключается в том, чтобы увеличить внимание модели к низким частотным компонентам аудио, которые отражают нормальное рабочее режим machine. Мы используем трансформацию частотного пространства для генерирования дополнительных данных, которые выделяют низкие частоты. Эти данные добавляются к исходным данным в процессе обучения модели, чтобы улучшить ее уязвимость к нормальному режиму работы. Метод базируется на методологии outlier exposure, которая используется для обучения модели к распределению нормальных данных.
## Результаты
Мы проверили нашу модель на двух датасетах: DCASE 2020 Task 2 и DCASE 2022 Task 2. На DCASE 2020 Task 2 наш метод показал значительное улучшение в отношении существующих методов контрастивного обучения, повысив точность обнаружения аномалий. На DCASE 2022 Task 2 датасете мы также продемонстрировали устойчивость нашего подхода, получив высокие результаты в обнаружении аномалий в новых условиях. Эти результаты подтверждают эффективность нашего метода в обнаружении аномалий, даже в условиях ограниченной доступности меток.
## Значимость
Наш подход имеет значительное значение в области аномального звукового детектирования. Он может применяться в техническом мониторинге, здравоохранении, безопасности и других областях, где аномалии могут привести к серьезным последствиям. Наш метод позволяет улучшить точность обнаружения, уменьшая зависимость от меток. Это делает его привлекательным для решения задач, где доступ к метокам ограничен. В будущем мы планируем расширить применение нашего подхода к другим типам аудиоданных и изучить его потенциал в реальном времени.
## Выводы
Мы предложили новую методику для обнаружения аномалий, основанную на контрастивном обучении с аугментацией частотного пространства. Этот подход отличается увеличенной чувствительностью
Annotation:
The outlier exposure method is an effective approach to address the
unsupervised anomaly sound detection problem. The key focus of this method is
how to make the model learn the distribution space of normal data. Based on
biological perception and data analysis, it is found that anomalous audio and
noise often have higher frequencies. Therefore, we propose a data augmentation
method for high-frequency information in contrastive learning. This enables the
model to pay more attention to the low-fr...
Авторы:
Yongsheng Feng, Yuetonghui Xu, Jiehui Luo, Hongjia Liu, Xiaobing Li, Feng Yu, Wei Li
#### Контекст
Source separation является фундаментальной задачей в области обработки речи, музыки и аудио, а также является важной частью подготовки данных для генеративных моделей. Однако повышение производительности разделения в практических задачах часто приводит к необходимости использовать более крупные сети, что увеличивает затраты на обучение и развертывание. В этом контексте эффективность и скорость выполнения моделей являются ключевыми факторами, особенно для низкоскоростных приложений. Мотивированные этими проблемами, авторы предлагают **TISDiSS** — расширенный инструментарий, который объединяет различные подходы для решения проблемы.
#### Метод
TISDiSS применяет **множественное управление ранним разделением потерь**, **двустороннюю совместимость сеть-параметры** и **динамическую повторяемость вывода**. Это позволяет управлять скоростью и точностью разделения в ходе вывода без необходимости дополнительного обучения. Авторы также проводят исчерпывающий анализ различных архитектур и характеристик тренировочного процесса. Особое внимание уделено динамическому взаимодействию между скоростью и точностью модели в ходе работы.
#### Результаты
На экспериментальных данных, включая стандартные бенчмарки разделения речи, модель TISDiSS показала состояние техники в отношении точности разделения с меньшим числом параметров. Также было проведено подробное сравнение с другими подходами, в том числе посредством тестирования скорости и эффективности разделения на низкоскоростных приложениях. Данные результаты подтверждают высокую эффективность TISDiSS в решении задач с требованиями к малому латентному времени.
#### Значимость
Расширенность TISDiSS заключается в её универсальности и применимости к различным задачам разделения аудио. Она позволяет применять модель в различных сценариях, включая низкоскоростные и реальноработающие приложения, благодаря гибкой масштабируемости. Это означает, что модель может быть использована в областях, где необходимо быстро реагировать на аудиосигналы, при этом не теряя в качестве разделения.
#### Выводы
TISDiSS доказывает свою полезность в области эффективных и масштабируемых подходов к разделению источников. Будущие исследования могут концентрироваться на повышении её многозадачности и добавлении дополнительных модификаций, чтобы улучшить её применение в новых аудио-приложениях. Данный подход может стать ключевым для развития новых технологий в области разделения и обработки звуковых сигналов.
Annotation:
Source separation is a fundamental task in speech, music, and audio
processing, and it also provides cleaner and larger data for training
generative models. However, improving separation performance in practice often
depends on increasingly large networks, inflating training and deployment
costs. Motivated by recent advances in inference-time scaling for generative
modeling, we propose Training-Time and Inference-Time Scalable Discriminative
Source Separation (TISDiSS), a unified framework that ...
Авторы:
Qi Wang, Shituo Ma, Guoxin Yu, Hanyang Peng, Yue Yu
## Контекст
Федеративное обучение (FL) предлагает мощный подход для решения задач генерации речи, обеспечивая при этом конфиденциальность данных и эффективное использование ресурсов. Однако в случае текстово-речевой синтеза (TTS) существуют серьёзные проблемы, связанные с высокими затратами на связь и неэффективной обработкой стилистической многообразия. Особенно важной задачей является создание голосовых клонов, которые не только очень точно воспроизводят голос целевого речи, но и сохраняют его индивидуальные стилистические особенности. В настоящей работе мы адресуем эти проблемы, предлагая эффективный подход для FL в области TTS, который минимизирует затраты на связь и улучшает стилистическую многообразие.
## Метод
Мы предлагаем Fed-PISA (Federated Personalized Identity-Style Adaptation), который использует дисептентированный подход Low-Rank Adaptation (LoRA) для минимизации затрат на связь и улучшения обработки стилистических особенностей. Для этого введены два отдельных локальных лора-механизма: ID-LoRA, который сохраняет голосовую личность каждого клиента, и Style-LoRA, который описывает стилистические характеристики речи. Только Style-LoRA передаётся на сервер для агрегации, что эффективно обрабатывает стилистическую многообразие. Наш подход также включает в себя метод объединения, основанный на стохастическом фильтровании, который использует стилистические схожести между клиентами для создания личных моделей TTS.
## Результаты
Мы проводили эксперименты на данных LibriTTS, оценивая Fed-PISA по метрикам style expressivity, naturalness, и speaker similarity. Наши результаты показывают, что Fed-PISA превосходит стандартные FL-подходы, обеспечивая значительное улучшение этих метрик, в то же время значительно минимизируя затраты на связь. Также мы проводили анализ на стилистической многообразии, показав, что Fed-PISA эффективно учитывает различия в стиле речи между клиентами.
## Значимость
Предложенный подход Fed-PISA может быть применён в сфере текстово-речевой синтеза для создания голосовых клонов, которые наиболее точно воспроизводят голос и стиль целевого речи. Он демонстрирует преимущества в минимизации затрат на связь и улучшении стилистического многообразия, что делает его привлекательным для приложений в сфере личных дикторов, личных ассистентов и интерактивных систем. Будущие исследования будут сфокусированы на увеличении эффективности FL в TTS и расширении применения Fed-PISA для других типов речевых данных.
## Выводы
Fed-PISA представляет собой эффективный подход к федеративному обучению для TTS, который решает проблемы связанные с высокими затратами на связь и стилистическим многоо
Annotation:
Voice cloning for Text-to-Speech (TTS) aims to generate expressive and
personalized speech from text using limited data from a target speaker.
Federated Learning (FL) offers a collaborative and privacy-preserving framework
for this task, but existing approaches suffer from high communication costs and
tend to suppress stylistic heterogeneity, resulting in insufficient
personalization. To address these issues, we propose Fed-PISA, which stands for
Federated Personalized Identity-Style Adaptation....
Показано 31 -
40
из 69 записей