📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Lu Wang, Hao Chen, Siyu Wu, Zhiyue Wu, Hao Zhou, Chengfeng Zhang, Ting Wang, Haodi Zhang

#### Контекст За последние годы Multimodal Large Language Models (MLLMs) нашли широкое применение в различных областях, включая обработку речи и музыки. Это дало подтолкнение к развитию аудиотокенизации, которая является ключевым компонентом для эффективного интегрирования сложных моделей. Отличительная особенность аудиотокенов заключается в том, что они должны не только передавать глобальный смысл, но и сохранять тонкие акустические детали. Эта способность делает их полезными для работы с речью и музыкой в широком кругу приложений. Однако существующие подходы к определению токенов и их оценке ограничиваются конкретными областями, такими как реконструкция или автоматическое распознавание речи (ASR), что не позволяет провести систематическую и справедливую оценку кодеков. В этой работе мы призваны предложить точные определения токенов, а также разработать общую методологию для полного оценивания аудиокодеков. #### Метод Мы предлагаем **AudioCodecBench** — систематическую методологию для оценки кодеков аудио. Методология основывается на четырёх основных измерениях: 1) **метрики аудиореконструкции** для оценки качества воспроизведения звука, 2) **стабильность кодеков** (codebook index stability), которая измеряет стабильность идентификаторов в кодексе, 3) **проницательность декодера-только трансформера**, которая оценивает потенциал кодека в различных низкоуровневых задачах, и 4) **задачи дорожки (downstream tasks)**, которые измеряют практическое применение кодеков в реальных ситуациях. Данный подход позволяет не только сравнить кодеки в разных областях, но и выявить связи между этими параметрами. #### Результаты Мы провели эксперименты с различными кодеками на основе приведенной методологии. Оценивали такие кодеки, как JND-Net, Lycos, L3-Net и др. Зарегистрированы следующие результаты: 1) кодеки показали различную эффективность в разных метриках: лучше всего отображались на переменной точности реконструкции; 2) стабильность кодеков (кодеков index stability) отличается в зависимости от метода токенизации; 3) проницательность декодера-только трансформера взаимосвязана с качеством реконструкции и стабильностью кодека. Полученные результаты подтверждают правильность определений токенов и позволяют выявить взаимосвязи между различными аспектами оценки. #### Значимость Разработанная методология имеет широкое применение в разных областях, включая развитие звуковых систем в MLLMs, улучшение аудио-сетей для речи и музыки, а также в приложениях, требующих точного анализа звуковых сигналов. Одним из основных преимуществ является то, что этот подход позволяет проводить систематическую и справедливую оценку кодеков, что
Annotation:
Multimodal Large Language Models (MLLMs) have been widely applied in speech and music. This tendency has led to a focus on audio tokenization for Large Models (LMs). Unlike semantic-only text tokens, audio tokens must both capture global semantic content and preserve fine-grained acoustic details. Moreover, they provide a discrete method for speech and music that can be effectively integrated into MLLMs. However, existing research is unsuitable in the definitions of semantic tokens and acoustic ...
ID: 2509.02349v2 cs.SD, cs.AI, cs.LG
Авторы:

Yiqun Yao, Xiang Li, Xin Jiang, Xuezhi Fang, Naitong Yu, Wenjia Ma, Aixin Sun, Yequan Wang

## Контекст Полнофазные диалоговые модели предназначены для параллельного воспроизведения речи и обработки ввода пользователя, чтобы обеспечить быстрые ответы на частые и стремительно меняющиеся запросы. Одним из новых подходов являются *воспроизведение* и *производство* в одной модели (native full-duplex models). Они скрещивают различные каналы (например, слушание и речь) в один момент времени, устраняя проблему высокой задержки, которая характерна для альтернативных методов типа time-division multiplexing (TDM). Однако в этих моделях возникает проблема согласования текстовых монологов с аудио потоками, которые работают с разными битрейтами. Обычное решение — это *слово-уровневое выравнивание*, но оно сокращает мощность больших предобученных моделей и требует точных тайм-степсов для каждого токена, что приводит к ошибкам и увеличивает затраты на препроцессинг. Мы предлагаем новый подход — естественные монологи (natural monologues), которые очень похожи на человеческое монологическое высказывание в диалогах. Эта технология улучшает систему FLM-Audio, 7B-модель диалогового агента с открытым кодом, которая показала выдающиеся результаты в отзывчивости, двухсторонних диалогах и общении. ## Метод Мы предлагаем **естественные монологи** — поток текста, который много секунд предшествует аудио имитируя естественную последовательность разговора. Для темпорального выравнивания мы меняем положение монолога относительно аудио — либо в начале, либо в конце — на каждой стадии обучения. Этот **двуххармонический** подход (dual training) усиливает модель, улучшая отзывчивость и добавляя естественность в диалоговое взаимодействие. Мы также используем простой, но эффективный метод для синхронизации монолога с аудио, который устраняет зависимость от точных тайм-степсов и улучшает стабильность. ## Результаты Мы проверили модель FLM-Audio в нескольких экспериментах, в том числе на двух целях: 1) обеспечить отзывчивость диалога и 2) улучшить чат-опыт пользователя. У нас были несколько данных, включая говорящих моделей с текстом и аудио, а также специально сгенерированные данные для естественных монологов. Модель FLM-Audio показала существенное улучшение в отзывчивости и качестве диалога по сравнению с другими полнофазными моделями. Мы также проверили ее на частотности ответов, задержках и надежности, и она показала себя лучше во всех этих аспектах. ## Значимость Модель FLM-Audio может применяться в различных сценариях, включая виртуальных ассистентов, нормальные чат-боты и даже системы управления смарт-девайсами. Она обеспечивает высокую отзывчивость, естественность диа
Annotation:
Full-duplex dialog models are designed to listen and speak simultaneously with rapid responses to fast-changing user input. Among existing approaches, native full-duplex models merges different channels (e.g. listen and speak) in a single time step, overcoming the high response latency inherent to time-division multiplexing time-division multiplexing (TDM) alternatives. Yet, a key challenge remains: aligning textual monologues with audio streams that operate at different bitrates. The prevailing...
ID: 2509.02521v1 cs.SD, cs.AI, cs.CL
Авторы:

Hoan My Tran, Damien Lolive, Aghilas Sini, Arnaud Delhay, Pierre-François Marteau, David Guennec

#### Контекст Современные технологии глубокого подделывания речи (deepfake) на основе аудио, основанные на развитии генерирующего искусственного интеллекта, позволяют создавать естественно синтезированный голос, который трудно отличить от реального. Эти технологии имеют большое потенциальное применение в области инноваций и улучшения жизни, но одновременно представляют серьезную угрозу в сферах финансов, безопасности и правопорядка. Несанкционированное использование таких технологий может привести к мошенничеству, краже личностных данных и воровству идентификационными данными. Несмотря на развитие методов обнаружения deepfake, существуют проблемы с общим применением моделей к неизвестным атакам и языкам. Мы предлагаем новую архитектуру, основанную на механизме управления признаками (gating mechanism), чтобы улучшить универсальность и точность обнаружения deepfake. #### Метод Предлагаемая модель включает в себя несколько слоёв, адаптированных для обнаружения deepfake-аудио. В качестве фронт-энда используется модель XLS-R, которая эффективно извлекает признаки из аудиосигнала. Далее, мы развиваем уникальный механизм управления признаками, используя Multi-kernel gated Convolution (MultiConv), позволяющий охватить как местные, так и глобальные характеристики речи. Наша модель также включает в себя центрированный метрический анализ (Centered Kernel Alignment, CKA), который улучшает локальное и глобальное разделение признаков. Этот метод позволяет каждому слою из MultiConv получать более разнообразные и точные представления речи. Благодаря этому, модель становится более высшеуровневой и универсальной в детекции различных deepfake-атак. #### Результаты Мы провели эксперименты на нескольких бенчмарк-коллекциях, включая валидные данные для обучения и тестирования. Наши результаты показывают, что модель превосходит текущие решения в области deepfake-аудио, удлиняя ценность её применения в реальных условиях. Мы также проверили нашу модель на многоязычных данных, чтобы продемонстрировать её генерализуемость и устойчивость к неизвестным атакам. Результаты показали, что наши достижения значительно превосходят остальные модели, которые были сравнивались в этих условиях. Это означает, что наш подход может быть эффективно применён для обнаружения широкого спектра deepfake-атак. #### Значимость Модель может быть применена в различных областях, включая безопасность информации, мониторинг безопасности, финансы и правопорядок. Она предлагает более высокую точность и генерализуемость по сравнению с предыдущими моделями. Одним из ключевых преимуществ является повышенная ценность обнаружения deepfake в многоя
Annotation:
Recent advancements in generative AI, particularly in speech synthesis, have enabled the generation of highly natural-sounding synthetic speech that closely mimics human voices. While these innovations hold promise for applications like assistive technologies, they also pose significant risks, including misuse for fraudulent activities, identity theft, and security threats. Current research on spoofing detection countermeasures remains limited by generalization to unseen deepfake attacks and lan...
ID: 2509.03409v1 cs.SD, cs.AI, cs.MM, I.2.7
Авторы:

Kevin Putra Santoso, Rizka Wakhidatus Sholikah, Raden Venantius Hari Ginardi

#### Контекст Обеспечение высокого качества аудио становится важной задачей в огромном количестве приложений, включая онлайн-коммуникацию, виртуальные помощники и индустрию мультимедиа. Однако задачи улучшения и восстановления звука становятся сложнее из-за проблем, таких как шум, сжатие и потери при передаче. Несмотря на то, что развитие моделей вида diffusion позволило получить значительные улучшения в этой области, они часто требуют больших вычислительных ресурсов и сложно успешно работают с длинными местами пропуска. Это ограничение делает необходимым разработать более эффективные подходы. #### Метод WaveLLDM (Wave Lightweight Latent Diffusion Model) представляет собой архитектуру, которая комбинирует современные технологии аудиокодирования и подходы с потерями в латентном пространстве. Основное отличие WaveLLDM заключается в том, что вместо работы напрямую в частотном или временном пространстве, он обрабатывает аудиосигнал в разложенном векторном (кодированном) виде. Это позволяет существенно уменьшить вычислительные затраты, не ухудшая качество восстановления. Модель также использует методы латентной диффузии для улучшения реконструкции звука в условиях повреждений и шумов. #### Результаты Эксперименты WaveLLDM проводились на наборе данных Voicebank+DEMAND. Результаты показали, что модель достигает хорошего уровня восстановления аудио, с Spectral Distance (LSD) от 0,48 до 0,60. Однако в перспективе развития модель WaveLLDM пока ниже лучших показателей состояния техники по таким показателям как WB-PESQ (1,62–1,71) и STOI (0,76–0,78). Эти ограничения объясняются недооптимизацией архитектуры, недостатком тюнинга и недостаточной продолжительностью обучения. #### Значимость Концепция WaveLLDM представляет собой универсальный подход, который может использоваться в различных приложениях, таких как очистка аудиосигнала, восстановление звука в реальном времени, и виртуальные системы ассистента. Значительная эффективность модели, связанная с существенной экономией вычислительных ресурсов, делает ее привлекательной для использования в ресурсосжрательных условиях. Однако продолжение развития модели, включая дополнительное тюнинг, повышение продолжительности обучения и расширение набора тренировочных данных, могут повысить ее точность и применяемость. #### Выводы WaveLLDM представляет собой перспективный подход в области восстановления звука, который успешно комбинирует преимущества аудиокодирования и латентной диффузии. Хотя текущие результаты показывают некоторые ограничения, фундаментальная идея модели и ее гибкая архитектура дают огромный потенциал для дальнейшего ра
Annotation:
High-quality audio is essential in a wide range of applications, including online communication, virtual assistants, and the multimedia industry. However, degradation caused by noise, compression, and transmission artifacts remains a major challenge. While diffusion models have proven effective for audio restoration, they typically require significant computational resources and struggle to handle longer missing segments. This study introduces WaveLLDM (Wave Lightweight Latent Diffusion Model), ...
ID: 2508.21153v1 cs.SD, cs.AI, eess.AS
Авторы:

Aditya Makineni, Baocheng Geng, Qing Tian

#### Контекст Изучение звуковых классификационных задач находится в центре внимания в глубоком обучении, поскольку он имеет широкие приложения в распознавании речи, отслеживании звуков и анализе аудиоданных. Однако существуют сложности в моделировании аудио последовательностей, включая необходимость сохранения информации о частотах и времени в составе спектрограмм. Для решения этой проблемы вводятся различные патчинг-стратегии, способные лучше адаптироваться к характеристикам аудиоданных. Несмотря на успех трансформеров и State-Space Models (SSMs) в этой области, применение квадратных патчей наряду с классической преобразовательной архитектурой Audio Spectrogram Transformer (AST) и Audio Mamba (AuM) приводит к неэффективности в расчетах и сокращению точности. Наша работа направлена на улучшение эффективности моделей через более естественное патчинг. #### Метод Мы предлагаем Full-Frequency Temporal Patching (FFTP), новая стратегия патчинга, которая полностью соответствует характеристикам временно-частотных характеристик спектрограмм. Эта стратегия объединяет весь диапазон частот с локальным контекстом времени, сохраняя гармоническую структуру и уменьшая количество патчей. Чтобы совершенствовать информативность моделей, мы также предлагаем SpecMask, метод трансформации спектрограммы, который комбинирует полнофазовые и локально-частотные маскирования, сохраняя последовательность в оптимальном диапазоне и экономя вычислительные ресурсы. Финальная модель включает патчинг FFTP в архитектуры AST и AuM, а SpecMask применяется в процессе обучения. #### Результаты Мы провели эксперименты на AudioSet-18k и SpeechCommandsV2. Наша модель FFTP с SpecMask показала улучшение метрики mAP на +6.76 на AudioSet-18k и +8.46 на SpeechCommandsV2. Это свидетельствует о том, что улучшенные патчинг-стратегии влияют на точность классификации. В то же время, метод FFTP снизил потребление вычислительных ресурсов на 83.26%, показав высокую эффективность. Это означает, что FFTP предлагает существенное улучшение как в качестве классификации, так и в скорости обработки. #### Значимость Решение, предложенное в нашей работе, может быть применено в многочисленных областях, таких как распознавание речи, мониторинг звуков и анализ музыкальных композиций. Улучшенные патчинг-стратегии и метод SpecMask делают модели более эффективными и точными. Этот подход может сильно повлиять на развитие звуковой обработки, повышая как точность, так и эффективность работы моделей. #### Выводы Мы успешно продемонстрировали, что FFTP и SpecMask могут значительно улучшить работу моделей AST и AuM. Наши рез
Annotation:
Transformers and State-Space Models (SSMs) have advanced audio classification by modeling spectrograms as sequences of patches. However, existing models such as the Audio Spectrogram Transformer (AST) and Audio Mamba (AuM) adopt square patching from computer vision, which disrupts continuous frequency patterns and produces an excessive number of patches, slowing training, and increasing computation. We propose Full-Frequency Temporal Patching (FFTP), a patching strategy that better matches the t...
ID: 2508.21243v1 cs.SD, cs.AI
Авторы:

Cheng-Yeh Yang, Kuan-Tang Huang, Chien-Chun Wang, Hung-Shin Lee, Hsin-Min Wang, Berlin Chen

## Контекст В области звуковой синтеза и анализа, автоматическое определение Mean Opinion Score (MOS) — ключевая задача, направленная на оценку качества аудиосигнала. Традиционные подходы часто ориентированы на одну специфику: либо всеобщую структуру аудиосигнала (как в global pooling), либо детальные локальные особенности (как в frame-level analysis). Эти методы могут недостаточно учитывать комплексное взаимодействие между глобальной структурой и локальными деталями, что снижает точность прогнозирования MOS. Для устранения этой проблемы, авторы предлагают решение, которое объединит два уровня анализа, повысив целостность и точность результатов. ## Метод Фреймворк DRASP (Dual-Resolution Attentive Statistics Pooling) представляет собой двухуровневую архитектуру, которая объединяет две стратегии анализа: coarse-grained и fine-grained. В первом этапе, model extracts global statistical summaries, которые охватывают целый аудиосигнал. Во втором этапе, attentive pooling применяется для идентификации perceptually significant segments, обеспечивая детальный анализ. Эта структура позволяет DRASP совместно использовать глобальную контексту и локальные важные моменты, улучшая представление и, следовательно, точность прогноза MOS. ## Результаты Для оценки эффективности DRASP проводились многочисленные эксперименты на двух датасетах: MusicEval и AES-Natural. Модель DRASP оказалась сильнее существующих baseline-подходов, включая average pooling, на всех наборах данных и задачах. Она показала результат, 10.39% лучше стандартной average pooling в системном уровне Spearman's rank correlation coefficient (SRCC). Эти результаты подчеркивают значительный потенциал DRASP для точного и целостного прогнозирования MOS. ## Значимость DRASP внедряется в различные области, включая синтез звука, анализ музыки, аудио-контроль качества. Он обеспечивает более широкий и точный подход к прогнозированию MOS, что повышает его привлекательность для реальных приложений. Также, DRASP показывает значительную выгоду по сравнению с базовыми методами, и его использование может привести к улучшению автоматизированных систем оценки качества звука в широком круге приложений. ## Выводы DRASP — это перспективный подход в сфере автоматической оценки качества звука, который объединяет горизонтальный и вертикальный анализ. Он позволяет достичь более точных результатов в прогнозировании MOS. Будущие исследования будут нацелены на улучшение DRASP, повышение его эффективности и расширение его применения в различных сценариях.
Annotation:
A pooling mechanism is essential for mean opinion score (MOS) prediction, facilitating the transformation of variable-length audio features into a concise fixed-size representation that effectively encodes speech quality. Existing pooling methods typically operate at a singular granularity, concentrating either on a comprehensive global perspective or a detailed frame-level analysis, which may overlook complementary perceptual insights. To address this limitation, we introduce the Dual-Resolutio...
ID: 2508.21407v1 cs.SD, cs.AI
Авторы:

Hongju Su, Ke Li, Lan Yang, Honggang Zhang, Yi-Zhe Song

#### Контекст Современные модели генерации символьной музыки, такие как авторегрессионные и иерархические авторегрессионные архитектуры, основываются на моделировании символьной музыки как последовательности атрибутов токенов с управляющими зависимостями в одном направлении. Это предположение о взаимосвязи атрибутов нот лежит в основе многих моделей, но не всегда соответствует реальности. Наблюдается, что меняя начальный атрибут в модели, результаты остаются схожи, что указывает на то, что атрибуты нот являются скорее параллельными и неупорядоченными наборами, чем последовательностью. В этом контексте возникает потребность в модели, которая учитывает эти параллельные атрибуты и лучше адаптируется к характеристикам музыки. #### Метод Мы предлагаем Amadeus — новую модель с двухуровневой архитектурой. В первом уровне используется авторегрессионная модель для генерации последовательностей нот, а во втором — бидирекциональная дискретная модель размывания для атрибутов нот. Это позволяет учитывать параллельные зависимости между атрибутами. Для улучшения точности и выразительности вводится стратегия **Music Latent Space Discriminability Enhancement** (MLSDES), которая включает в себя контрастное обучение для усиления дискриминативности музыкальных представлений. Также используется **Conditional Information Enhancement Module** (CIEM), усиливающее представление нотных векторов с помощью аттенционных механизмов. Эти модули обеспечивают более точный декодирований нот и повышают качество получаемой музыки. #### Результаты Мы проводили эксперименты на задачах несвязанной и условной генерации музыки. Amadeus показал значительные преимущества по сравнению со существующими моделями по критериям качества и скорости обучения. Например, она ускоряет обучение в 4 раза по сравнению с современными моделями и достигает лучших результатов по метрикам, таким как BLEU-N и METEOR. Эксперименты показали, что модель сохраняет высокий уровень детализации и точности в генерации, даже при изменении начальных атрибутов. #### Значимость Amadeus открывает новые возможности в области генерации музыкальных композиций. Ее можно применять для создания музыки с гибкими условиями, включая текстовую контрольную структуру, и для поиска новых стилей и структур музыкальных форм. Основное преимущество заключается в том, что Amadeus лучше адаптируется к неупорядоченным атрибутам музыки и увеличивает точность и эффективность генерации. Это делает модель полезной не только для профессионалов в области музыкальных технологий, но и для широкого круга пользователей, включая музыкантов и композиторов. #### Вывод
Annotation:
Existing state-of-the-art symbolic music generation models predominantly adopt autoregressive or hierarchical autoregressive architectures, modelling symbolic music as a sequence of attribute tokens with unidirectional temporal dependencies, under the assumption of a fixed, strict dependency structure among these attributes. However, we observe that using different attributes as the initial token in these models leads to comparable performance. This suggests that the attributes of a musical note...
ID: 2508.20665v1 cs.SD, cs.AI, cs.MM
Авторы:

ChenYi Chua, JunKai Wong, Chengxin Chen, Xiaoxiao Miao

#### Контекст Распознавание эмоций в речи (Speech Emotion Recognition, SER) является важной задачей в области научного исследования и практического применения. Она направлена на то, чтобы выявить эмоциональное состояние говорящего на основе анализа звуковых сигналов. Несмотря на прогрессы в этой области, существуют некоторые проблемы. Одним из основных вызовов является необходимость улучшить точность и надежность распознавания эмоций, особенно в условиях ненасыщенности данных. Другая проблема заключается в том, что существующие подходы часто ограничиваются одной модальностью (например, звуковой), что приводит к ограниченности их возможностей. Мотивацией для разработки нового подхода является необходимость создания многомодальной системы, которая могла бы объединить сигналы из разных модальностей, таких как аудио и текст, для повышения точности распознавания эмоций. #### Метод Предлагаемый подход представляет собой многомодальную архитектуру, состоящую из двух основных моделей: (1) акустической модели, основанной на wav2vec2.0, для извлечения эмоциональных признаков из звукового сигнала; (2) текстовой модели, основанной на RoBERTa-XLM, для вывода эмоциональных категорий на основе текстовых предсказаний. Для получения текстовых предсказаний используется Whisper-large-v3 для генерации текстовых транскрипций. Извлеченные признаки объединяются с помощью метода late score fusion, который основывается на теории энтропии. Для функционирования этого метода, вводится пороговое значение для вариации энтропии (varentropy), которое позволяет выбирать наиболее надежные предсказания. Затем, метод sentiment mapping, который преобразует три категории сентимента в четыре целевые эмоциональные класса, обеспечивает корректное объединение модальных прогнозов. #### Результаты Эксперименты проводились на двух данныхсеместрах: IEMOCAP и MSP-IMPROV. На IEMOCAP, система показала значительное улучшение в точности распознавания эмоций в сравнении с одномодальными подходами. На MSP-IMPROV, результаты также показали улучшение, хотя при этом была замечена некоторая нижняя вариативность в результатах. Эти результаты указывают на то, что предлагаемый подход является эффективным и надежным способом улучшения распознавания эмоций в речи, особенно когда используются многомодальные данные. #### Значимость Предлагаемый подход может быть применен в различных областях, таких как здравоохранение, образование и маркетинг, где распознавание эмоций является ключевым фактором успеха. Оно предлагает преимущества в том, что оно объединяет несколько модальностей, что позволяет извлечь более глубокие признаки. Это мож
Annotation:
In this paper, we propose a multimodal framework for speech emotion recognition that leverages entropy-aware score selection to combine speech and textual predictions. The proposed method integrates a primary pipeline that consists of an acoustic model based on wav2vec2.0 and a secondary pipeline that consists of a sentiment analysis model using RoBERTa-XLM, with transcriptions generated via Whisper-large-v3. We propose a late score fusion approach based on entropy and varentropy thresholds to o...
ID: 2508.20796v1 cs.SD, cs.AI
Авторы:

Jaeyeon Kim, Heeseung Yun, Sang Hoon Woo, Chao-Han Huck Yang, Gunhee Kim

## Контекст За последние годы, аудио-языковые модели (Audiolanguage Models, ALMs) получили популярность благодаря их удачному слиянию возможностей языкового понимания и распознавания звуков. Однако далеко не всегда эти модели достигают высокого уровня гибкости и точности при работе с нестандартными задачами, которые требуют скорости резолюции и точности распознавания сложных акустических сигналов. Например, модели должны быть способны определять длительность звука, его тон, интенсивность и другие мелкие акустические характеристики, чтобы распознавать звуки в реальных условиях. Эти данные являются ключевыми для распространенных приложений, таких как звуковые системы оповещения, анализ голосов и аудиосканирование в животных. Однако существующие модели часто не обладают достаточным уровнем точности и универсальности, чтобы справиться с нестандартными ситуациями. Для направления исследований в этом направлений, авторы представили WoW-Bench — бенчмарк, ориентированный на оценку тонкой акустической перцепции и когнитивных способностей моделей аудио-языка. ## Метод WoW-Bench представляет собой два основных компонента: Perception Benchmark и Cognition Benchmark. В Perception Benchmark реализована задача классификации звуков на основе голосов морских млекопитающих. Модели должны классифицировать звуки в классы, например, свист, рычание и т. д., используя тон, продолжительность и другие акустические свойства. Данная задача позволяет оценить уровень точности моделей при работе с нетипичными акустическими сигналами. Cognition Benchmark является более сложной и включает в себя различные задачи, основанные на Bloom's taxonomy, чтобы отразить уровень глубины понимания звука. Здесь модели должны выполнить задачи, такие как запоминание звуков, обобщение их, сравнение с другими звуками или их анализ. Например, модель может получить задачу "найди звук A, который наиболее похож на звук B, но не тем же звуком C". Особенностью Cognition Benchmark является внедрение distractor-задач, которые требуют от моделей удостовериться в том, что они решают задачу на основе звукового анализа, а не других неспецифичных способов. ## Результаты Для оценки WoW-Bench, авторы применили несколько современных аудио-языковых моделей, включая те, которые достигли высоких результатов в области текстового понимания. Измеренное качество моделей было сравнено с задачами, выполненными человеком. Качество моделей оказалось значительно ниже уровня человеческого уровня, особенно в задачах, требующих тонкого акустического анализа. Например, модели с удивительно низкой точностью распознавали звуки в зоогео
Annotation:
Large audio language models (LALMs) extend language understanding into the auditory domain, yet their ability to perform low-level listening, such as pitch and duration detection, remains underexplored. However, low-level listening is critical for real-world, out-of-distribution tasks where models must reason about unfamiliar sounds based on fine-grained acoustic cues. To address this gap, we introduce the World-of-Whale benchmark (WoW-Bench) to evaluate low-level auditory perception and cogniti...
ID: 2508.20976v1 cs.SD, cs.AI, eess.AS
Авторы:

Mattias Cross, Anton Ragni

## Контекст Повышение качества речи является ключевым заданием в области акустического обработки сигналов. Основной проблемой в данной области является лишняя шумовая компонента, которая затрудняет распознавание речи. Существуют различные методы по повышению качества речи, включая генеративные подходы, такие как векторное сжатие и скользящие окна. Несмотря на достигнутые успехи, эти методы не всегда обеспечивают полное устранение шума или неэффективно работают в условиях низкого качества записи. Таким образом, существует необходимость в разработке более эффективных подходов к повышению качества речи, которые могут обеспечить наилучшую ясность и звуковую чистоту. ## Метод Технология, используемая в данном исследовании, основана на подходе стохастического потока (flow-based generative models), который используется для моделирования распределений в сигнале речи. Используется метод "Скороdingерская труба" (Schrodinger Bridge), который стремится моделировать кривые пути между шумом и чистым сигналом речи. Тем не менее, поиск прямых путей, таких как вариант "Условное стохастическое соответствие" (Conditional Flow Matching), является новым подходом к повышению качества речи. Этот подход сосредоточен на моделировании прямых связей между шумовым и чистым сигналом, что позволяет повысить точность и уменьшить комплексность процесса обучения. ## Результаты В экспериментах использовались специально подготовленные данные речи с разным уровнем шума. Метод Conditional Flow Matching показал значительные улучшения по сравнению с подходом Schrodinger Bridge в различных метриках качества речи, таких как Signal-to-Noise Ratio (SNR) и Perceptual Evaluation of Speech Quality (PESQ). Кроме того, указано, что Conditional Flow Matching не только повышает качество речи, но и уменьшает необходимое время обучения и расчета. Таким образом, полученные результаты подтверждают, что использование условного стохастического соответствия может привести к значительным улучшениям в речевом повышении качества. ## Значимость Полученный подход может быть применен в различных сферах, включая системы распознавания речи, телекоммуникации и медицинские приложения. Одной из основных преимуществ является увеличение точности распознавания речи, что может быть критично в ситуациях, требующих высокого качества аудио. Также, полученный подход может снизить вычислительные затраты и улучшить эффективность обучения моделей. Это может привести к меньшим затратам на ресурсы и более быстром развитии новых технологий в области речи и аудио-процессинга. ## Выводы Результаты исследования показывают, что условное стохастическое соответствие является эффективным методом
Annotation:
Current flow-based generative speech enhancement methods learn curved probability paths which model a mapping between clean and noisy speech. Despite impressive performance, the implications of curved probability paths are unknown. Methods such as Schrodinger bridges focus on curved paths, where time-dependent gradients and variance do not promote straight paths. Findings in machine learning research suggest that straight paths, such as conditional flow matching, are easier to train and offer be...
ID: 2508.20584v1 cs.SD, cs.AI, cs.LG
Показано 211 - 220 из 274 записей