📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Marius Miron, David Robinson, Milad Alizadeh, Ellen Gilsenan-McMahon, Gagan Narula, Olivier Pietquin, Matthieu Geist, Emmanuel Chemla, Maddie Cusimano, Felix Effenberger, Masato Hagiwara, Benjamin Hoffman, Sara Keen, Diane Kim, Jane Lawton, Jen-Yu Liu, Aza Raskin

## Контекст Биоакустика — это наука, изучающая звуки, вырабатываемые живыми организмами. Она играет ключевую роль в защите природы, мониторинге биоразнообразия и изучении поведения животных. Однако многие задачи в этой области, такие как классификация видов, идентификация индивидуумов и изучение поведения, сталкиваются с ограничениями по объему аннотированных данных. Это сподвигло исследователей искать общего назначения модели, которая могла бы эффективно извлекать представления для различных задач. Несмотря на то, что такие модели были предложены ранее, они часто ограничиваются спецификой видов (обычно птиц) и ограниченным набором задач и данных. Данная работа предлагает широкомасштабное исследование новых аспектов биоакустики, которые до сих пор не были достаточно раскрыты, включая разнообразие и объем выборок, архитектуры моделей и широту задач, на которых они тестируются. ## Метод Работа представляет собой широкомасштабное исследование, охватывающее 26 датасетов с задачами, такими как классификация видов, идентификация индивидуумов, выявление голосовых реперториев и другие. Использовались различные модели и архитектуры, включая самостоятельно предсказуемые модели, которые получали предварительную обученность на биоакустических данных и дополнительной обученностью на общей коллекции аудио. Основной фокус был на сравнении различных архитектур, способов обучения и методов предварительной обученности, чтобы определить, что действительно влияет на эффективность решения задач биоакустики. Были проведены эксперименты для определения взаимосвязей между различными факторами, такими как объем данных, виды архитектур моделей и методы обучения. ## Результаты Предложенные модели показали состояние техники на широком спектре задач и датасетов. Оказалось, что самостоятельно предсказуемые модели, которые прошли предварительное обучение на биоакустических данных и дополнительно обучались на общей коллекции аудио, демонстрируют лучшие результаты в классификации видов, идентификации индивидуумов и других задачах. Было выявлено, что данные, использованные для обучения, имеют большое значение — как для процесса предварительного обучения, так и для последующего супервизованного обучения. Особое внимание было уделено влиянию различных архитектур и методов обучения на качество решения задач. Результаты показали, что модели, которые прошли предварительное обучение и дополнительно обучались на миксе биоакустических и общих аудиоданных, показали лучшие результаты в кросс-датасетных экспериментах. ## Значимость Ис
Annotation:
Bioacoustics, the study of sounds produced by living organisms, plays a vital role in conservation, biodiversity monitoring, and behavioral studies. Many tasks in this field, such as species, individual, and behavior classification and detection, are well-suited to machine learning. However, they often suffer from limited annotated data, highlighting the need for a general-purpose bioacoustic encoder capable of extracting useful representations for diverse downstream tasks. Such encoders have be...
ID: 2508.11845v1 cs.SD, cs.AI, cs.IR, cs.LG
Авторы:

Hyebin Ahn, Kangwook Jang, Hoirin Kim

## Контекст Automatic Speech Recognition (ASR) теперь широко используется в различных областях, включая домашние помощники, системы управления голосом и системы перевода. Однако один из главных недостатков ASR — её чувствительность к шуму. Многие существующие модели тренируются на чистом голосовом данных, но зачастую сталкиваются с проблемами, когда требуется работать с шумными условиями. Это ограничивает их применение в реальном мире, где шум — неизбежная часть. Целью данной работы является создание модели, которая будет более устойчивой к шумам, чтобы улучшить производительность ASR в неидеальных условиях. ## Метод Мы предлагаем HuBERT-VIC, которая основывается на HuBERT, но включает дополнительные обучающие функции — Variance, In-variance, и Covariance Regularization (VICReg). Эти новые статистические меры нацелены на улучшение устойчивости модели к шуму. Ключевым аспектом этого подхода является то, что VICReg целевая настройка статистических свойств звуковых представлений, чтобы модель могла лучше учитывать различные аккустические черты. Мы применяем эти регуляризационные методы к представлениям звуков, чтобы модель могла более точно распознавать звуки в шумных условиях. ## Результаты Мы проводили многочисленные эксперименты на двух наборах данных: LibriSpeech и Demosphere. Мы сравнили новую модель HuBERT-VIC с базовой HuBERT, которая была тренирована на шумном голосовом данных. Эксперименты показали, что HuBERT-VIC показывает значительные улучшения: на LibriSpeech test-clean она достигла 23.3%, а на test-other — 13.2%, что является значительным преимуществом по сравнению с базовой моделью. Эти результаты демонстрируют, что VICReg позволяет модели более эффективно адаптироваться к шумным условиям, увеличивая её устойчивость и общую точность. ## Значимость Наши результаты открывают новые возможности в области шумоустойчивой ASR. Модель HuBERT-VIC может быть применена в различных сценариях, включая системы управления голосом в автомобилях, помощников-диктов и даже в разработке более надежных систем медицинских голосовых интерфейсов. Этот подход не только улучшает производительность, но и позволяет расширить возможности ASR в технических и юридических сферах, где шум является неизбежной частью рабочего процесса. ## Выводы Мы успешно разработали HuBERT-VIC, модель, которая значительно улучшает устойчивость ASR к шумам. Эта модель демонстрирует существенные улучшения в производительности по сравнению с базовой HuBERT. Будущие исследования будут направлены на улучшение технических аспектов VICReg и его применение в различных стандартных вызовах шума в
Annotation:
Noise robustness in speech foundation models (SFMs) has been a critical challenge, as most models are primarily trained on clean data and experience performance degradation when the models are exposed to noisy speech. To address this issue, we propose HuBERT-VIC, a noise-robust SFM with variance, in-variance, and covariance regularization (VICReg) objectives. These objectives adjust the statistics of noisy speech representations, enabling the model to capture diverse acoustic characteristics and...
ID: 2508.12292v1 cs.SD, cs.AI, eess.AS
Авторы:

Haomin Zhang, Kristin Qi, Shuxin Yang, Zihao Chen, Chaofan Ding, Xinhan Di

## Контекст Генерация высококачественных и темпорально синхронных аудио файлов из видео является ключевым заданием для видеоредактирования и пост-продакшн. Такой подход позволяет создавать семантически согласованный аудио контент для сильно мультимедийных проектов. Несмотря на прогрессы в области короткоформатного аудио генерирования, существующие методы сталкиваются с проблемами при генерации длительных аудио файлов. Они либо ограничены значительными помехами, либо оперируют неконтролируемыми данными, что приводит к нежелательным артефактам и временным несоответствиям. Данная работа стремится расширить возможности генерации видео-аудио для длительных видео сегментов, обеспечив также чистоту звуковых эффектов без лишних артефактов. ## Метод Методом LD-LAudio-V1 является расширение современных моделей видео-аудио генерации. Он включает в себя два легких адаптера, которые позволяют обеспечить длительную генерацию аудио длиной до 60 секунд. Адаптеры устраняют множество проблем, связанных с настройкой моделей на длительные видео сегменты. Более того, мы представляем чистую, человекоанализированную видео-аудио сеттинг с гарантированной чистотой звуковых эффектов, которая может использоваться в задаче генерации длительных аудио файлов. ## Результаты Мы проводили эксперименты на широком спектре тестовых данных, сравнивая наши результаты с другими моделями. Метод LD-LAudio-V1 показал значительные улучшения по многим метрикам: - **FD_passt**: 450.00 → 327.29 (+27.27%) - **FD_panns**: 34.88 → 22.68 (+34.98%) - **FD_vgg**: 3.75 → 1.28 (+65.87%) - **KL_panns**: 2.49 → 2.07 (+16.87%) - **KL_passt**: 1.78 → 1.53 (+14.04%) - **IS_panns**: 4.17 → 4.30 (+3.12%) - **IB_score**: 0.25 → 0.28 (+12.00%) - **EnergyDelta10ms**: 0.3013 → 0.1349 (+55.23%) - **EnergyDelta10ms(vs.GT)**: 0.0531 → 0.0288 (+45.76%) - **Sem. Rel.**: 2.73 → 3.28 (+20.15%) Эти показатели отражают значительное сокращение артефактов и несоответствий в сравнении с другими моделями, что делает LD-LAudio-V1 более эффективным для генерации длительных видео-аудио файлов. ## Значимость Наш подход может быть применен в многочисленных областях, включая видеомонтаж, аудио переработку и создание синтетического звука. Он значительно сокращает время и сложность процесса генерации, обеспечивая чистый и семантически мотивированный звуковой контент. Высокая точность и эффективность LD-LAudio-V1 делают его привлекательным для профессионалов в области виде
Annotation:
Generating high-quality and temporally synchronized audio from video content is essential for video editing and post-production tasks, enabling the creation of semantically aligned audio for silent videos. However, most existing approaches focus on short-form audio generation for video segments under 10 seconds or rely on noisy datasets for long-form video-to-audio zsynthesis. To address these limitations, we introduce LD-LAudio-V1, an extension of state-of-the-art video-to-audio models and it i...
ID: 2508.11074v1 cs.SD, cs.AI, cs.CV, eess.AS
Авторы:

Kemal Altwlkany, Elmedin Selmanovic, Sead Delalic

## Контекст Контекст работы связан с развитием методов для обработки аудиоданных, в частности, аудиопоиска и фингерпринтинга. Задача аудиопоиска заключается в том, чтобы найти фрагмент аудио, соответствующий запросу, в большой базе данных. Фингерпринтинг — это процесс создания уникальных отпечатков аудио, позволяющих однозначно идентифицировать фрагменты аудио. Однако существуют значимые проблемы в этой области: устойчивость к расхождениям во времени, шум, эхо и другим формам аудио-деформаций. На данный момент, существующие методы часто страдают от этих проблем, что приводит к неточностям в результатах. Наша мотивация заключается в создании моделей, которые бы одновременно обеспечивали высокую точность, устойчивость к деформациям и эффективность обработки. ## Метод Мы применяем самостоятельное противоречивое обучение (self-supervised contrastive learning) для обучения моделей на основе Conformer, которые генерируют уникальные эмбеддинги для кратких сегментов аудио. Conformers сочетают в себе возможность перехвата локальных и глобальных взаимодействий в аудиосигнале, что делает их подходить для задач аудио-фингерпринтинга и поиска. Мы используем отборные аудиоданные и специальные методы для дальнейшей обработки и улучшения точности моделей. Наша архитектура позволяет получать embeddings из 3-секундных фрагментов и поддается повторению экспериментов на больших, открытых наборах данных. ## Результаты Мы проводили эксперименты с популярными аудиоданными, включая AudioSet и Freesound. Наши модели показали высокую точность при аудио-поиске и фингерпринтинге, даже при наличии аудио-деформаций, таких как шум, эхо или реверберация. Например, наша модель показала улучшение F1-меры в 15% в сравнении с предыдущими моделями на задаче фингерпринтинга. Также мы продемонстрировали высокую устойчивость к расхождениям во времени и внешним факторам, таким как изменения темпа или интонации. Эти результаты подтверждают высокую эффективность нашего подхода в различных условиях. ## Значимость Метод может применяться в разных сферах, таких как поиск музыки, звуковых знаков в видео, речи и многие другие. Он обладает несколькими преимуществами, включая устойчивость к расхождениям во времени, высокую точность и универсальность. Это может повлиять на развитие технологий, таких как аудио-поиск, легальная идентификация, автоматический фильтр звуков и многие другие. Наш подход может быть интегрирован в различные системы, чтобы улучшить их производительность и точность. ## Выводы Мы добились создания моделей на основе Conformer, которые показали их
Annotation:
Conformers have shown great results in speech processing due to their ability to capture both local and global interactions. In this work, we utilize a self-supervised contrastive learning framework to train conformer-based encoders that are capable of generating unique embeddings for small segments of audio, generalizing well to previously unseen data. We achieve state-of-the-art results for audio retrieval tasks while using only 3 seconds of audio to generate embeddings. Our models are almost ...
ID: 2508.11609v1 cs.SD, cs.AI, cs.IR, eess.AS
Авторы:

Chenggang Chen, Zhiyu Yang

#### Контекст Биоакустика, или исследование звуков животных, представляет собой неинвазивный метод мониторинга экосистем, который позволяет изучать поведение и здоровье животных. Одним из актуальных подходов в этой области является использование высокоточных аудио-предобученных моделей глубокого обучения (DL) для извлечения признаков из аудиоданных. Однако недавняя бенчмарк-исследовательская работа показала, что даже самые совершенные модели не всегда эффективны для всех задач в биоакустике. Это подчеркивает необходимость более глубокого понимания и оптимизации этих моделей для конкретных задач. Наша исследовательская работа ориентирована на детальное сравнение различных моделей и оценку их эффективности в задачах биоакустического мониторинга. #### Метод Мы провели бенчмарк-исследование 11 DL-моделей, оценив их эффективность в задаче кластеризации звуков без дополнительной файн-тюнинга. Для этого данные были подготовлены с помощью уменьшения размерности эмбеддингов, а полученные модели были сравнивались по метрикам качества кластеризации. Мы использовали две группы задач: с одной стороны, модели были оценивали на своий результат в предварительно обученных условиях, а с другой — с файн-тюнингом. Данные для исследования были получены из реальных биоакустических наблюдений, что дало возможность оценить модели на реальных данных. Таким образом, мы могли протестировать не только результаты моделей в предобученных условиях, но и после их дообучения. #### Результаты Наши результаты показали, что хотя файн-тюнингованные модели VGG и transformer показывают высокую эффективность в некоторых биоакустических задачах, они оказываются неэффективными в других. Без дообучения, эти модели даже хуже работают, чем AlexNet без файн-тюнинга. Мы также обнаружили, что ResNet, без дообучения, удается лучше отделять звуки от фонового шума, чем другие модели. Также, мы обнаружили, что при меньшем количестве фоновых звуков во время дообучения, модель VGG начинает показывать лучшие результаты. Эти результаты подтверждают необходимость файн-тюнинга и контроля качества эмбеддингов после дообучения. #### Значимость Наши находки имеют важное значение для биоакустической моделирования и мониторинга экосистем. Мы показали, что хотя аудио-предобученные модели DL полезны, необходимо файн-тюнинг и последующую оценку их качества. Это позволяет увеличить их эффективность в различных задачах биоакустики. Наши полученные результаты могут быть применены в различных областях, включая мониторинг животных, оценку их поведения и защиту экосистем. Также, наши нахо
Annotation:
Bioacoustics, the study of animal sounds, offers a non-invasive method to monitor ecosystems. Extracting embeddings from audio-pretrained deep learning (DL) models without fine-tuning has become popular for obtaining bioacoustic features for tasks. However, a recent benchmark study reveals that while fine-tuned audio-pretrained VGG and transformer models achieve state-of-the-art performance in some tasks, they fail in others. This study benchmarks 11 DL models on the same tasks by reducing their...
ID: 2508.10230v1 cs.SD, cs.AI
Авторы:

Iksoon Jeong, Kyung-Joong Kim, Kang-Hun Ahn

#### Контекст Одна из основных задач в области акустики и машинного обучения — удаление шумов из речи при сохранении естественности и четкости звука. Несмотря на прогресс в развитии сетей глубокого обучения, методы улучшения речи часто приводят к возникновению артифактов — лишних изменений в звуке, которые его ухудшают. Эти артифакты могут снизить качество разговорного звука, что становится критичным в приложениях, требующих высокого уровня акустической наглядности. Целью настоящей работы является разработка пост-процессинговой сети, которая будет устранять такие артифакты, сохраняя при этом высокое качество речи. #### Метод Мы предлагаем PuttNet — пост-процессинговую сеть, состоящую из двух этапов: "Approach" (основное улучшение речи) и "Putt" (корректировка результатов). Это модель основывается на аналогии с игрой в гольф, где "Approach" — это подход к цели, а "Putt" — точная корректировка, чтобы достичь максимального результата. Основная идея заключается в альтернативном применении этих двух этапов, чтобы уменьшить артифакты и повысить качество речи. Мы тренируем PuttNet на широком спектре аудиоданных, используя подходы, позволяющие оптимизировать как глубинные модели, так и пост-процессинговые нейросети. #### Результаты Мы используем метрики, такие как PESQ (Perceptual Evaluation of Speech Quality), STOI (Short-Time Objective Intelligibility) и CBAK (Background Noise Intrusiveness), для оценки качества речи. Эксперименты показали, что PuttNet превосходит сети, применяющие только "Approach" или "Putt" в одиночном режиме. Анализ на графиках показывает, что альтернативное применение этих моделей снижает артифакты и улучшает звучание. Это свидетельствует о том, что PuttNet может быть применена для решения проблемы артифактов в существующих системах улучшения речи. #### Значимость Предлагаемая модель PuttNet имеет широкое применение в различных сферах, где необходимо высокое качество речи, таких как видеоконференцсвязь, ассистенты на основе голоса, игры, аудио-издания. Устранение артифактов не только улучшает звучание, но и повышает удобство для пользователей. Мы также отмечаем, что наш подход может быть расширен для других задач, где требуется корректировка результатов нейросетевых моделей. #### Выводы Результаты экспериментов показали, что PuttNet эффективно устраняет артифакты, создаваемые сетями улучшения речи. Мы доказали, что альтернативный подход, сочетающий "Approach" и "Putt", дает лучшие результаты по сравнению с отдельным применением каждой модели. В будущем планируется провести исследования на более больших датасетах и рассмотреть возможности использования PuttNet для других акустических задач.
Annotation:
Speech enhancement using artificial neural networks aims to remove noise from noisy speech signals while preserving the speech content. However, speech enhancement networks often introduce distortions to the speech signal, referred to as artifacts, which can degrade audio quality. In this work, we propose a post-processing neural network designed to mitigate artifacts introduced by speech enhancement models. Inspired by the analogy of making a `Putt' after an `Approach' in golf, we name our mode...
ID: 2508.10436v1 cs.SD, cs.AI, cs.LG, eess.AS
Авторы:

Yuankun Xie, Ruibo Fu, Xiaopeng Wang, Zhiyong Wang, Ya Li, Zhengqi Wen, Haonnan Cheng, Long Ye

## Контекст В последние годы технологии генерации звуков, включая глубокую подмену речи (deepfake speech), получили широкое распространение, особенно на сетях социальных медиа. Эти технологии используются для создания иллюзии речи, которая может использоваться в подделке, мошенничестве или дестабилизации. Хотя существуют методы поддельной речи (countermeasures, CMs), которые демонстрируют успех на открытых наборах данных, их эффективность значительно снижается при переносе на реальные сценарии, особенно в контексте социальных сетей. Это мотивирует развитие методов, которые могут быть эффективны для распознавания подмены речи в реальной среде. ## Метод Мы предлагаем Fake Speech Wild (FSW), новый набор данных, содержащий 254 часов реальной и подменной речи, собранных из четырех медийных платформ: YouTube, TikTok, Facebook и Reddit. Набор FSW фокусируется на звуковых материалах из социальных сетей, чтобы повысить реалистичность. Для оценки существующих CMs мы используем общую метрику EER (Equal Error Rate), чтобы провести бенчмарк на новом датасете, а также на других известных датасетах. Мы проводим эксперименты с аугментацией данных, включая методы SSL (self-supervised learning), чтобы улучшить чувствительность CMs к разным стилям речи и сценариям. ## Результаты Наши эксперименты показали, что CMs, основанные на SSL, улучшают ретроспективные результаты на FSW до 3.54% EER, что значительно превышает результаты, достигнутые на других датасетах. Мы также доказали, что аугментация данных в FSW и использование методов SSL могут значительно улучшить точность распознавания, особенно в условиях реальной среды. Наши данные показывают, что наше решение эффективно в задаче поддельной речи в социальных сетях, где другие методы часто терпят неудачу. ## Значимость Решение, предложенное в данной работе, может использоваться в различных областях, включая мониторинг содержимого в социальных сетях, защиту от мошенничества и безопасность в сетях. Это особенно важно в связи с ростом глубоких подменов речи, которые могут использоваться для распространения ложных сообщений. Мы показали, что наш метод не только улучшает точность, но и расширяет возможности для распознавания речи в новых, нестандартных сценариях. ## Выводы Мы предлагаем новый датасет FSW, который является реалистичным и полезным для развития методов распознавания подмены речи. Наши эксперименты показали, что CMs, основанные на SSL, дают существенный прирост в эффективности. Мы считаем, что этот подход может стать новой стандартной практикой для распознавания подмены речи в сетях социальных медиа. В будущем, мы планируем расширить дата
Annotation:
The rapid advancement of speech generation technology has led to the widespread proliferation of deepfake speech across social media platforms. While deepfake audio countermeasures (CMs) achieve promising results on public datasets, their performance degrades significantly in cross-domain scenarios. To advance CMs for real-world deepfake detection, we first propose the Fake Speech Wild (FSW) dataset, which includes 254 hours of real and deepfake audio from four different media platforms, focusin...
ID: 2508.10559v1 cs.SD, cs.AI
Авторы:

Liam Pram, Fabio Morreale

## Контекст Проблема и мотивация: Современные системы генерирующих музыку с помощью искусственного интеллекта (ИИ) становятся все более популярными и доступными для пользователей, даже тем, у кого нет музыкальных навыков. Это привело к тому, что генерирующая ИИ-музыка получила рекламу как средство демократизации музыкального творчества. Однако этот подход часто остается в области рыночной рекламы, а не реального улучшения доступности и инклюзивности. Этот анализ фокусируется на том, как эти системы развиваются и применяются, особенно в свете их рыночной дискурсивности и индивидуализма. Область исследования: Анализ феномена генерирующей ИИ-музыки включает в себя исследование ее технологических моделей, а также ее практического использования. Работа ставит перед собой цель разоблачить подсознательные идеологии, которые влияют на развитие генерирующих ИИ-систем в музыкальном сфере. Особое внимание уделяется идеологии «демократизации музыки» и ее противоречивости в контексте текущих рыночных моделей. ## Метод Методология: Для изучения этой проблемы используется комбинация автоэтнографии и цифровой этнографии. Это позволяет изучить как рыночные характеристики систем, так и их практическое использование. Авторы проанализировали четыре генерирующих ИИ-системы, доступные на момент исследования (AIVA, Stable Audio, Suno, Udio), с целью отследить паттерны и несоответствия в рекламных текстах и функциональных возможностях продуктов. Технические решения: Исследование основывается на анализе текстов, описывающих системы, и данных о поведении пользователей. Здесь используются методы семиотического и текстового анализа для выявления идеологических стереотипов и их воздействия на развитие и применение технологий. ## Результаты Эксперименты и результаты: Авторы выявили три основных идеологических курсора в развитии генерирующих ИИ-систем: 1) техно-либерализм, 2) глобализм и 3) индивидуализм. Эти идеологии отождествляются с тем, как системы были рассказаны разработчиками и как они были поняты пользователями. Однако включение, которое рас propagandируется этими системами, часто остается маркетинговой методологией, а не реальным улучшением доступности и инклюзивности. Выявлены несоответствия между рыночным рассказом и реальной функциональностью систем: хотя в рекламе упор делается на демократизации и доступности музыкального творчества, фактический доступ часто ограничен и включение ограничено. ## Значимость Применение: Результаты этого ис
Annotation:
AI systems for music generation are increasingly common and easy to use, granting people without any musical background the ability to create music. Because of this, generative-AI has been marketed and celebrated as a means of democratizing music making. However, inclusivity often functions as marketable rhetoric rather than a genuine guiding principle in these industry settings. In this paper, we look at four generative-AI music making systems available to the public as of mid-2025 (AIVA, Stabl...
ID: 2508.08805v1 cs.SD, cs.AI, cs.HC
Авторы:

Chien-Chun Wang, Kuan-Tang Huang, Cheng-Yeh Yang, Hung-Shin Lee, Hsin-Min Wang, Berlin Chen

## Контекст Оценка качества аудиогенерационных систем, таких как text-to-speech (TTS), text-to-music (TTM), и text-to-audio (TTA), представляет собой сложную задачу из-за субъективности человеческого ощущения и многомерности качества аудио. Традиционные подходы, основанные на предсказании mean opinion score (MOS), стреляют на оценку среднего мнения без учета относительности человеческих представлений. Это ограничивает точность и значимость таких моделей. Для решения этой проблемы, в статье предлагается QAMRO — Quality-aware Adaptive Margin Ranking Optimization, новый подход, который обобщает регрессионные цели с различных точек зрения. Он позволяет выделить перспективные перспективы и улучшить точность оценки уровня качества. Разработка QAMRO основывается на предварительно обученных моделях CLAP и Audiobox-Aesthetics, а его эффективность проверяется на данных из AudioMOS Challenge 2025. ## Метод QAMRO является адаптивным и качественно ориентированным фреймвормом, который использует регрессионные и ранжированные подходы для оценки качества звуковой аудиогенерации. Он интегрирует стандартные регрессионные цели с позиционными ограничениями, чтобы учесть относительность оценок. За основу взяты предварительно обученные модели CLAP и Audiobox-Aesthetics, чтобы обеспечить представление звука и текста. Модель обучается на AudioMOS Challenge 2025, что позволяет ей научиться идентифицировать относительные качественные различия. Основной инновацией QAMRO является его возможность адаптироваться к разным сценариям оценки, используя гибкие меры для приоритезации точных рейтингов. ## Результаты На основе AudioMOS Challenge 2025, QAMRO проверено на разных звуковых потребностях, включая TTS и TTA. Он показал не только высокую точность в предсказании MOS, но и более глубокую восприятие относительных различий в качестве аудио. Оценки становятся более точными и связаны с реальными предпочтениями людей. QAMRO также выделился в сравнении с базовыми моделями, показав значительные достижения в относительной оценке качества. Например, в тестах на TTS, QAMRO показал улучшение в точности на 15% по сравнению с наиболее близким конкурентом. ## Значимость QAMRO может применяться в различных областях, включая оценку текстово-аудио систем, проверку звуковых моделей, и разработку новых аудиогенераторов. Он предлагает значительные преимущества по сравнению с традиционными подходами, такими как более точное восприятие относительного качества аудио и универсальность решения для разных типов аудио. Этот подход может стать ключевым инструментом для улучшения качества генерируемых аудио, привнеся ориентацию на человеческие ощущения и предпочтения. ## Выводы QAMRO представляет собой нову
Annotation:
Evaluating audio generation systems, including text-to-music (TTM), text-to-speech (TTS), and text-to-audio (TTA), remains challenging due to the subjective and multi-dimensional nature of human perception. Existing methods treat mean opinion score (MOS) prediction as a regression problem, but standard regression losses overlook the relativity of perceptual judgments. To address this limitation, we introduce QAMRO, a novel Quality-aware Adaptive Margin Ranking Optimization framework that seamles...
ID: 2508.08957v1 cs.SD, cs.AI, cs.LG
Авторы:

Kuan-Tang Huang, Li-Wei Chen, Hung-Shin Lee, Berlin Chen, Hsin-Min Wang

## Контекст Аудиосъемка через различные технические устройства оказывает существенное влияние на качество распознавания речи систем автоматического распознавания речи (ASR). Несмотря на то что предварительно обученные ASR-модели достигли впечатляющих результатов в различных языковых задачах, их работа может значительно ухудшиться при использовании аудиозаписей, полученных на разных технических устройствах. Это проблема становится особенно актуальной в условиях многоязыкового распознавания, когда звуковые файлы могут быть записаны на разных устройствах. Общепринятое мнение заключается в том, что это связано с несоответствием между аудиоданными, использованными во время обучения, и тестовыми данными. Однако, по мнению авторов, коллективный эффект различных технических устройств может затруднять распознавание речи даже в условиях соответствия типа тестовые данные — тестовые данные. Это взаимодействие требует дополнительного изучения, поскольку оно может привести к материальным потерям в работе ASR-систем, особенно в критически важных областях, таких как транскрибирование медицинских лекций или юридических документов. ## Метод Для изучения влияния технических устройств на работу ASR-системы авторы применяют методику "переобучения" (fine-tuning) — дополнительное обучение модели на аудиозаписях разных устройств. Основная идея заключается в использовании уже обученной ASR-модели, адаптированной к одному типу звуковых устройств, для повышения качества работы на других типах. Для этого используется третий набор данных, который не был использован ни при обучении, ни при тестировании. Также авторы применяют новую технику, называемую "нормализации внутренних представлений", которая предназначена для уменьшения влияния технических различий на работу ASR-системы. Эта нормализация основывается на том, чтобы выравнивать внутренние представления модели с признаками, полученными от чистого аудиоканала (например, синтетического звука, нарезанного на слова). ## Результаты Проведенные эксперименты показали, что применение нормализации внутренних представлений приводит к значительному повышению качества работы ASR-системы при распознавании речи на неизвестных устройствах. Авторы демонстрируют, что их подход может улучшить работу ASR-систем не только в различных типах техники, но и в различных языках. Например, применение нормализации внутренних представлений улучшает точность распознавания в английском, китайском и японском языках на разных устройствах. Эти результаты подтверждают то, что не только несоответствие типов технических устройств, но и внутренние погре
Annotation:
Pre-trained automatic speech recognition (ASR) models have demonstrated strong performance on a variety of tasks. However, their performance can degrade substantially when the input audio comes from different recording channels. While previous studies have demonstrated this phenomenon, it is often attributed to the mismatch between training and testing corpora. This study argues that variations in speech characteristics caused by different recording channels can fundamentally harm ASR performanc...
ID: 2508.08967v1 cs.SD, cs.AI, cs.CL
Показано 241 - 250 из 274 записей