📊 Статистика дайджестов

Всего дайджестов: 34607 Добавлено сегодня: 484

Последнее обновление: сегодня
Авторы:

Théo Charlot, Tarek Kunze, Maxime Poli, Alejandrina Cristia, Emmanuel Dupoux, Marvin Lavechin

## Контекст Развитие речи у детей является ключевым аспектом их уникального роста и развития. Для исследования этого процесса речью детей в реальных условиях используются данные, записанные в домашних или школьных средах. Однако существующие модели синтеза и анализа речи, обученные на чистом говоре взрослых, часто оказываются неэффективными для работы с детскими записями, из-за значительных акустических и лексических различий. Это ставит дополнительные требования к созданию моделей, которые бы эффективно работали с данными, записанными в живых условиях у детей. ## Метод Мы предлагаем BabyHuBERT, первую модель самостоятельного самостоятельного обучения, обученную на огромном объеме данных — 13,000 часов мультиязычных данных, записанных в реальных условиях, с детьми разных возрастов. Метод основывается на алгоритме HuBERT, с помощью которого учитывается спектро-хроно-грамма аудиоданных. Модель прошла тренировку на данных, записанных в разных странах и языках, чтобы создать универсальную модель, которая может применяться в разных регионах. Мы тестировали модель на ситуациях, когда нужно отличать речь детей от речи взрослых и других детей. ## Результаты Мы проводили испытания BabyHuBERT на шести разных наборах данных в разных регионах. Модель показала F1-показатели от 52.1% до 74.4%, стабильно превосходя W2V2-LL4300 (обученную на английских данных) и стандартную HuBERT (обученную на чистом аудио взрослых). Особые улучшения были замечены на вангату (13.2 абсолютных очков) и на соломонских островах (15.9 очков), что демонстрирует эффективность BabyHuBERT на редко используемых языках. ## Значимость BabyHuBERT может применяться в различных областях, включая развитие новых способов изучения детской речи, моделирование дефектов речи и разработку моделей для предсказания детского развития. Эта модель является фундаментальным решением для обеспечения эффективной обработки данных в реальных условиях. ## Выводы BabyHuBERT достигает значительных улучшений в сегментации речи на детских записях, становится первой моделью, обученной на мультиязычных данных в реальных условиях. Мы разделяем код и модели, чтобы поддерживать дальнейшие исследования в области развития речи у детей. Будущие исследования будут сосредоточены на улучшении модели для новых сложностей и применении ее к другим языкам и региональным данным.
Annotation:
Child-centered long-form recordings are essential for studying early language development, but existing speech models trained on clean adult data perform poorly due to acoustic and linguistic differences. We introduce BabyHuBERT, the first self-supervised speech representation model trained on 13,000 hours of multilingual child-centered long-form recordings spanning over 40 languages. We evaluate BabyHuBERT on speaker segmentation, identifying when target children speak versus female adults, mal...
ID: 2509.15001v1 eess.AS, cs.LG, cs.SD
Авторы:

Simon Welker, Tal Peer, Timo Gerkmann

## Контекст Метод Mel vocoding, или восстановление аудиогруппы из Mel-магнитудного спектрограммы, является важной задачей в развитии систем текстовой речи (TTS). Несмотря на то, что существуют существующие подходы, такие как HiFi-GAN, они не подходят для реального времени из-за высокой обработки данных. Эта проблема особенно актуальна для текстовой речи, где необходимы короткие временные задержки (latency) для обеспечения естественного звучания. Наша работа нацелена на разработку модели, которая не только воспроизводит звук с высокой скоростью, но и обладает низкой задержкой для реального времени, чтобы создать естественный и качественный голос. ## Метод Мы предлагаем MelFlow, модель, основанную на технологии generative flow matching, которая работает в режиме потоковой передачи и обеспечивает значительно более низкую задержку. Модель использует алгоритм DiffPhase для восстановления фазовой информации и псевдоинверсную операцию Mel filterbank для Mel-магнитудного спектрограммы. Это позволяет достичь низкой задержки в 32 мс с обработкой 16 кГц. Мы строим нашу модель на основе глубоких нейронных сетей, используя архитектуру генеративных сетей, которая может обрабатывать аудио с меньшей задержкой в реальном времени. ## Результаты Мы проводили эксперименты с различными данными, включая реальное аудио, и сравнили результаты с другими моделями. Наши результаты показали, что MelFlow не только достигает низкой задержки, но и показывает значительно лучшие результаты по метрикам PESQ и SI-SDR по сравнению с HiFi-GAN и другими моделями. Эти результаты подтверждают эффективность нашей модели в реальном времени и её высокое качество аудиовоспроизведения. ## Значимость Мы видим широкие возможности применения MelFlow в различных областях, включая текстовую речь и синтез голоса, где требуется высокая скорость и качество. Наша модель может применяться в системах TTS, виртуальных помощниках и играх. Основное преимущество заключается в низкой задержке и высоком качестве звука, что делает её более эффективной по сравнению с доступными альтернативами. Мы считаем, что наш подход может повлиять на развитие технологий голосового синтеза и естественного аудио-процессинга. ## Выводы Мы разработали MelFlow, модель, которая не только обеспечивает реальное время, но и показывает высокое качество звука. В дальнейшем, мы планируем расширить функциональность модели и провести дополнительные эксперименты для повышения её точности и скорости. Мы также планируем применить её в различных приложениях, чтобы продемонстрировать её практическую значимость и потенциал в текстовой речи и синтезе голоса.
Annotation:
The task of Mel vocoding, i.e., the inversion of a Mel magnitude spectrogram to an audio waveform, is still a key component in many text-to-speech (TTS) systems today. Based on generative flow matching, our prior work on generative STFT phase retrieval (DiffPhase), and the pseudoinverse operator of the Mel filterbank, we develop MelFlow, a streaming-capable generative Mel vocoder for speech sampled at 16 kHz with an algorithmic latency of only 32 ms and a total latency of 48 ms. We show real-tim...
ID: 2509.15085v1 eess.AS, cs.LG, cs.SD, eess.SP
Авторы:

Janne Laakkonen, Ivan Kukanov, Ville Hautamäki

#### Контекст Глубокая подделка аудио (audio deepfake) представляет собой синтезированные аудиозаписи, которые нацелены на подмену личности или мошенничество. Это актуальная проблема, даже несмотря на развитие методов и защитных систем. Основная трудность заключается в том, что модели, обученные на определенных образцах глубоко подделанных аудио, часто не могут обнаружить новые, неизвестные алгоритмы подделки. Это ограничивает их общий потенциал в реальных условиях. #### Метод Мы предлагаем архитектуру **Mixture of Low-Rank Adapter Experts (MoE-LoRA)**, основанную на использовании **LoRA (Low-Rank Adaptations)** для динамического улучшения модели Wav2Vec2. Наша модель включает несколько низкоранжевых адаптеров (LoRA), которые могут быть активированы специальным механизмом маршрутизации. Это позволяет модели динамически адаптироваться к новым моделям глубокой подделки, не переобучаясь на существующих образцах. Этот метод добавляет гибкость и увеличивает уровень общих навыков модели. #### Результаты Мы провели эксперименты, сравнив нашу модель с стандартным методом оптимального тонкого тюнинга (fine-tuning). Использовались два типа данных: внутридоменные (схожи с обучающим набором) и выходящие за домен (новые типы подделки). Наши результаты показали, что **MoE-LoRA** снижает равную ошибку ошибок (EER) в сравнении с базовой моделью, особенно в выходных данных. Например, в выходном домене EER уменьшился с 8.55% до 6.08%, указывая на высокую универсальность нашего подхода. #### Значимость Метод может применяться в области аудио-анализа, в частности для защиты от глубокой подделки. Он обладает высокой гибкостью и может быть применен для обнаружения неизвестных типов подделки. Это дает преимущество перед традиционными методами, которые часто сталкиваются с проблемой узкой специализации. Наш подход может помочь в развитии новых защитных систем, увеличивая общую эффективность систем безопасности. #### Выводы Наша работа устанавливает новый подход к обнаружению глубоко подделанных аудиозаписей, обеспечивая значительное улучшение универсальности и точности. Это подтверждает эффективность **MoE-LoRA** в обнаружении новых типов мошенничества. Будущие исследования будут направлены на улучшение механизмов маршрутизации, а также на расширение применений нашей модели в других задачах звукового анализа.
Annotation:
Foundation models such as Wav2Vec2 excel at representation learning in speech tasks, including audio deepfake detection. However, after being fine-tuned on a fixed set of bonafide and spoofed audio clips, they often fail to generalize to novel deepfake methods not represented in training. To address this, we propose a mixture-of-LoRA-experts approach that integrates multiple low-rank adapters (LoRA) into the model's attention layers. A routing mechanism selectively activates specialized experts,...
ID: 2509.13878v1 eess.AS, cs.LG, cs.SD
Авторы:

Luca Casini, Laura Cros Vila, David Dalmazzo, Anna-Kaisa Kaila, Bob L. T. Sturm

## Контекст Онлайн-платформы для создания музыки с использованием текстовых подсказок (AI music), такие как Suno и Udio, привлекли сотни тысяч пользователей. Эти платформы находят применение в рекламе и даже в чартах музыкальных хитов в нескольких странах. Насколько эффективно и широко используются эти сервисы? Какие темы вдохновляют их пользователей? Целью данного исследования является осуществить подробный анализ этих вопросов, основываясь на большой коллекции музыки, сгенерированной пользователями Suno и Udio с мая по октябрь 2024 года. Результаты этого анализа должны пролить свет на поведение пользователей, их интересы и стратегии взаимодействия с AI-системами. ## Метод Для получения данных были использованы музыкальные композиции, созданные пользователями Suno и Udio в указанный период. Методология исследования включала сочетание нескольких стандартных методов, включая текстовые модели для эмбеддингов, методы снижения размерности и кластеризацию. Эти техники были применены для анализа текстовых подсказок, тегов и текстов песен. Далее, полученные результаты были автоматически обработаны и представлены в виде интерактивных визуализаций, позволяющих проанализировать и анализировать данные с разных углов. ## Результаты На основе исследования были выявлены основные темы в текстах песен, такие как любовь, жизнь и персональные опыты. Также были выявлены различные стратегии взаимодействия с AI-системами, включая использование мета-тегов для направления вывода моделей. Было выявлено, что пользователи предпочитают определенные языки для создания текстов, что влияет на конечный результат. Еще одним значимым результатом было выявление аномалий в поведении пользователей, в том числе попыток "стейкинга" АИ, чтобы повлиять на результат. ## Значимость Результаты этого исследования имеют значительное значение для музыкальных исследований, особенно в контексте развития AI-технологий в музыкальном производстве. Они позволяют понять, как пользователи взаимодействуют с AI-системами, как они используют текстовые подсказки, а также как эти системы могут быть обмануты. Эти полученные результаты могут быть применены в музыкальной промышленности для улучшения систем AI, для развития новых музыкальных жанров и для изучения культурных явлений, связанных с AI-музыкой. ## Выводы Основные достижения этой работы заключаются в получении подробного анализа текстов и стратегий взаимодействия с AI-системами, создающими музыку. Были выявлены значимые темы и языковые предпочтения, а также выявлены
Annotation:
Online AI platforms for creating music from text prompts (AI music), such as Suno and Udio, are now being used by hundreds of thousands of users. Some AI music is appearing in advertising, and even charting, in multiple countries. How are these platforms being used? What subjects are inspiring their users? This article answers these questions for Suno and Udio using a large collection of songs generated by users of these platforms from May to October 2024. Using a combination of state-of-the-art...
ID: 2509.11824v1 cs.IR, cs.AI, cs.LG, cs.SD
Авторы:

Peter Vieting, Benedikt Hilmes, Ralf Schlüter, Hermann Ney

#### Контекст Автоматический распознавание речи (ASR) является ключевым направлением в области обработки естественного языка, стремящимся преодолеть барьеры между людьми и машинами. Существующие системы ASR часто полагаются на традиционные методы для извлечения акустических признаков, такие как Mel-frequency cepstral coefficients (MFCCs) или linear prediction coefficients (LPCs). Однако эти методы имеют ограничения в обработке сложных акустических сценариев. Нейронные сети предлагают возможность извлечения более высокого качества признаков, оптимизированных для конкретных задач ASR. Несмотря на это, многие из них остаются привязаны к классическим моделям, что существенно снижает потенциал универсальности и гибкости. Наше исследование рассчитано на развитие более универсальной архитектуры для извлечения признаков, которая бы была эффективной для различных ASR-систем. #### Метод Для решения проблемы стандартизированных методов извлечения признаков мы предлагаем новую архитектуру, сочетающую 2D-конволюционные сети с новыми адаптивными функциями для извлечения признаков. Методология основывается на двух основных предпосылках: 1) 2D-конволюционные слои позволяют извлекать признаки, учитывающие зависимости между звуковыми окружениями в пространстве и времени; 2) Универсальная модель не должна привязываться к конкретным предварительно обученным моделям или классическим методам. Мы предлагаем архитектуру с несколькими уровнями, которая может быть применена как в предобученных, так и в учебных сценариях. В нашей модели используется эффективный фреймворк для извлечения признаков, который учитывает объем вычислительных ресурсов, доступных в конкретных ситуациях. #### Результаты Для оценки эффективности предлагаемой модели мы провели серию экспериментов на различных данных ASR. Эти данные включали записи с высоким уровнем шума, с разным акцентом и разным языком. Мы сравнили результаты наших моделей с традиционными методами, такими как MFCCs и LPCs, а также с более современными нейронными моделями, такими как Wav2Vec и HuBERT. Наши результаты показали, что 2D-конволюционная модель показывает почти одинаковое качество признаков по сравнению с предварительно обученными моделями, при этом требуя меньших вычислительных ресурсов. Особое внимание уделялось влиянию универсальной архитектуры на уменьшение пропускаемой информации и повышение стабильности системы ASR в разных условиях. #### Значимость Предлагаемая модель может быть применена в разных сферах ASR, включая системы, работающие в реальном времени, а также в мобильных приложениях, где ограничены вычислительные ресур
Annotation:
Neural front-ends represent a promising approach to feature extraction for automatic speech recognition (ASR) systems as they enable to learn specifically tailored features for different tasks. Yet, many of the existing techniques remain heavily influenced by classical methods. While this inductive bias may ease the system design, our work aims to develop a more generic front-end for feature extraction. Furthermore, we seek to unify the front-end architecture contrasting with existing approaches...
ID: 2509.10031v1 eess.AS, cs.CL, cs.LG, cs.SD
Авторы:

Peter Vieting, Simon Berger, Thilo von Neumann, Christoph Boeddeker, Ralf Schlüter, Reinhold Haeb-Umbach

## Контекст Meeting transcription является областью высокой актуальности и существенного прогресса в последние годы. Однако некоторые задачи в ней до сих пор остаются неразрешимыми. Одним из таких вызовов является анализ ошибок в модульных системах транскрибирования, которые могут влиять на качество транскрибирования. Исследователи стремятся к пониманию этих проблем, чтобы оптимизировать системы и минимизировать ошибки. Целью данного исследования является расширение фреймворка для анализа темпоральной локальности в системах сепарации речи и его применение для оценки ошибок в модульных системах транскрибирования. Ранее, анализ ошибок ограничивался одной точке времени, но в данной работе введена методика, которая учитывает темпоральную локальность, что позволяет более точно оценить ошибки. ## Метод Для анализа ошибок в модульных системах транскрибирования разработана новая методика, основанная на расширенной методологии для анализа темпоральной локальности. Эта методика применяется к системе, которая использует модульную архитектуру, включающую модули для сепарации речи, звуковой активности и распознавания речи. Методика включает в себя сравнение различных сегментаций, в том числе идеальной (оркестрованной) сегментации, легковесной сегментации на основе энергии и более сложными методами диаризации. Эксперименты проводились на данных LibriCSS, которые являются открытым ресурсом для тестирования систем транскрибирования. ## Результаты Результаты показывают, что такие методы диаризации, как x-vector и diarization с N-лучами, существенно сокращают разрыв с идеальной сегментацией по сравнению с простой энергий-based VAD. Тем не менее, остаётся заметный разрыв в третьей части результатов. Изучение этого разрыва показало, что основные факторы включают неточности в активности речи, синхронизацию между модулями и недостаточную точность распознавания речи в условиях высокого шума. Эти факторы определяют остаточные ошибки в системе. Более того, проведенный анализ позволил выявить, что прогресс в сепарации речи и diarization имеет существенное влияние на ошибки, но не устраняет их полностью. ## Значимость Результаты этой работы имеют большое значение для развития модульных систем транскрибирования. Они демонстрируют, что улучшение модулей сепарации речи и диаризации может привести к значительным улучшениям в качестве транскрибирования. Кроме того, работа показывает, что улучшение точности распознавания речи в условиях высокого шума и уменьшение неточностей в синхронизации модулей могут существенно уменьшить остаточные ошибки. В будущем, эти находки могут быть применены для со
Annotation:
Meeting transcription is a field of high relevance and remarkable progress in recent years. Still, challenges remain that limit its performance. In this work, we extend a previously proposed framework for analyzing leakage in speech separation with proper sensitivity to temporal locality. We show that there is significant leakage to the cross channel in areas where only the primary speaker is active. At the same time, the results demonstrate that this does not affect the final performance much a...
ID: 2509.10143v1 eess.AS, cs.CL, cs.LG, cs.SD
Авторы:

Patricia Hu, Silvan David Peter, Jan Schlüter, Gerhard Widmer

Эта статья посвящена изучению возможностей адаптации современных моделей транскрипции музыкальных произведений для реального времени, с минимальной задержкой. Нацелена она на задачи воспроизведения и транскрипции звуков пианино в реальном времени, где задержка должна составлять меньше 30 миллисекунд. Такая задача является ключевой для применения музыкальных технологий в реальных условиях, но до сих пор была нерешенной. ## Контекст Область транскрибирования звуков пианино широко применяется в музыкальных приложениях, таких как автоматическое воспроизведение, анализ композиций и даже игра на электронных инструментах. Однако существующие модели, работающие в оффлайн режиме, не подходят для реального времени из-за высокой задержки. Другие модели, работающие в реальном времени, страдают от больших задержек в 128–320 миллисекунд, что не приемлемо для музыкальных приложений. Мотивация этого исследования заключается в том, чтобы разработать модель, которая могла бы обеспечить адекватный рабочий процесс в реальном времени с минимальной задержкой. ## Метод Методология исследования основывается на изменении и адаптации существующих моделей транскрипции, чтобы достичь минимальной задержки без потери качества транскрипции. Авторы используют нейронные сети, которые структурируются таким образом, чтобы исключить все некаскадные процессы, такие как обратная связь, и минимизировать вычислительный заряд. Например, они применяют вариации моделей разной степени сложности и используют различные предобработки и постпроцессинг, чтобы оптимизировать транскрипцию. Особое внимание уделено систематическому анализу этих подходов и их последствий на точность транскрипции. ## Результаты Экспериментальные исследования проводились на датасете MAESTRO, который включает в себя многочисленные записи музыки для пианино. Результаты показали, что применение строго каскадных процессов приводит к снижению точности транскрипции. Тем не менее, удалось достичь уменьшения задержки до приемлемого уровня. Однако эта адаптация показала взаимосвязь между задержкой предварительной обработки и точностью предсказания. Это позволило выявить торговую марку между минимальной задержкой и воспроизведением без потерь. ## Значимость Результаты данного исследования имеют важное значение для многих областей, таких как музыкальные приложения, реальное время интерактивности, а также для развития новых технологий в области музыки и звука. Эта модель может быть применена в реальных ситуациях, таких как воспроизведение музыки в реальном времени
Annotation:
Advances in neural network design and the availability of large-scale labeled datasets have driven major improvements in piano transcription. Existing approaches target either offline applications, with no restrictions on computational demands, or online transcription, with delays of 128-320 ms. However, most real-time musical applications require latencies below 30 ms. In this work, we investigate whether and how the current state-of-the-art online transcription model can be adapted for real-ti...
ID: 2509.07586v1 eess.AS, cs.LG, cs.SD
Авторы:

Konstantinos Drossos, Mikko Heikkinen, Paschalis Tsiaflakis

#### Контекст Звуковое очищение (speech denoising, SD) является важной задачей для многих современных сигнальных обработчиков, используемых в устройствах для повседневных целей. Несмотря на то, что существует много DNN-based методов для SD, большинство из них не предназначены для быстродействия на ресурсно-ограниченных платформах, таких как мобильные устройства. Более того, немногие из этих методов сосредоточены на обработке полнополосных (full-band, FB) сигналов с высокой частотой дискретизации (48 кГц) или требуют низкой задержки. Этот труд подробно рассматривает разработку легковесного DNN-based метода для FB SD, который эффективно использует как короткие, так и длинные временные зависимости в сигнале и его оценке. #### Метод Метод основывается на модифицированной архитектуре UNet, которая включает в себя look-back frames, расширенные как вдоль, так и поперёк окна звукового сигнала. Архитектура также включает инвертированные бутленки (inverted bottlenecks), имитирующие MobileNet, каскадные сверточные сети с рекуррентными нейронными сетями (RNN) для обработки длинных и коротких временных зависимостей. Учитывая природу SD в режиме реального времени, метод работает кадрово (frame-by-frame) и использует STFT-матрицу звука в качестве входного параметра. Для нормализации каналов применяется каскадная инстансная нормализация (causal instance normalization). Результатом модели является рекуррентная оценка маски дезинформации, используемой для очистки звукового сигнала. #### Результаты Для проверки разработанного метода использовались различные спектрограммы (STFT) с полнополостными сигналами (48 кГц) из открытых источников данных. Оптимизированная модель показала высокую эффективность, достигая значительного улучшения в метриках (SI-)SDR по сравнению с другими методами FB SD с низкой задержкой. Эти результаты достигнуты благодаря интеграции как коротких, так и длинных временных зависимостей, а также благодаря оптимизации архитектуры с учетом ресурсов реального времени. #### Значимость Разработанный метод имеет широкие применения в области обработки звука, включая мобильные устройства, смарт-гаджеты и устройства с ограниченными ресурсами. Он эффективно решает проблему SD в режиме реального времени, при оптимальном балансе между качеством и скоростью. Это делает его привлекательным для многих приложений, таких как голосовые помощники, системы отчёта слов и устройства связи на мобильных платформах. Благодаря использованию легковесной архитектуры, метод обеспечивает низкую задержку и высокую эффективость, делая его оптимальным выбором для мобильных приложений. #### Выводы Выполн
Annotation:
Speech denoising (SD) is an important task of many, if not all, modern signal processing chains used in devices and for everyday-life applications. While there are many published and powerful deep neural network (DNN)-based methods for SD, few are optimized for resource-constrained platforms such as mobile devices. Additionally, most DNN-based methods for SD are not focusing on full-band (FB) signals, i.e. having 48 kHz sampling rate, and/or low latency cases. In this paper we present a causal, ...
ID: 2509.05079v1 eess.AS, cs.LG, cs.SD, eess.SP
Авторы:

Jiajun He, Naoki Sawada, Koichi Miyazaki, Tomoki Toda

## Контекст Автоматическое распознавание речи (ASR) широко применяется в различных областях, но сталкивается с значительными проблемами в распознавании доменно-специфических названий сущностей, особенно при наличии гомофонов. Традиционные методы часто не могут точно различать похожие фонетические варианты слов, что приводит к высокой ошибке распознавания. Это особенно актуально для языков с богатой фонетической структурой, таких как китайский, где неточности в распознавании названий сущностей могут привести к серьезным последствиям. Поэтому, целью данного исследования является разработка метода, позволяющего значительно повысить точность распознавания доменно-специфических лексем, включая гомофоны. ## Метод Предлагаемый метод, Phoneme-Augmented Robust Contextual ASR via COntrastive entity disambiguation (PARCO), включает несколько ключевых компонентов: 1. **Phoneme-Aware Encoding**: Использование фонемов в качестве дополнительных признаков для улучшения точности распознавания. 2. **Contrastive Entity Disambiguation**: Метод, позволяющий отличать похожие звуковые сущности, используя контрастное сравнение. 3. **Entity-Level Supervision**: Обучение системы на основе супервайзед данных, которое позволяет лучше учитывать контекст и фонетические особенности. 4. **Hierarchical Entity Filtering**: Фильтрация сущностей на разных уровнях вложенности, чтобы уменьшить false positives и увеличить precision. Техническая архитектура PARCO основана на взаимодействии этих компонентов, что обеспечивает уверенное распознавание и сокращение ошибок. ## Результаты Проведенные эксперименты показали, что PARCO достигает следующих результатов: - **Chinese AISHELL-1**: Character Error Rate (CER) составил 4.22% при работе с 1,000 distractors. - **English DATA2**: Word Error Rate (WER) составил 11.14% при работе с 1,000 distractors. - **Out-of-Domain Datasets**: Значимые улучшения также были продемонстрированы на данных THCHS-30 и LibriSpeech, что указывает на широкую применимость PARCO. Сравнение с базовыми методами показало, что PARCO обеспечивает значительные повышения точности, особенно в условиях высокой конфузии. ## Значимость Предложенный подход может быть применен в различных сферах, где точность распознавания доменных названий ключевая. Например, в системах контроля доступа, сервисах поддержки или системах распознавания речи в медицинской информатике. Основные преимущества PARCO заключаются в улучшенной точности, уменьшении false positives и обеспечении гибкости при работе с различными типами данных. Потенциальное влияние PARCO заключается в улучшении качества работы ASR-систем, что может привести к улучшению пользовательского опыта и эффективности в различных промышленных приложениях. ## Выводы Результаты исследо
Annotation:
Automatic speech recognition (ASR) systems struggle with domain-specific named entities, especially homophones. Contextual ASR improves recognition but often fails to capture fine-grained phoneme variations due to limited entity diversity. Moreover, prior methods treat entities as independent tokens, leading to incomplete multi-token biasing. To address these issues, we propose Phoneme-Augmented Robust Contextual ASR via COntrastive entity disambiguation (PARCO), which integrates phoneme-aware e...
ID: 2509.04357v1 cs.CL, cs.AI, cs.LG, cs.SD
Авторы:

Evan King, Adam Sabra, Manjunath Kudlur, James Wang, Pete Warden

## Контекст ### Область исследования Автоматическое распознавание речи (Automatic Speech Recognition, ASR) является ключевым компонентом современных технологий, обеспечивающих удобный доступ к информации. Однако существующие решения часто ориентированы на широко поддерживаемые языки, оставляя подзападных языков без качественных систем ASR. Это ограничивает возможности использования ASR для этих языков в устройствах Edge (например, мобильных устройствах). ### Мотивация Предлагаемые системы ASR часто основываются на многоязычных моделях, использующих методы кросс-лингвистического обучения для извлечения схожих фонетических оттенков. Тем не менее, для небольших моделей, ограниченных по размеру, такие подходы могут оказаться неэффективными. Это влечет за собой потребность в разработке специализированных моделей, оптимизированных для отдельных языков. ## Метод ### Методология Базовая модель — сеть на основе конфигурации T-Tiny (27 миллионов параметров). Модель обучалась с использованием следующих типов данных: 1. **Human-labeled data**: высококачественные звуковые сэмплы с прямыми транскриптами. 2. **Pseudo-labeled data**: автоматически сгенерированные транскрипты с помощью моделей ASR на более широко распространенных языках. 3. **Synthetic data**: созданные синтетические речи на основе генеративных моделей. Эта стратегия обучения позволила максимально эффективно использовать ресурсы для оптимизации моделей под конкретные языки. ### Технические решения - **Data Augmentation**: Использование генерируемых данных для увеличения разнообразия обучающих выборок. - **Knowledge Distillation**: Обучение модели на основе других моделей, позволивших достичь высокой точности с меньшим размером. ## Результаты ### Эксперименты Набор данных включал говорящие тесты на языках: арабский, китайский, иврит, японский, корейский, украинский и вьетнамский. Метрики оценки: Word Error Rate (WER) и Character Error Rate (CER). ### Результаты - **Сравнение с Whisper**: Модели Flavors of Moonshine достигли 48% более низкого WER по сравнению с Whisper Tiny. - **Сравнение с более крупными моделями**: В некоторых случаях даже превосходили Whisper Medium (28x больше по размеру). - **Поддержка недоступных ранее языков**: Модели позволили достичь точности, ранее не достижимой для этих языков. ## Значимость ### Области применения - **Edge Devices**: Например, смартфоны, смарт-спикеры, транскрибирование на устройствах на угловых кустах. - **Развитие языков**: Обеспечение точного ASR для языков, которые ранее были затруднены из-за отсутствия качественных моделей. ### Преимущества - **
Annotation:
We present the Flavors of Moonshine, a suite of tiny automatic speech recognition (ASR) models specialized for a range of underrepresented languages. Prevailing wisdom suggests that multilingual ASR models outperform monolingual counterparts by exploiting cross-lingual phonetic similarities. We challenge this assumption, showing that for sufficiently small models (27M parameters), training monolingual systems on a carefully balanced mix of high-quality human-labeled, pseudo-labeled, and syntheti...
ID: 2509.02523v1 cs.CL, cs.LG, cs.SD
Показано 41 - 50 из 68 записей