📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 FlexCTC: GPU-powered CTC Beam Decoding with advanced Contextual Abilities

2025-08-13

Авторы:

Lilit Grigoryan, Vladimir Bataev, Nikolay Karpov, Andrei Andrusenko, Vitaly Lavrukhin, Boris Ginsburg

## Контекст Улучшение качества речевого распознавания является ключевым заданием в машинном обучении, особенно в задачах ASR (Automatic Speech Recognition). Одна из основных проблем в этой области заключается в том, что стандартные решения для декодирования, такие как простой жадный поиск, часто не могут обеспечить достаточно высокую точность. Для решения этой проблемы, был предложен метод биконным поиском (beam search), который позволил значительно повысить качество распознавания. Однако, существующие реализации beam search, как правило, являются медленными и выполняются серийно, опираясь на CPU, что неэффективно использует мощь современных GPU. Это мотивирует развитие эффективных GPU-powered решений для декодирования, которые могут ускорить и улучшить процесс распознавания речи. ## Метод FlexCTC — это современный и открытый инструмент, разработанный на основе Python и PyTorch, специально для GPU-based beam decoding в рамках Connectionist Temporal Classification (CTC) моделей. Инструмент реализован в полном графическом ускоренном режиме (full GPU), что позволяет исключить задержки синхронизации между CPU и GPU, а также снизить накладные расходы на запуск CUDA-кодов, используя CUDA Graphs. Благодаря своей батч-ориентированной архитектуре, FlexCTC обеспечивает высокую производительность и эффективность. Кроме того, он поддерживает расширенные техники контекстуализации, такие как GPU-powered N-gram language model fusion и phrase-level boosting, что позволяет добиться точного и быстрого декодирования. ## Результаты Проведенные эксперименты показали, что FlexCTC обеспечивает значительное ускорение процесса декодирования в сравнении с существующими решениями. Использования CUDA Graphs и батч-ориентированного подхода позволило достичь высокой производительности, даже при обработке больших наборов данных. Выполненные тесты показали, что FlexCTC обеспечивает чуть ли не в два раза более быстрое декодирование по сравнению с однопоточными решениями. Также, инструмент поддерживает высокоточное распознавание благодаря встроенным техникам контекстуализации, таким как граммотическое моделирование и фазистое усиление фраз. ## Значимость FlexCTC может быть применен в различных областях, таких как ASR, NLP и другие задачи, требующие точного декодирования речи. Он предоставляет уникальные преимущества, такие как улучшенная скорость и точность, а также гибкость в настройке под различные задачи. Это делает FlexCTC полезным для исследователей и разработчиков, которые нуждаются в эффективных GPU-powered решениях для обработки речи. Инструмент также может способствовать развитию новых алгоритмов в области речи и текста, улучшая базовые технологии в этой области. ## Выводы FlexCTC — это мощный и эффективный инструмент для GPU-based beam decoding, разработанный с учетом современных

Annotation:

While beam search improves speech recognition quality over greedy decoding, standard implementations are slow, often sequential, and CPU-bound. To fully leverage modern hardware capabilities, we present a novel open-source FlexCTC toolkit for fully GPU-based beam decoding, designed for Connectionist Temporal Classification (CTC) models. Developed entirely in Python and PyTorch, it offers a fast, user-friendly, and extensible alternative to traditional C++, CUDA, or WFST-based decoders. The toolk...

ID: 2508.07315v1 eess.AS, cs.AI, cs.CL, cs.LG, cs.SD

arXiv PDF

📄 Large Language Model Data Generation for Enhanced Intent Recognition in German Speech

2025-08-12

Авторы:

Theresa Pekarek Rosin, Burak Can Kaplan, Stefan Wermter

## Контекст **Область исследования и существующие проблемы** Intent recognition (IR) является ключевым компонентом систем артифициального интеллекта (AI), особенно для ассистентов с речевыми командами. Однако существующие подходы, большая часть которых разработана для английского языка, сталкиваются с ограничениями при работе с другими языками и специфическими стилями речи, такими как речь старших людей. Эти ограничения сильно сказываются на качестве распознавания интентов в речи германского языка, особенно для поддержки старшего поколения. Этот геограмфический и гендерный дискриминационный аспект требует конкретного анализа и решения. **Мотивация** Ключевой мотивацией является улучшение моделей IR для речи старших людей на германском языке. Это нужно для повышения точности распознавания и лучшего взаимодействия с AI-системами. Недостаток данных в этой сфере ограничивает развитие AI-систем, а наша методика предлагает эффективное решение этой проблемы. ## Метод **Методология и технические решения** Мы предлагаем сочетание нескольких технических подходов. Во-первых, мы использовали адаптированный Whisper ASR (Automatic Speech Recognition) модель, которая была приспособлена для работы с германским языком, особенно с речью старшего поколения (SVC-de). Во-вторых, мы использовали трансформер-базированные языковые модели (LLMs), такие как LeoLM, Llama3 и ChatGPT, для генерации синтетических данных для обучения. Эти модели были запущены на созданных специально для этой задачи синтетических текстовых данных. **Архитектура** Мы объединили эти модели в интегрированную архитектуру. Адаптированная Whisper ASR модель служит для распознавания речи. Затем, генерируемые данные от LLMs проходят через модель IR, которая учится классифицировать интенты. Мы также проводим cross-dataset testing для оценки устойчивости наших моделей к разным стилям речи и невиденному лексикону. ## Результаты **Эксперименты и используемые данные** Мы проводили тщательные эксперименты на разных наборах данных. Эталонные данные были сгенерированы с помощью SVC-de, а синтетические данные — с помощью LLMs. Мы провели несколько тестов, включая cross-dataset testing, чтобы оценить качество распознавания интентов. Одним из основных результатов является устойчивость наших моделей к разным стилям речи и невиденному лексикону. **Полученные результаты** Основным положительным результатом является повышение точности классификации интентов в речи старших людей. Мы также обнаружили, что синтетические данные, генерируемые с помощью LLMs, значительно улучшают производительность моделей IR. Наши результаты показы

Annotation:

Intent recognition (IR) for speech commands is essential for artificial intelligence (AI) assistant systems; however, most existing approaches are limited to short commands and are predominantly developed for English. This paper addresses these limitations by focusing on IR from speech by elderly German speakers. We propose a novel approach that combines an adapted Whisper ASR model, fine-tuned on elderly German speech (SVC-de), with Transformer-based language models trained on synthetic text da...

ID: 2508.06277v1 cs.CL, cs.LG, cs.SD

arXiv PDF

📄 CAK: Emergent Audio Effects from Minimal Deep Learning

2025-08-09

Авторы:

Austin Rockman

## Контекст Исследование сосредоточено на исследовании возможностей небольших нейронных сетей для создания эффектов в аудио-сигналах. Общая проблема заключается в том, что создание высококачественных звуковых эффектов зачастую требует больших объемов данных и высокообъемных моделей, что усложняет их разработку в условиях ограниченных ресурсов. Мотивация заключается в том, чтобы доказать, что даже очень малые модели могут выполнять задачи связанных с аудио-сигналами, при этом придавая особое внимание к способности этих моделей интепретировать и контролировать аудио-сигналы. ## Метод Методология исследования основывается на двух основных технических решениях. Во-первых, **Conditioning Aware Kernels (CAK)** — это способ, где каждый выход модели генерируется как основной вход плюс произведение научной третьей компоненты (паттерна, "условного управления") и контрольного параметра. Это позволяет осуществлять контроль за свойствами звука, в то же время сохраняя идентичность ввода. Во-вторых, **AuGAN** — это развитие метода борьбы с адверсарным обучением, который перерабатывает подход к обучению сети. Вместо того, чтобы сеть выявляла фальшивые данные, она оценивает, был ли применен указанный контрольный параметр. Это разработка позволяет модели не только генерировать содержание, но и контролировать его. ## Результаты Для проведения экспериментов использовалось 200 аудио-примеров из личного корпуса. Эта маленькая выборка позволила модели выучить качественные эффекты, такие как звуковые сдвиги в зависимости от частоты. Модель CAK показала способность выдавать эффекты, которые могут быть применены к разным аудио-сигналам, в том числе и к звукам, отличным от тех, которые были входом в модель. Эксперимент с AuGAN подтвердил, что модель может определять, был ли контрольной параметр применен или нет, даже при небольших объемах данных, что демонстрирует эффективность метода в создании звуковых эффектов. ## Значимость Результаты исследования могут быть применены в различных областях, включая синтез аудио, звукопроектирование, артифактный аудио синтез или даже в гаме дизайн. Одним из основных преимуществ является то, что модель может работать с самыми малыми объемами данных, что сокращает требования к обучению. Это может не только упростить процесс создания звуковых эффектов, но и повысить эффективность в разработке аудио-синтеза и звуковых систем. ## Выводы Это работа демонстрирует возможность создания эффективных моделей аудио-синтеза с использованием минимальных объемов данных. Обнаруженный подход, CAK, показал спосо

Annotation:

We demonstrate that a single 3x3 convolutional kernel can produce emergent audio effects when trained on 200 samples from a personalized corpus. We achieve this through two key techniques: (1) Conditioning Aware Kernels (CAK), where output = input + (learned_pattern x control), with a soft-gate mechanism supporting identity preservation at zero control; and (2) AuGAN (Audit GAN), which reframes adversarial training from "is this real?" to "did you apply the requested value?" Rather than learning...

ID: 2508.02643v1 cs.LG, cs.SD, eess.AS

arXiv PDF

📄 The State Of TTS: A Case Study with Human Fooling Rates

2025-08-09

Авторы:

Praveen Srinivasa Varadhan, Sherry Thomas, Sai Teja M. S., Suvrat Bhooshan, Mitesh M. Khapra

**Резюме** В статье предлагается Human Fooling Rate (HFR) — метрика, оценивающая вероятность того, что машинно-генерируемое речью может быть путана с речью человека. Авторы проводят широкомасштабное тестирование открытых и коммерческих TTS-систем и выявляют ключевые проблемы: (i) теории о «человеческом качестве», основанных на CMOS, часто не проходят человеческий тест на обман, (ii) для точного бенчмаркинга TTS следует использовать данные, где звучание человека достигает высокого HFR, так как сравнение с маловыразительными референсами снижает степень требований, (iii) коммерческие модели подходят к человеческому уровню в zero-shot сценариях, в то время как открытые системы сложностями страдают при работе с естественным разговорным языком, (iv) тестирование на высококачественных данных улучшает реализм, но не полностью приближает результаты к уровню человеческого. Основной вывод — необходимо развивать более реалистичные, человеко-центричные методы оценки в дополнение к субъективным тестам.

Annotation:

While subjective evaluations in recent years indicate rapid progress in TTS, can current TTS systems truly pass a human deception test in a Turing-like evaluation? We introduce Human Fooling Rate (HFR), a metric that directly measures how often machine-generated speech is mistaken for human. Our large-scale evaluation of open-source and commercial TTS models reveals critical insights: (i) CMOS-based claims of human parity often fail under deception testing, (ii) TTS progress should be benchmarke...

ID: 2508.04179v1 cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 Perch 2.0: The Bittern Lesson for Bioacoustics

2025-08-09

Авторы:

Bart van Merriënboer, Vincent Dumoulin, Jenny Hamer, Lauren Harrell, Andrea Burns, Tom Denton

Perch 2.0 — это подходящая для работы модель для биоакустики, развитая на основе ее предшественника, Perch. Оригинальная модель Perch была обучена классифицировать звуки тысяч воронобезьяных видов, в то время как Perch 2.0 расширена до обучения на многотельном датасете, включающем не только птиц, но и другие таксоны. Для обучения использовались самораспределение (self-distillation) и новый критерий тренировки — предсказание источника (source-prediction). Эти изменения позволили Perch 2.0 достичь состояния лидера на различных биоакустических бенчмарках, включая BirdSet и BEANS. Несмотря на то, что модель имела мало полезной данной для малой мартинки, она также выйдла в перекрёстной обучении на данных мирового океана. Основной вывод — предсказание тонкого классификационного фонда — является выносливым предпосылкой для биоакустических моделей.

Annotation:

Perch is a performant pre-trained model for bioacoustics. It was trained in supervised fashion, providing both off-the-shelf classification scores for thousands of vocalizing species as well as strong embeddings for transfer learning. In this new release, Perch 2.0, we expand from training exclusively on avian species to a large multi-taxa dataset. The model is trained with self-distillation using a prototype-learning classifier as well as a new source-prediction training criterion. Perch 2.0 ob...

ID: 2508.04665v1 cs.LG, cs.SD, eess.AS

arXiv PDF

📄 Keyword Spotting with Hyper-Matched Filters for Small Footprint Devices

2025-08-09

Авторы:

Yael Segal-Feldman, Ann R. Bradlow, Matthew Goldrick, Joseph Keshet

Исследование предлагает модель open-vocabulary keyword spotting (KWS) с высокой точностью для small-footprint устройств. Задача KWS заключается в поиске ключевых слов в речевых записях, независимо от того, были ли они присутствовали в обучающем наборе. Решение основывается на сочетании аудиоencoder’а (tiny Whisper или tiny Conformer) с hyper-network’ом, который генерирует уникальные веса для ключевого слова, считая его как matched filter. Эти веса используются для convolutional layer’а и помогают Perceiver module’у определить наличие целевого слова. Модель показала лучшие результаты в detection accuracy, особенно при out-of-domain testing, включая L2 speech. Несмотря на свою эффективность (только 4.2 млн параметров), она демонстрирует высокую robustness и generalization.

Annotation:

Open-vocabulary keyword spotting (KWS) refers to the task of detecting words or terms within speech recordings, regardless of whether they were included in the training data. This paper introduces an open-vocabulary keyword spotting model with state-of-the-art detection accuracy for small-footprint devices. The model is composed of a speech encoder, a target keyword encoder, and a detection network. The speech encoder is either a tiny Whisper or a tiny Conformer. The target keyword encoder is im...

ID: 2508.04857v1 eess.AS, cs.LG, cs.SD

arXiv PDF

Показано 61 - 66 из 66 записей