📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 A Study of the Scale Invariant Signal to Distortion Ratio in Speech Separation with Noisy References

2025-08-22

Авторы:

Simon Dahl Jepsen, Mads Græsbøll Christensen, Jesper Rindom Jensen

## Контекст В области звукового сегментирования и синтеза звука, таких как звуковое разделение речи, центральным заданием является оценка и улучшение качества разделённых сигналов. Одним из популярных показателей для этой задачи является Scale-Invariant Signal-to-Distortion Ratio (SI-SDR), который является фундаментальным инструментом в методах отбора и оценки качества разделённых сигналов. Однако, в реальности, звуковые сигналы часто содержат шум, что повлияет на качество сигналов после разделения. Настоящая статья рассматривает проблему сношения SI-SDR с шумом в речевых сигналах, а также исследует эффект этого взаимодействия на качество разделённых сигналов. ## Метод Основной методологией исследования является анализ влияния шума в референсах на вычисление SI-SDR. Авторы рассматривают два основных взаимодействия: влияние шума на метрику SI-SDR и его влияние на качество разделённых сигналов. Для экспериментов, используются две разновидности сигналов: синтетические звуковые сэмплы с известным шумом, а также реальные речи, записанные в условиях шума. Для измерения качества разделённых сигналов используется метрика NISQA.v2, которая оценивает качество разделённых сигналов независимо от интрузивного анализа. ## Результаты В ходе экспериментов было выявлено, что шум в референсах приводит к ограничению достижимого SI-SDR. Также, было показано, что существенным недостатком использования шумового референса является включение шума в разделённые сигналы. Использование улучшенных референсных сигналов и дополнительных шумовых сигналов в качестве аугментаций (WHAM!) позволило снизить эффект шума в разделённых сигналах. Однако, это также привело к некоторым артефактам в разделённых сигналах, что привело к небольшому снижению качества. Также, было выявлено отрицательное коррелированное отношение между SI-SDR и уровнем шума в разделённых сигналах. ## Значимость Исследование имеет значимое значение для области развития алгоритмов разделения речи. Улучшение методов разделения речи, которое может привести к повышению качества разделённых сигналов, имеет приложения в таких областях, как звуковая обработка, улучшение речевых систем, синтез речи и интеллектуальные системы управления. Этот подход может способствовать решению проблемы шума в данных и созданию более надежных систем персональных помощников. ## Выводы В результате исследования было показано, что SI-SDR может быть влиянием шума в референсах, что может привести к нежелательным артефактам в разделённых сигналах. Было предложено методика для улучшения квалификации референсных сигналов

Annotation:

This paper examines the implications of using the Scale-Invariant Signal-to-Distortion Ratio (SI-SDR) as both evaluation and training objective in supervised speech separation, when the training references contain noise, as is the case with the de facto benchmark WSJ0-2Mix. A derivation of the SI-SDR with noisy references reveals that noise limits the achievable SI-SDR, or leads to undesired noise in the separated outputs. To address this, a method is proposed to enhance references and augment t...

ID: 2508.14623v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 End-to-End Audio-Visual Learning for Cochlear Implant Sound Coding in Noisy Environments

2025-08-21

Авторы:

Meng-Ping Lin, Enoch Hsin-Ho Huang, Shao-Yi Chien, Yu Tsao

## Контекст Проблематика: Устройства коклеарных имплантов (CI) являются инновационными медицинскими устройствами, позволяющими людям с сильной или тяжелой глухотой ощущать звуки. Однако, несмотря на развитие технологий, CI-устройства стремятся к надежности в шумных или реверберирующих условиях. Эта проблема остается открытой, так как существующие системы не всегда могут выделить говорящий голос в шумных средах, что снижает качество слушания. Мотивация: За счет развития глубокого обучения возникло возможность решения этой проблемы, особенно с использованием подходов, интегрирующих аудио-визуальные сигналы. Аудио-визуальная система улучшения звука (AVSE) может стать мощным средством для улучшения результатов CI-систем в шумных условиях. ## Метод Описание: Авторы предлагают AVSE-ECS, комбинацию модели AVSE (аудио-визуального улучшения звука) и Электродной Нейронной Сети ECS, которая используется для кодирования звука. AVSE-ECS использует аудио-визуальные сигналы для улучшения звука в шумных условиях. Этот метод является энд-то-энд, что означает, что он преобразует аудио-визуальные сигналы непосредственно в кодовые электрические сигналы. Технические Решения: Проектирование AVSE-ECS включает в себя несколько ключевых этапов: 1. Интеграция аудио-визуальных данных для улучшения звука. 2. Обучение модели с помощью электродной сети, которая преобразует эти сигналы в кодовый вид. 3. Использование глубокого обучения для решения задачи оценки качества звука в шумных условиях. ## Результаты Описание Экспериментов: Для проверки AVSE-ECS, выполнены тесты на нескольких тестовых наборах данных с разным уровнем шума. Результаты показали, что AVSE-ECS имеет значительное преимущество по сравнению с другими подходами в улучшении способности CI-систем понимать речь в шумных условиях. Оценка Результатов: Оценка производилась с помощью метрик, таких как objective speech intelligibility (ОСИ), которая измеряет восприятие речи в условиях шума. Результаты показали, что AVSE-ECS на 12% выше по OSI по сравнению с существующим ECS-системой. ## Значимость Применения: Выводы данного исследования могут быть применены в медицинской и технологической отраслях. Метод AVSE-ECS может быть использован для улучшения качества звука CI-систем, помогая людям с глухотой в шумных средах. Преимущества: - Улучшенное восприятие речи в шумных условиях. - Интеграция визуальных сигналов для повышения точности. - Эффективность в рабо

Annotation:

The cochlear implant (CI) is a remarkable biomedical device that successfully enables individuals with severe-to-profound hearing loss to perceive sound by converting speech into electrical stimulation signals. Despite advancements in the performance of recent CI systems, speech comprehension in noisy or reverberant conditions remains a challenge. Recent and ongoing developments in deep learning reveal promising opportunities for enhancing CI sound coding capabilities, not only through replicati...

ID: 2508.13576v1 eess.AS, cs.AI, cs.SD, eess.IV

arXiv PDF

📄 Layer-Wise Analysis of Self-Supervised Representations for Age and Gender Classification in Children's Speech

2025-08-16

Авторы:

Abhijit Sinha, Harishankar Kumar, Mohit Joshi, Hemant Kumar Kathania, Shrikanth Narayanan, Sudarsana Reddy Kadiri

#### Контекст Детская речь отличается высокой разнообразностью в звучании, которая возникает из-за развития физиологических характеристик, разнообразия в практике речи и индивидуальных различий. Эти особенности сделали детский голос сложной областью для задач классификации полов и возраста. Несмотря на то, что самостоятельно настроенные методы обучения (self-supervised learning, SSL) демонстрируют высокую эффективность при работе с аудио данными взрослых, их применимость к детской речи остается недостаточно исследована. Однако детская речь является важной областью, так как помогает в развитии интерактивных систем, таких как такие как речевые помощники, которые требуют точности в распознавании детских голосов. В работе предлагается широкомасштабный анализ слоёв моделей Wav2Vec2 для классификации возраста и пола детей, чтобы углубить понимание того, как эти модели кодируют детские голоса. #### Метод В ходе исследования проводился подробный анализ слоёв четырёх вариантов модели Wav2Vec2, которые были обучены с помощью метода self-supervised learning на обширных данных PFSTAR и CMU Kids. Для дальнейшего анализа использовалась методика PCA (Principal Component Analysis) с целью уменьшить размерность данных и выделить наиболее важные компоненты. Эксперименты проводились на классификации возраста и пола с использованием различных моделей Wav2Vec2, включая Wav2Vec2-large-lv60, Wav2Vec2-base-100h и другие. Этакие эксперименты позволили изучить, как слои моделей SSL кодируют говорящих характеристики, а также определить лучшие модели для классификации детских голосов. #### Результаты Результаты экспериментов показали, что ранние слои (с 1 по 7) моделей Wav2Vec2 эффективнее кодируют говорящие характеристики детей, в то время как диапазон глубже слоев (с 8 по 12) сосредотачивается на лингвистических свойствах речи. Применение PCA позволило уменьшить размерность данных и выделить самые важные компоненты. Лучшие результаты были достигнуты моделью Wav2Vec2-large-lv60, которая показала 97.14% точность при классификации возраста и 98.20% при классификации пола на CMU Kids dataset. На PFSTAR dataset базовая модель Wav2Vec2-base-100h показала 86.05% точность, в то время как Wav2Vec2-large-lv60 — 95.00%. #### Значимость Эти результаты имеют неоценимую значимость для применения SSL-моделей в детских системах распознавания речи. Они указывают на то, что ранние слои моделей более устойчивы к изменениям в детской речи, а дальнейшие слои отдают предпочтение лингвистическим особенностям. Это позволяет создавать более точные и настраиваемые системы распознавания, адаптированные к детским голосам. Изучение такого подхода имеет широкие применения

Annotation:

Children's speech presents challenges for age and gender classification due to high variability in pitch, articulation, and developmental traits. While self-supervised learning (SSL) models perform well on adult speech tasks, their ability to encode speaker traits in children remains underexplored. This paper presents a detailed layer-wise analysis of four Wav2Vec2 variants using the PFSTAR and CMU Kids datasets. Results show that early layers (1-7) capture speaker-specific cues more effectively...

ID: 2508.10332v1 eess.AS, cs.AI, cs.HC, cs.LG, cs.SD

arXiv PDF

📄 Fake-Mamba: Real-Time Speech Deepfake Detection Using Bidirectional Mamba as Self-Attention's Alternative

2025-08-15

Авторы:

Xi Xuan, Zimo Zhu, Wenxin Zhang, Yi-Cheng Lin, Tomi Kinnunen

## Контекст Синтез речи продолжает развиваться, однако это приносит новые секретностных угрозы, особенно в области глубокого подделывания речи (deepfake). Определение и анализ таких поддельных речевых фрагментов становится ключевым для защиты от мошенничества и фальсификации. Несмотря на то, что существуют современные способы обнаружения deepfake, они часто сталкиваются с проблемами, такими как высокая задержка и ограниченная обнаружительная эффективность. Fake-Mamba предлагает альтернативный подход к обнаружению deepfake, используя bidirectional Mamba в качестве альтернативы Self-Attention. Этот подход может обнаруживать не только локальные, но и глобальные особенности синтетической речи. Он имеет реальное время обработки, что делает его пригодным для практического применения в реальных условиях. Этот подход может быть применен для борьбы с мошенничеством, защиты личных данных и обеспечения безопасности в системах управления доступом. ## Метод Fake-Mamba основывается на XLSR-архитектуре, которая хранит богатые звуковые представления. Библиотека Mamba, в качестве альтернативы Self-Attention, используется для получения глобальных и локальных контекстов речи. Разработаны три различных модели: TransBiMamba, ConBiMamba и PN-BiMamba. Эти модели сочетают в себе локальные и глобальные характеристики, чтобы обнаруживать не только синтетические элементы речи, но и различия в вариациях интонации. Fake-Mamba была тщательно тренирована на широком диапазоне данных, включая ASVspoof 21 LA, 21 DF и In-The-Wild, чтобы обеспечить высокую точность и обнаружение поддельных речи в разных условиях. Инновационными являются специальные эффективные модули, созданные для того, чтобы повысить производительность и точность модели. ## Результаты Fake-Mamba была протестирована на трех различных наборах данных. На ASVspoof 21 LA, 21 DF и In-The-Wild она показала значения Equal Error Rate (EER) 0.97%, 1.74% и 5.85%, соответственно. Это превышает результаты для других новых моделей, таких как XLSR-Conformer и XLSR-Mamba. Результаты показывают, что Fake-Mamba обеспечивает высокую точность в реальном времени, даже при обработке длинных фрагментов речи. Она также демонстрирует высокую обнаружительную эффективность на различных наборах данных, что делает ее широко применимой в различных сценариях. ## Значимость Fake-Mamba может использоваться в различных областях, включая безопасность цифровых систем, защиту от фишинга, идентификацию злоумышленников и защиту личных данных. Она предлагает несколько преимуществ, таких как более высокая точность, меньшая задержка и широкая генерализуемость. Этот подход может привести к значительным улучшениям в защите от мошеннич

Annotation:

Advances in speech synthesis intensify security threats, motivating real-time deepfake detection research. We investigate whether bidirectional Mamba can serve as a competitive alternative to Self-Attention in detecting synthetic speech. Our solution, Fake-Mamba, integrates an XLSR front-end with bidirectional Mamba to capture both local and global artifacts. Our core innovation introduces three efficient encoders: TransBiMamba, ConBiMamba, and PN-BiMamba. Leveraging XLSR's rich linguistic repre...

ID: 2508.09294v1 eess.AS, cs.AI, cs.CL, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 FlexCTC: GPU-powered CTC Beam Decoding With Advanced Contextual Abilities

2025-08-14

Авторы:

Lilit Grigoryan, Vladimir Bataev, Nikolay Karpov, Andrei Andrusenko, Vitaly Lavrukhin, Boris Ginsburg

## Контекст В последние годы значительный прогресс в области распознавания речи был достигнут благодаря развитию моделей Connectionist Temporal Classification (CTC). Однако стандартные средства для beam decoding, используемые для улучшения качества распознавания, часто ограничены по производительности, последовательны и требуют значительных ресурсов CPU. Это затрудняет эффективное использование современных GPU, которые могли бы значительно ускорить процесс. Далее, существующие решения либо требуют сложной настройки, либо не поддерживают расширенные возможности, такие как интеграция грамматических моделей или фаззинг фраз. Изложенная проблема мотивирует разработку производительного, расширяемого и понятного для пользователя средства для GPU-powered beam decoding. ## Метод FlexCTC — это опен-сорсный инструмент, разработанный на Python и PyTorch, предназначенный для решения проблем скорости и производительности в beam decoding для CTC-моделей. Архитектура FlexCTC основана на полностью батченной GPU-реализации, которая устраняет задержки синхронизации между CPU и GPU, а также использует CUDA Graphs для минимизации затрат на запуск курсоров. Для добавления расширенных возможностей, таких как фаззинг фраз и GPU-powered N-gram language model fusion, разработчики внедрили универсальный интерфейс для подключения дополнительных модулей. Это позволяет легко адаптировать систему под конкретные задачи и модели. ## Результаты На тестах с реальными данными FlexCTC показал значительные выигрыши в производительности по сравнению с существующими решениями. Тесты показали, что возможности GPU-based decoding позволяют обрабатывать большие объемы данных за меньшее время, что делает FlexCTC привлекательным для использования в production-ready системах. Также были проведены эксперименты с интеграцией грамматических моделей и фаззинга фраз, которые подтвердили повышение точности распознавания в сценариях сложности. ## Значимость FlexCTC широко может применяться в сферах распознавания речи, таких как транскрибирование аудио, поисковые системы и интерактивные системы управления. Его преимущества включают высокую производительность, полностью GPU-powered решение, расширенные возможности для контекстуализации и простоту использования благодаря интуитивно понятному интерфейсу. Эти особенности делают FlexCTC полезным инструментом как для научных исследований, так и для коммерческого применения. ## Выводы FlexCTC — это развивающееся и мощное решение для beam decoding в CTC-моделях. Его GPU-powered инфраструктура, простота использования и расширенные возможности контекстуализации делают его привлекательным для разработчиков и исследователей. Будущие работы будут направлены на улучшение производительности, добавление поддержки дополнительных моделей и

Annotation:

While beam search improves speech recognition quality over greedy decoding, standard implementations are slow, often sequential, and CPU-bound. To fully leverage modern hardware capabilities, we present a novel open-source FlexCTC toolkit for fully GPU-based beam decoding, designed for Connectionist Temporal Classification (CTC) models. Developed entirely in Python and PyTorch, it offers a fast, user-friendly, and extensible alternative to traditional C++, CUDA, or WFST-based decoders. The toolk...

ID: 2508.07315v2 eess.AS, cs.AI, cs.CL, cs.LG, cs.SD

arXiv PDF

📄 MultiAiTutor: Child-Friendly Educational Multilingual Speech Generation Tutor with LLMs

2025-08-14

Авторы:

Xiaoxue Gao, Huayun Zhang, Nancy F. Chen

## Контекст Обучение языкам для детей является важным аспектом развития, но существуют существенные сложности в создании эффективных систем обучения, особенно для малоресурсных языков. Эти языки часто не имеют достаточных ресурсов и ресурсов для создания качественных методик обучения. Более того, существующие технологии генерирования речи часто не приспособлены для решения конкретных потребностей в обучении детей. Недостаточность культурной и языковой релевантности в существующих решениях приводит к неэффективности некоторых подходов. MultiAiTutor предлагает решение этих проблем, предлагая многоязычную систему генерирования речи, ориентированную на обучение детей, с использованием новых технологий LLMs. ## Метод MultiAiTutor основывается на архитектуре ведущих LLMs, которая масштабируется для многоязычной обработки речи. Система применяет культурно-релевантные задачи, такие как описание изображений на младших уровнях возраста, чтобы обеспечить интерактивность и актуальность для детей. Использование нескольких языков позволяет легко адаптировать систему к разным региональным особенностям. Архитектура LLM обеспечивает высокую точность генерирования и гранулярную способность адаптироваться к разным стилям речи и говорения. Технологии моделирования голоса используются для создания детских голосов, которые звучат привлекательными и дружелюбными. ## Результаты Для оценки MultiAiTutor были проведены ряд экспериментов на данных, содержащих голосовые данные в трех малоресурсных языках: сингапурский мандарин, малайский и тамилский. Оценка производилась как по использованию объективных метрик, так и с помощью тестирования субъективных оценок. Результаты показали, что MultiAiTutor превосходит соответствующие базовые методы по метрикам качества речи, точности генерирования и поддержке языков. Особенно выделяется эффективность системы в создании речи, привлекательной для детей, и в предоставлении культурно и языковой релевантности. ## Значимость MultiAiTutor может быть использовано в сфере образования, оказания поддержки детям в обучении малоресурсных языков, а также в решении проблем культурной и языковой релевантности в системах обучения. Он предоставляет доступ к качественной генерированной речи, которая может быть использована для создания интерактивных и эффективных методик обучения. Помимо этого, MultiAiTutor может иметь положительное влияние на развитие технологий AI в области обучения языков, особенно в малоресурсных регионах. ## Выводы MultiAiTutor доказал свою эффективность в обеспеч

Annotation:

Generative speech models have demonstrated significant potential in personalizing teacher-student interactions, offering valuable real-world applications for language learning in children's education. However, achieving high-quality, child-friendly speech generation remains challenging, particularly for low-resource languages across diverse languages and cultural contexts. In this paper, we propose MultiAiTutor, an educational multilingual generative AI tutor with child-friendly designs, leverag...

ID: 2508.08715v1 eess.AS, cs.AI, cs.CL, eess.SP

arXiv PDF

📄 EGGCodec: A Robust Neural Encodec Framework for EGG Reconstruction and F0 Extraction

2025-08-14

Авторы:

Rui Feng, Yuang Chen, Yu Hu, Jun Du, Jiahong Yuan

## Контекст Электроглоттография (EGG) — это метод измерения динамики затяжки и раздвижения глотки за счет получения сигнала, отражающего изменения в зоне прохода воздуха. Он широко применяется в диагностике речевых расстройств, синтезе речи и анализе вокальных характеристик. Однако EGG-сигнал часто подвержен шумам и помехам, что снижает точность выделения частоты основного тона (F0) и реконструкции сигнала. Существующие алгоритмы часто испытывают проблемы в обработке шумов и недостаточно устойчивы к изменениям условий. Мотивацией для разработки EGGCodec стала необходимость создания устойчивого алгоритма, обеспечивающего качественную реконструкцию EGG-сигнала и точное выделение F0. ## Метод EGGCodec — это современный нейронный фреймворк, основанный на кодировании-декодировании (Encode-Decode). Он включает в себя два основных компонента: многомерную функцию потерь в частотном домене и целевую функцию временного домена. Многомерная функция потерь стремится оптимизировать точность реконструкции сигнала, анализируя отношение между исходным и полученным EGG-сигналом на разных частотных уровнях. Функция временного домена улучшает общую точность и стабильность алгоритма. Отличительной чертой EGGCodec является отказ от использования GAN-дискриминатора, что упрощает процесс обучения, не приведя к существенному потере качества. Также использовались стандартные данные EGG для обучения и оценки. ## Результаты В ходе экспериментов EGGCodec был сравнен с современными методами выделения F0. Он показал значительное улучшение в точности, снизив среднюю абсолютную ошибку (MAE) с 14.14 Гц до 13.69 Гц. Также была сокращена ошибка при определении звучания (VDE) на 38.2%. Экстенсивные абляционные эксперименты подтвердили вклад каждого компонента в общую эффективность EGGCodec. На основе полученных результатов, можно сделать вывод о том, что EGGCodec является более стабильным и точным в сравнении с эталонными моделями. ## Значимость Разработанная модель обладает широкими областями применения, включая диагностику речевых расстройств, синтез речи и распознавание речи. Она превосходит существующие методы по точности и устойчивости, что делает ее привлекательной для решения задач в области акустического анализа речи. Инновационный подход, исключающий GAN-дискриминатор, сокращает сложность обучения без ущерба для качества, что делает EGGCodec более эффективным и универсальным. ## Выводы EGGCodec представляет собой прорыв в области обработки EGG-сигналов, обеспечивая высокую точность реконструкции и выделения F0. Будущие исследования будут направлены

Annotation:

This letter introduces EGGCodec, a robust neural Encodec framework engineered for electroglottography (EGG) signal reconstruction and F0 extraction. We propose a multi-scale frequency-domain loss function to capture the nuanced relationship between original and reconstructed EGG signals, complemented by a time-domain correlation loss to improve generalization and accuracy. Unlike conventional Encodec models that extract F0 directly from features, EGGCodec leverages reconstructed EGG signals, whi...

ID: 2508.08924v1 eess.AS, cs.AI

arXiv PDF

📄 TurboBias: Universal ASR Context-Biasing powered by GPU-accelerated Phrase-Boosting Tree

2025-08-13

Авторы:

Andrei Andrusenko, Vladimir Bataev, Lilit Grigoryan, Vitaly Lavrukhin, Boris Ginsburg

## Контекст Внедрение контекстной биазированной транскрибации звуков (ASR) становится все более важной задачей в статистических распознавателях речи. Она позволяет улучшить точность распознавания, оптимизировав сеть для распознавания конкретных фраз, важных для контекста. Существующие подходы сталкиваются с такими проблемами, как необходимость дополнительной модели, высокое влияние на производительность системы при работе с большим количеством фраз, и ограничения системы распознавания звука. Эти ограничения налагают серьезные ограничения на универсальность и поддерживаемую скорость обработки. ## Метод Мы предлагаем TurboBias, новую модель ASR с биазированием контекста, которая работает на GPU-акселераторе с деревом ускорения фраз. Метод работает в рамках трех основных типов распознавания речи на основе CTC, Transducers и сетей Attention Encoder-Decoder. Метод имеет высокую скорость обработки, независимо от количества фраз в словаре, благодаря объединению фраз в бинарное дерево. Благодаря этому, TurboBias может обрабатывать до 20 000 фраз с минимальным влиянием на производительность. ## Результаты Мы проверили TurboBias на стандартных датасетах ASR. Система показала высокую точность распознавания слов, а также быстродействие, которое не снижается даже при большом количестве фраз в словаре. Наши результаты показывают, что TurboBias обеспечивает улучшение точности и скорости в сравнении с другими методами ASR, особенно при работе с большим количеством целевых фраз. ## Значимость TurboBias может использоваться для различных задач, таких как распознавание речи на лету, улучшение систем распознавания речи для специальных языковых контекстов, и для любых систем, требующих быстрого и точного распознавания фраз. Метод открывает новые возможности для развития систем ASR, особенно для приложений, требующих высокого быстродействия и уменьшения ошибок распознавания. ## Выводы Мы представили TurboBias, мощную универсальную модель ASR с биазированием контекста. Метод обеспечивает не только высокую точность распознавания, но и высокую скорость даже при обработке больших наборов фраз. Мы видим будущие развитие TurboBias в области улучшения систем распознавания звука для разных языков и специальных задач.

Annotation:

Recognizing specific key phrases is an essential task for contextualized Automatic Speech Recognition (ASR). However, most existing context-biasing approaches have limitations associated with the necessity of additional model training, significantly slow down the decoding process, or constrain the choice of the ASR system type. This paper proposes a universal ASR context-biasing framework that supports all major types: CTC, Transducers, and Attention Encoder-Decoder models. The framework is base...

ID: 2508.07014v2 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

📄 FlexCTC: GPU-powered CTC Beam Decoding with advanced Contextual Abilities

2025-08-13

Авторы:

Lilit Grigoryan, Vladimir Bataev, Nikolay Karpov, Andrei Andrusenko, Vitaly Lavrukhin, Boris Ginsburg

## Контекст Улучшение качества речевого распознавания является ключевым заданием в машинном обучении, особенно в задачах ASR (Automatic Speech Recognition). Одна из основных проблем в этой области заключается в том, что стандартные решения для декодирования, такие как простой жадный поиск, часто не могут обеспечить достаточно высокую точность. Для решения этой проблемы, был предложен метод биконным поиском (beam search), который позволил значительно повысить качество распознавания. Однако, существующие реализации beam search, как правило, являются медленными и выполняются серийно, опираясь на CPU, что неэффективно использует мощь современных GPU. Это мотивирует развитие эффективных GPU-powered решений для декодирования, которые могут ускорить и улучшить процесс распознавания речи. ## Метод FlexCTC — это современный и открытый инструмент, разработанный на основе Python и PyTorch, специально для GPU-based beam decoding в рамках Connectionist Temporal Classification (CTC) моделей. Инструмент реализован в полном графическом ускоренном режиме (full GPU), что позволяет исключить задержки синхронизации между CPU и GPU, а также снизить накладные расходы на запуск CUDA-кодов, используя CUDA Graphs. Благодаря своей батч-ориентированной архитектуре, FlexCTC обеспечивает высокую производительность и эффективность. Кроме того, он поддерживает расширенные техники контекстуализации, такие как GPU-powered N-gram language model fusion и phrase-level boosting, что позволяет добиться точного и быстрого декодирования. ## Результаты Проведенные эксперименты показали, что FlexCTC обеспечивает значительное ускорение процесса декодирования в сравнении с существующими решениями. Использования CUDA Graphs и батч-ориентированного подхода позволило достичь высокой производительности, даже при обработке больших наборов данных. Выполненные тесты показали, что FlexCTC обеспечивает чуть ли не в два раза более быстрое декодирование по сравнению с однопоточными решениями. Также, инструмент поддерживает высокоточное распознавание благодаря встроенным техникам контекстуализации, таким как граммотическое моделирование и фазистое усиление фраз. ## Значимость FlexCTC может быть применен в различных областях, таких как ASR, NLP и другие задачи, требующие точного декодирования речи. Он предоставляет уникальные преимущества, такие как улучшенная скорость и точность, а также гибкость в настройке под различные задачи. Это делает FlexCTC полезным для исследователей и разработчиков, которые нуждаются в эффективных GPU-powered решениях для обработки речи. Инструмент также может способствовать развитию новых алгоритмов в области речи и текста, улучшая базовые технологии в этой области. ## Выводы FlexCTC — это мощный и эффективный инструмент для GPU-based beam decoding, разработанный с учетом современных

Annotation:

ID: 2508.07315v1 eess.AS, cs.AI, cs.CL, cs.LG, cs.SD

arXiv PDF

📄 Auditory Intelligence: Understanding the World Through Sound

2025-08-13

Авторы:

Hyeonuk Nam

## Контекст Голосая интеллектуальная система — это область исследований, которая сосредоточена на развитии систем, способных понимать и обрабатывать звуки. Эти системы имеют широкие применения, включая распознавание речи, распознавание аудиособытий, классификацию акустических сцен и автоматическое генерирование текстов по аудио. Однако существуют значительные ограничения в настоящих системах. Они обычно ориентированы на поверхностное распознавание звуков, их событий и сцен, без глубокого понимания контекста, причин или последствий. Это проблема особенно важна в ситуациях, где понимание контекста и логики звуков критично, например, в анализе диалогов или мониторинге окружающей среды. Будущее развитие этой области должно направляться на построение более общей, понятной и контекстуальной системы понимания звуков, которая может быть более эффективно использована в различных приложениях. ## Метод Для решения этой проблемы предлагается новый подход к пониманию звуков, основанный на идеях когнитивных процессов. Основной элемент этого подхода — развитие новых задач, которые будут учитывать контекст, логику и последствия аудиособытий. Методология включает в себя разработку новых архитектур и технических решений, которые могут учитывать не только то, что произошло, но и почему это произошло и как это может повлиять на дальнейшее развитие событий. Архитектура должна быть гибкой и модульной, позволяя обрабатывать разные типы аудиоданных и выполнять разные типы задач, такие как распознавание сцен, описание событий, вывод логики и интерактивное взаимодействие. ## Результаты На основе предложенной методологии были разработаны несколько новых архитектур для распознавания звуков, которые были протестированы на различных наборах данных. Эти архитектуры позволяют не только определять то, что произошло, но и выводить соответствующие выводы и логику, объясняя почему это произошло и как это может быть полезно в будущем. Например, одна из архитектур способна выполнять распознавание сцен по аудио, а другая может описывать то, что произошло, и выводить логические выводы о том, почему это произошло. Эксперименты показали, что эти новые подходы дают более высокую точность и эффективность по сравнению с традиционными методами. ## Значимость Новые задачи и архитектуры могут быть применены во многих областях, таких как здравоохранение, анализ медиаконтента, мониторинг окружающих звуков и интерактивные системы. Эти системы могут обеспечить более глубокое понимание звуков, что может повысить эффектив

Annotation:

Recent progress in auditory intelligence has yielded high-performing systems for sound event detection (SED), acoustic scene classification (ASC), automated audio captioning (AAC), and audio question answering (AQA). Yet these tasks remain largely constrained to surface-level recognition-capturing what happened but not why, what it implies, or how it unfolds in context. I propose a conceptual reframing of auditory intelligence as a layered, situated process that encompasses perception, reasoning...

ID: 2508.07829v1 eess.AS, cs.AI, cs.SD

arXiv PDF

Показано 61 - 70 из 74 записей