📚 Саммари научных статей из arXiv

Найдено 24 результатов по запросу 'eess.AS, cs.AI, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 ARTI-6: Towards Six-dimensional Articulatory Speech Encoding

2025-09-30

Авторы:

Jihwan Lee, Sean Foley, Thanathai Lertpetchpun, Kevin Huang, Yoonjeong Lee, Tiantian Feng, Louis Goldstein, Dani Byrd, Shrikanth Narayanan

## Контекст Область исследования артикуляторного распознавания речи становится все более важной в связи с ростом требований к точности и эффективности голосовых технологий. Традиционные подходы часто страдают от неэффективности, неточности или нехватки глубины понимания артикуляционных процессов. Эти проблемы влекут за собой ограниченную точность речи, ограниченные возможности для синтеза естественного голоса и дополнительные сложности в применении к реальным задачам. В этом контексте предлагается ARTI-6 — новая модель, которая стремится преодолеть эти ограничения, обеспечивая более подробный и интерпретируемый подход к артикуляционной речи. ## Метод Методология ARTI-6 основывается на реальных данных, полученных с помощью реального временного МРТ. Она включает в себя три основных компонента: (1) шестимерный набор артикуляторных фичей, который представляет ключевые регионы гортани, включая велю, корень языка и глоту; (2) модель инверсии, которая использует базисные модели голоса для предсказания артикуляторных фичей из акустических данных речи, достигнув корреляции 0.87; и (3) модель синтеза, которая генерирует естественное звучание речи на основе артикуляционных фичей. Эта архитектура обеспечивает интерпретируемость, высокую эффективность и физиологическую обоснованность, которые отличают ARTI-6 от предыдущих подходов. ## Результаты Результаты ARTI-6 были проверены в ряде экспериментов, используя разнообразные данные речи. Модель показала высокую точность в предсказании артикуляционных фичей, достигая корреляции 0.87. Была продемонстрирована ее способность генерировать естественно звучащую речь с помощью низкой-размерной артикуляционной модели. Эти результаты были получены на разных наборах данных, что подтверждает широкую применимость ARTI-6 в разных сценариях. ## Значимость ARTI-6 предлагает широкие возможности для развития голосовых технологий, включая продвижение в области артикуляционной инверсии и синтеза. Он предоставляет компактную, но точную модель, которая позволяет создавать естественно звучащую речь с меньшим потреблением ресурсов. Благодаря его физиологической обоснованности, ARTI-6 может быть применен в различных сферах, таких как робототехника, здравоохранение и улучшение интерактивных голосовых систем. ## Выводы В целом, ARTI-6 представляет собой перспективный подход к артикуляторному распознаванию речи, объединяя точность, эффективность и глубину понимания процессов говорения. Будущие исследования будут сконцентрированы на улучшении модели, рас

Annotation:

We propose ARTI-6, a compact six-dimensional articulatory speech encoding framework derived from real-time MRI data that captures crucial vocal tract regions including the velum, tongue root, and larynx. ARTI-6 consists of three components: (1) a six-dimensional articulatory feature set representing key regions of the vocal tract; (2) an articulatory inversion model, which predicts articulatory features from speech acoustics leveraging speech foundation models, achieving a prediction correlation...

ID: 2509.21447v1 eess.AS, cs.AI, cs.CL

arXiv PDF

📄 Frame-Stacked Local Transformers For Efficient Multi-Codebook Speech Generation

2025-09-26

Авторы:

Roy Fejgin, Paarth Neekhara, Xuesong Yang, Edresson Casanova, Ryan Langman Jaehyeon Kim, Subhankar Ghosh, Shehzeen Hussain, Jason Li

## Контекст Speech generation становится все более важной областью исследований в области глубокого обучения, особенно в связи с развитием large language models (LLMs). Одна из основных проблем в этой области — это проблема эффективности при генерации речи, которая связана с различиями между текстовыми токенами и дискретными акустическими кодовыми буферами, используемыми в LLMs. Эти кодовые буферы делятся на несколько наборов (multicodebook structure), что затрудняет процесс параллельной генерации. Несмотря на то, что такие модели позволяют достигать высокой производительности, они часто страдают от уменьшения точности и качества звука. Это влечет за собой необходимость разработки более эффективных стратегий для решения этих проблем, что и стало мотивацией для данного исследования. ## Метод В данном работе предлагается использовать архитектуру Frame-Stacked Local Transformers, которая состоит из двух основных элементов. Первый — это autoregressive transformer, который позволяет предсказывать несколько кодовых буферов одновременно, чтобы уменьшить время генерации. Второй — это MaskGIT-based transformer, который использует маскированную предсказательную модель, чтобы улучшить точность и качество звука. Более того, в работе представлена идея frame stacking, где подряд идущие фреймы генерируются одновременно, что позволяет эффективно использовать ресурсы. Метод также включает в себя исследование различных стратегий decoding, таких как autoregressive и iterative, чтобы понять, какие из них лучше подходят для различных задач, где нужно выбирать между скоростью и качеством. ## Результаты Для проверки эффективности предлагаемой модели, проведено ряд экспериментов с разными наборами данных. Были сравнены различные варианты decoding, включая autoregressive и iterative sampling. Результаты показали, что Frame-Stacked Local Transformers позволяют достигать высокой скорости генерации, не утрачивая качества звука. Также были проанализированы точность и качество звука, полученных при использовании разных моделей, которые показали, что MaskGIT-based transformer дает лучшие результаты в случае необходимости повысить качество. Исследования также показали, что frame stacking может существенно увеличить производительность, не снижая качества. ## Значимость Предлагаемая модель имеет большой потенциал в сфере генерации речи, особенно в сетях, где необходима высокая производительность и качество звука. Модель может быть применена в различных областях, включая синтез речи, генерацию голосов для видео и генерацию речи в реальном времени. Одним из основных преимуществ является то, что Frame-Stacked Local Transformers эффективнее существующих моделей, не требуя того же уровня ресурсов. Это может позволить применять модель в сценариях, где доступ к высокопроизводительной технике

Annotation:

Speech generation models based on large language models (LLMs) typically operate on discrete acoustic codes, which differ fundamentally from text tokens due to their multicodebook structure. At each timestep, models must predict N codebook entries jointly, introducing dependencies that challenge simple parallel prediction approaches. Parallel prediction assumes independence among codebooks, yielding efficient decoding but often at the cost of reduced fidelity. To address this, hierarchical strat...

ID: 2509.19592v1 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

📄 Advancing Speech Summarization in Multi-modal LLMs with Reinforcement Learning

2025-09-26

Авторы:

Shaoshi Ling, Gang Liu, Guoli Ye, Jinyu Li

## Контекст Современные технологии обработки речи становятся все более важной частью интеллектуальных систем, позволяя анализировать и суммировать многоязычные тексты. Однако трудности в обработке речи, такие как латеральность звука, сложность синтаксиса и грамматики, часто препятствуют полноценному использованию речевых данных в машинном обучении. Это приводит к значительным проблемам в сфере удобства и доступности речевых систем. Целью данного исследования является улучшение способности моделей при помощи развития методов преобразования речевых данных в тексты, чтобы обеспечить более точные, эффективные и гибкие речевые системы. ## Метод Методология предлагаемого подхода основывается на сочетании визуальных и речевых элементов, чтобы получить более полное понимание речи. Базовая модель использует нейронные сети, которые обучаются на больших многоязычных наборах данных, чтобы определять и исправлять ошибки в речи. Для улучшения точности используется нейронный подход, включающий методы распределенного обучения и многоязычные модели. Эта модель обрабатывает речевые данные, активируя слои модели, которые специально разработаны для работы с речи. ## Результаты На основе широкого набора экспериментов показано, что данный подход дает значительные улучшения в сравнении с существующими моделями. В частности, он позволяет достичь более высокой точности в определении сложных структур речи, таких как синтаксические конструкции и разговорные обороты. Эксперименты проводились на наборах данных, включающих различные акценты и языки, что демонстрирует гибкость и универсальность предлагаемого подхода. Такие результаты позволяют утверждать, что новая модель превосходит существующие решения по скорости и точности. ## Значимость Предлагаемая модель может применяться в различных областях, таких как перевод речи, голосовые помощники и автоматическая синтеза речи. Она отличается высокой скоростью обработки и точностью, что делает ее привлекательной для коммерческого использования. Благодаря возможности обрабатывать несколько языков, она может стать ключевым инструментом для глобальных коммуникаций. Это также может способствовать развитию искусственного интеллекта в области естественного языка, улучшая пользовательские интерфейсы и увеличивая доступность речевых систем. ## Выводы В результате этого исследования был разработан новый подход к обработке речевых данных, который демонстрирует значительные улучшения по сравнению с традиционными методами. Будущие исследования будут сфокусированы на улучшении модели для работы с большими наборами данных, а так

Annotation:

Speech summarization is a critical component of spoken content understanding, particularly in the era of rapidly growing spoken and audiovisual data. Recent advances in multi-modal large language models (MLLMs), leveraging the power of LLMs, enable generating textual summaries directly from speech without intermediate transcriptions, while supporting controllable styles and zero-shot generalization. However, open-source MLLMs continue to lag behind the state-of-the-art text-based LLMs, limiting ...

ID: 2509.19631v1 eess.AS, cs.AI, cs.CL

arXiv PDF

📄 No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS

2025-09-25

Авторы:

Seungyoun Shin, Dongha Ahn, Jiwoo Kim, Sungwook Jeon

## Контекст Текстовое воспроизведение речи (Text-to-Speech, TTS) — это технология, позволяющая конвертировать текстовые данные в естественный голосовой вывод. Одной из ключевых проблем в этой области является создание естественной и естественного звучания речи, включая просодические свойства, такие как интонация, ритм и тембр. Несмотря на улучшение TTS-систем, не удается достичь желаемого уровня просодической привлекательности без явного контроля и оценки просодических параметров. Это вызывает значительные ограничения в широком развитии технологии, особенно в сферах, где просодические свойства ключевым образом влияют на качество звука и качество социальной интеракции. ## Метод Наша методология основывается на **Direct Preference Optimization (DPO)**, которая использует небольшое количество человеческих предпочтений для поддержки естественности просодических свойств в TTS. Мы применяем GRPO (Group Relative Policy Optimization) для оптимизации просодических факторов, но в условиях отсутствия явной награды для просодики, полагаемся на взаимодействие с человеком для ручного определения желаемых просодических характеристик. Это позволяет нам минимизировать ошибки и достичь более естественного звучания в TTS. Мы также вводим регуляризацию для стабилизации тренировки, чтобы избежать ложных минимумов. ## Результаты Мы проверяли нашу модель на **KoCC-TTS**, датасете, состоящем из реальных записей голосовых интеракций из корпоративных центров обработки обращений. Наши эксперименты показали, что DPO позволяет получить наивысший уровень желаемости пользователя (ELO) и сравнительно низкие значения CER (Character Error Rate). В сравнении с GRPO и сильными коммерческими алгоритмами, метод DPO демонстрирует значительные улучшения в просодической привлекательности, не прибегая к громоздким или нестабильным методам. Эти результаты указывают на то, что человеческие предпочтения могут стать эффективным инструментом для повышения качества голосных моделей. ## Значимость Наш метод имеет широкое применение в сфере естественного звучания голоса, в частности для TTS в задачах обработки обращений, таск-ориентированных диалогов и автоматических систем телефонной связи. Он также позволяет снизить необходимый объем ручной работы над ручной оценкой просодических свойств, что делает технологию более эффективной и доступной для разработчиков. Будущие исследования будут направлены на улучшение методов оценки естественности просодики и расширение применения наших результатов к другим языкам и стилюм речи. ## Выводы Мы доказали, что **Direct Preference Optimization** является эффективным способом обучения TTS с естественным просодическим звучанием. Наши ре

Annotation:

Recent work reports gains in neural text-to-speech (TTS) with Group Relative Policy Optimization (GRPO). However, in the absence of a verifiable reward for \textit{prosody}, GRPO trained on transcription-oriented signals (CER/NLL) lowers error rates yet collapses prosody into monotone, unnatural speech; adding speaker-similarity further destabilizes training and degrades CER. We address this with an \textit{iterative Direct Preference Optimization (DPO)} scheme that uses only a few hundred human...

ID: 2509.18531v1 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

📄 TICL: Text-Embedding KNN For Speech In-Context Learning Unlocks Speech Recognition Abilities of Large Multimodal Models

2025-09-19

Авторы:

Haolong Zheng, Yekaterina Yegorova, Mark Hasegawa-Johnson

## Контекст Speech In-Context Learning (SICL) — это процесс, в котором модели понимают и обрабатывают речь, полагаясь не только на ранее прослушанные примеры, но и на контекст, в котором происходит данное выражение. Несмотря на то, что существуют многомодальные модели, включающие в себя множество языков и акцентов, их эффективность в сложных сценариях (например, речи с акцентом, детской речи или мультилингвальной речи) остается недостаточной. Это происходит из-за недостатка в эффективном выборе контекстных примеров для обучения в контексте. Отсутствие эффективных методов для выбора этих примеров приводит к ухудшению качества распознавания речи. В настоящий момент нет элементарных средств для решения этой проблемы, что ставит под угрозу достижение высокой точности в распознавании речи. ## Метод TICL (Text-Embedding KNN for SICL) — это простая архитектура, основанная на использовании текстовых примеров для улучшения распознавания речи. Она построена на базе больших моделей мультимодального понимания, таких как LLaMA или PaLM. Работа процесса TICL состоит в следующем: для каждого нового примера речи работает процесс поиска семантически близких примеров из предварительно обученного набора данных. Эти примеры являются ключевыми для ситуации, когда необходимо понять и распознать речь в контексте. Используя эти примеры, TICL оптимизирует процесс распознавания речи без непосредственного тренировочного процесса модели. Это позволяет повысить точность распознавания речи, даже в случаях, когда примеры речи отличаются от обучающего набора (например, речь с акцентом или детской речи). ## Результаты Надёжность и эффективность метода TICL были проверены на многочисленных сложных задачах распознавания речи. Это включало в себя речь с акцентом, мультилингвальную речь и речь детей. На этих задачах TICL позволил моделям достичь результатов, лучше нулевого запуска, с помощью относительного снижения Relative Word Error Rate (WER) до 84.7%. Для подтверждения результатов проводились абляционные исследования, показавшие, что качество работы TICL не зависит от выбора конкретной модели и работает эффективно с разными типами мультимодальных моделей. Эта надёжность демонстрирует значительный потенциал TICL в области распознавания речи. ## Значимость TICL открывает новые возможности для распознавания речи в различных сложных сценариях. Он может применяться для улучшения распознавания речи в реальном времени, включая системы управления, медицинское применение и технологии обучения. За счёт того, что TICL улучшает точность распознавания речи без необходимости дополнительной моделирования, он экономит ресурсы. Это может привести к более быстрому развитию технологий ра

Annotation:

Speech foundation models have recently demonstrated the ability to perform Speech In-Context Learning (SICL). Selecting effective in-context examples is crucial for SICL performance, yet selection methodologies remain underexplored. In this work, we propose Text-Embedding KNN for SICL (TICL), a simple pipeline that uses semantic context to enhance off-the-shelf large multimodal models' speech recognition ability without fine-tuning. Across challenging automatic speech recognition tasks, includin...

ID: 2509.13395v1 eess.AS, cs.AI, cs.CL, cs.LG, cs.MM

arXiv PDF

📄 Length-Aware Rotary Position Embedding for Text-Speech Alignment

2025-09-17

Авторы:

Hyeongju Kim, Juheon Lee, Jinhyeok Yang, Jacob Morton

## Контекст Текстово-речевые системы (TTS) широко используются для генерации речи на основе текста в различных приложениях, таких как видеоконференции, автоматизированные системы обслуживания, интерактивные ассистенты и доступность звукового контента. Одной из ключевых задач в этих системах является текстово-речевая алигнмент (TRА), которая включает в себя корректное установление соответствия между текстом и его речевой интерпретацией. Одним из известных подходов к решению этой задачи является использование трансформеров с кросс-аттенцией. Однако, текущие модели TTS имеют проблемы с точностью TRА, особенно при работе с длинными высказываниями, где разница в длине участков текста и речи может привести к расхождениям. Необходимо разработать эффективные способы улучшить алигнмент, чтобы обеспечить высокое качество генерируемой речи при длительных высказываниях. ## Метод Мы предлагаем **Length-Aware Rotary Position Embedding (LARoPE)**, расширение Rotary Position Embedding (RoPE), которое учитывает длину участков для улучшения text-speech alignment. В отличие от RoPE, которое использует абсолютные индексы для кодирования позиций, LARoPE вычисляет относительные расстояния между позициями запроса (query) и ключа (key) с использованием length-normalized indices. Это позволяет лучше адаптироваться к изменениям в длине участков в тексте и речи. Метод основывается на трансформерной архитектуре и использует кросс-аттенционные механизмы, но с использованием LARoPE в качестве позиционных признаков. ## Результаты Мы проводили эксперименты на стандартных датасетах TTS, включая LJSpeech и LibriTTS, сравнивая LARoPE с RoPE. Эксперименты показали, что LARoPE улучшает text-speech alignment, снижает word error rate (WER) и обеспечивает более высокое качество генерируемой речи. Например, в тестах на длинных высказываниях (до 30 секунд) LARoPE показала стабильное выполнение, в то время как RoPE имела заметные расхождения. Мы также проверили устойчивость модели к изменениям в длине участков текста и речи, и LARoPE показала лучшие результаты. Был доказан состояние технологии (SOTA) по WER на zero-shot TTS benchmark. ## Значимость Результаты LARoPE демонстрируют ее применимость в TTS-системах, особенно для длинных аудио-высказываний. Это может повысить качество речи и улучшить доступность звукового контента в различных сценариях применения, таких как видеоконференции, интерактивные системы и доступность контента. LARoPE также снижает WER и обеспечивает более точный алигнмент, что может положительно сказаться на качестве речи и ее понятности. Будущие исследования могут сосредоточиться на расширении LARoPE для работы с мультимодальными данными и улучшению ее скорости и эффе

Annotation:

Many recent text-to-speech (TTS) systems are built on transformer architectures and employ cross-attention mechanisms for text-speech alignment. Within these systems, rotary position embedding (RoPE) is commonly used to encode positional information in text and speech representations. In this work, we introduce length-aware RoPE (LARoPE), a simple yet effective extension of RoPE that improves text-speech alignment. Unlike RoPE, which relies on absolute indices, LARoPE computes relative distances...

ID: 2509.11084v1 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

📄 Beamforming-LLM: What, Where and When Did I Miss?

2025-09-10

Авторы:

Vishal Choudhari

## Контекст Многоречивые окружения представляют свои собственные вызовы для понимания и восприятия говорения. Особенно это актуально при отсутствии внимания к некоторым частям диалога. Существующие системы позволяют воспроизводить содержимое звуковых потоков, но не учитывают контекст или семантический контент. Участники таких систем часто приходятся прибегать к рутинному повторению звуков, чтобы разобраться в пропущенном контенте. Это приводит к увеличению времени, потребляемого на понимание диалога, и к ухудшению качества взаимодействия. Необходимо разработать систему, которая не только воспроизводила бы пропущенные фрагменты, но и обеспечивала бы понятное понимание и контекст с помощью наиболее актуального текстового описания. ## Метод Система Beamforming-LLM использует микрофонный массив для съемки спектральных данных, которые позволяют выделить звуковые источники в многоречивых средах. Эти звуковые потоки используются для сегментации и распознавания речи с помощью Whisper. Он транскрибирует звуковые фрагменты и вставляет их в векторную базу данных с помощью sentence encoders. Пользователь может задавать семантические запросы, например: "Что я пропустил, когда думал об другой теме?". Затем система выполняет поиск семантически похожих фрагментов и определяет, какие фрагменты были пропущены в то время, когда пользователь отвлекался. Эти фрагменты становятся доступными для повтора с помощью GPT-4o-mini, которая создает упрощенные сводки. Благодаря этому, пользователь может получить ответы в удобном текстовом формате с возможностью запускать аудио на запрос. ## Результаты В экспериментах система Beamforming-LLM была применена в сценариях многоречивых диалогов, когда пользователь отвлекается от некоторых частей диалога. Были проведены тесты на различных диалогах, и система показала высокую точность в поиске и воспроизведении пропущенных фрагментов. Опробывались различные типы звуковых баз, включая диалог между тремя людьми и сложные ситуации с многочисленными источниками звука. Результаты показали, что Beamforming-LLM не только выделяет пропущенные фрагменты, но и предоставляет понятные и контекстуально подходящие разъяснения, что улучшает понимание пользователем. ## Значимость Было проанализировано множество областей применения Beamforming-LLM. Это может быть полезно для помощи людям с нарушениями слуха или в целях облегчения труда в нормальных диалогах. Также есть возможность применять ее в корпоративных средах для помощи в суммировании митингов, а также в сфере мобильных приложений, где пользователи могут использовать систему для получения ответа на с

Annotation:

We present Beamforming-LLM, a system that enables users to semantically recall conversations they may have missed in multi-speaker environments. The system combines spatial audio capture using a microphone array with retrieval-augmented generation (RAG) to support natural language queries such as, "What did I miss when I was following the conversation on dogs?" Directional audio streams are separated using beamforming, transcribed with Whisper, and embedded into a vector database using sentence ...

ID: 2509.06221v1 eess.AS, cs.AI, cs.CL, cs.HC

arXiv PDF

📄 Fake-Mamba: Real-Time Speech Deepfake Detection Using Bidirectional Mamba as Self-Attention's Alternative

2025-08-15

Авторы:

Xi Xuan, Zimo Zhu, Wenxin Zhang, Yi-Cheng Lin, Tomi Kinnunen

## Контекст Синтез речи продолжает развиваться, однако это приносит новые секретностных угрозы, особенно в области глубокого подделывания речи (deepfake). Определение и анализ таких поддельных речевых фрагментов становится ключевым для защиты от мошенничества и фальсификации. Несмотря на то, что существуют современные способы обнаружения deepfake, они часто сталкиваются с проблемами, такими как высокая задержка и ограниченная обнаружительная эффективность. Fake-Mamba предлагает альтернативный подход к обнаружению deepfake, используя bidirectional Mamba в качестве альтернативы Self-Attention. Этот подход может обнаруживать не только локальные, но и глобальные особенности синтетической речи. Он имеет реальное время обработки, что делает его пригодным для практического применения в реальных условиях. Этот подход может быть применен для борьбы с мошенничеством, защиты личных данных и обеспечения безопасности в системах управления доступом. ## Метод Fake-Mamba основывается на XLSR-архитектуре, которая хранит богатые звуковые представления. Библиотека Mamba, в качестве альтернативы Self-Attention, используется для получения глобальных и локальных контекстов речи. Разработаны три различных модели: TransBiMamba, ConBiMamba и PN-BiMamba. Эти модели сочетают в себе локальные и глобальные характеристики, чтобы обнаруживать не только синтетические элементы речи, но и различия в вариациях интонации. Fake-Mamba была тщательно тренирована на широком диапазоне данных, включая ASVspoof 21 LA, 21 DF и In-The-Wild, чтобы обеспечить высокую точность и обнаружение поддельных речи в разных условиях. Инновационными являются специальные эффективные модули, созданные для того, чтобы повысить производительность и точность модели. ## Результаты Fake-Mamba была протестирована на трех различных наборах данных. На ASVspoof 21 LA, 21 DF и In-The-Wild она показала значения Equal Error Rate (EER) 0.97%, 1.74% и 5.85%, соответственно. Это превышает результаты для других новых моделей, таких как XLSR-Conformer и XLSR-Mamba. Результаты показывают, что Fake-Mamba обеспечивает высокую точность в реальном времени, даже при обработке длинных фрагментов речи. Она также демонстрирует высокую обнаружительную эффективность на различных наборах данных, что делает ее широко применимой в различных сценариях. ## Значимость Fake-Mamba может использоваться в различных областях, включая безопасность цифровых систем, защиту от фишинга, идентификацию злоумышленников и защиту личных данных. Она предлагает несколько преимуществ, таких как более высокая точность, меньшая задержка и широкая генерализуемость. Этот подход может привести к значительным улучшениям в защите от мошеннич

Annotation:

Advances in speech synthesis intensify security threats, motivating real-time deepfake detection research. We investigate whether bidirectional Mamba can serve as a competitive alternative to Self-Attention in detecting synthetic speech. Our solution, Fake-Mamba, integrates an XLSR front-end with bidirectional Mamba to capture both local and global artifacts. Our core innovation introduces three efficient encoders: TransBiMamba, ConBiMamba, and PN-BiMamba. Leveraging XLSR's rich linguistic repre...

ID: 2508.09294v1 eess.AS, cs.AI, cs.CL, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 FlexCTC: GPU-powered CTC Beam Decoding With Advanced Contextual Abilities

2025-08-14

Авторы:

Lilit Grigoryan, Vladimir Bataev, Nikolay Karpov, Andrei Andrusenko, Vitaly Lavrukhin, Boris Ginsburg

## Контекст В последние годы значительный прогресс в области распознавания речи был достигнут благодаря развитию моделей Connectionist Temporal Classification (CTC). Однако стандартные средства для beam decoding, используемые для улучшения качества распознавания, часто ограничены по производительности, последовательны и требуют значительных ресурсов CPU. Это затрудняет эффективное использование современных GPU, которые могли бы значительно ускорить процесс. Далее, существующие решения либо требуют сложной настройки, либо не поддерживают расширенные возможности, такие как интеграция грамматических моделей или фаззинг фраз. Изложенная проблема мотивирует разработку производительного, расширяемого и понятного для пользователя средства для GPU-powered beam decoding. ## Метод FlexCTC — это опен-сорсный инструмент, разработанный на Python и PyTorch, предназначенный для решения проблем скорости и производительности в beam decoding для CTC-моделей. Архитектура FlexCTC основана на полностью батченной GPU-реализации, которая устраняет задержки синхронизации между CPU и GPU, а также использует CUDA Graphs для минимизации затрат на запуск курсоров. Для добавления расширенных возможностей, таких как фаззинг фраз и GPU-powered N-gram language model fusion, разработчики внедрили универсальный интерфейс для подключения дополнительных модулей. Это позволяет легко адаптировать систему под конкретные задачи и модели. ## Результаты На тестах с реальными данными FlexCTC показал значительные выигрыши в производительности по сравнению с существующими решениями. Тесты показали, что возможности GPU-based decoding позволяют обрабатывать большие объемы данных за меньшее время, что делает FlexCTC привлекательным для использования в production-ready системах. Также были проведены эксперименты с интеграцией грамматических моделей и фаззинга фраз, которые подтвердили повышение точности распознавания в сценариях сложности. ## Значимость FlexCTC широко может применяться в сферах распознавания речи, таких как транскрибирование аудио, поисковые системы и интерактивные системы управления. Его преимущества включают высокую производительность, полностью GPU-powered решение, расширенные возможности для контекстуализации и простоту использования благодаря интуитивно понятному интерфейсу. Эти особенности делают FlexCTC полезным инструментом как для научных исследований, так и для коммерческого применения. ## Выводы FlexCTC — это развивающееся и мощное решение для beam decoding в CTC-моделях. Его GPU-powered инфраструктура, простота использования и расширенные возможности контекстуализации делают его привлекательным для разработчиков и исследователей. Будущие работы будут направлены на улучшение производительности, добавление поддержки дополнительных моделей и

Annotation:

While beam search improves speech recognition quality over greedy decoding, standard implementations are slow, often sequential, and CPU-bound. To fully leverage modern hardware capabilities, we present a novel open-source FlexCTC toolkit for fully GPU-based beam decoding, designed for Connectionist Temporal Classification (CTC) models. Developed entirely in Python and PyTorch, it offers a fast, user-friendly, and extensible alternative to traditional C++, CUDA, or WFST-based decoders. The toolk...

ID: 2508.07315v2 eess.AS, cs.AI, cs.CL, cs.LG, cs.SD

arXiv PDF

📄 MultiAiTutor: Child-Friendly Educational Multilingual Speech Generation Tutor with LLMs

2025-08-14

Авторы:

Xiaoxue Gao, Huayun Zhang, Nancy F. Chen

## Контекст Обучение языкам для детей является важным аспектом развития, но существуют существенные сложности в создании эффективных систем обучения, особенно для малоресурсных языков. Эти языки часто не имеют достаточных ресурсов и ресурсов для создания качественных методик обучения. Более того, существующие технологии генерирования речи часто не приспособлены для решения конкретных потребностей в обучении детей. Недостаточность культурной и языковой релевантности в существующих решениях приводит к неэффективности некоторых подходов. MultiAiTutor предлагает решение этих проблем, предлагая многоязычную систему генерирования речи, ориентированную на обучение детей, с использованием новых технологий LLMs. ## Метод MultiAiTutor основывается на архитектуре ведущих LLMs, которая масштабируется для многоязычной обработки речи. Система применяет культурно-релевантные задачи, такие как описание изображений на младших уровнях возраста, чтобы обеспечить интерактивность и актуальность для детей. Использование нескольких языков позволяет легко адаптировать систему к разным региональным особенностям. Архитектура LLM обеспечивает высокую точность генерирования и гранулярную способность адаптироваться к разным стилям речи и говорения. Технологии моделирования голоса используются для создания детских голосов, которые звучат привлекательными и дружелюбными. ## Результаты Для оценки MultiAiTutor были проведены ряд экспериментов на данных, содержащих голосовые данные в трех малоресурсных языках: сингапурский мандарин, малайский и тамилский. Оценка производилась как по использованию объективных метрик, так и с помощью тестирования субъективных оценок. Результаты показали, что MultiAiTutor превосходит соответствующие базовые методы по метрикам качества речи, точности генерирования и поддержке языков. Особенно выделяется эффективность системы в создании речи, привлекательной для детей, и в предоставлении культурно и языковой релевантности. ## Значимость MultiAiTutor может быть использовано в сфере образования, оказания поддержки детям в обучении малоресурсных языков, а также в решении проблем культурной и языковой релевантности в системах обучения. Он предоставляет доступ к качественной генерированной речи, которая может быть использована для создания интерактивных и эффективных методик обучения. Помимо этого, MultiAiTutor может иметь положительное влияние на развитие технологий AI в области обучения языков, особенно в малоресурсных регионах. ## Выводы MultiAiTutor доказал свою эффективность в обеспеч

Annotation:

Generative speech models have demonstrated significant potential in personalizing teacher-student interactions, offering valuable real-world applications for language learning in children's education. However, achieving high-quality, child-friendly speech generation remains challenging, particularly for low-resource languages across diverse languages and cultural contexts. In this paper, we propose MultiAiTutor, an educational multilingual generative AI tutor with child-friendly designs, leverag...

ID: 2508.08715v1 eess.AS, cs.AI, cs.CL, eess.SP

arXiv PDF

1
2
3

Показано 11 - 20 из 24 записей