📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 InstructAudio: Unified speech and music generation with natural language instruction

2025-11-25

Авторы:

Chunyu Qiang, Kang Yin, Xiaopeng Wang, Yuzhe Liang, Jiahui Zhao, Ruibo Fu, Tianrui Wang, Cheng Gong, Chen Zhang, Longbiao Wang, Jianwu Dang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Text-to-speech (TTS) and text-to-music (TTM) models face significant limitations in instruction-based control. TTS systems usually depend on reference audio for timbre, offer only limited text-level attribute control, and rarely support dialogue generation. TTM systems are constrained by input conditioning requirements that depend on expert knowledge annotations. The high heterogeneity of these input control conditions makes them difficult to joint modeling with speech synthesis. Despite sharing...

ID: 2511.18487v1 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

📄 MULTI-Bench: A Multi-Turn Interactive Benchmark for Assessing Emotional Intelligence ability of Spoken Dialogue Models

2025-11-06

Авторы:

Yayue Deng, Guoqiang Hu, Haiyang Sun, Xiangyu Zhang, Haoyang Zhang, Fei Tian, Xuerui Yang, Gang Yu, Eng Siong Chng

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Spoken Dialogue Models (SDMs) have advanced rapidly, yet their ability to sustain genuinely interactive multi-turn conversations remains underexplored, as most benchmarks focus on single-turn exchanges. We introduce Multi-Bench, the first benchmark explicitly designed to evaluate SDMs in multi-turn interactive dialogue with an emphasis on emotional intelligence. Multi-Bench employs a hierarchical structure with a basic track for emotion understanding and reasoning and an advanced track for emoti...

ID: 2511.00850v1 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

📄 A Neural Model for Contextual Biasing Score Learning and Filtering

2025-10-30

Авторы:

Wanting Huang, Weiran Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Contextual biasing improves automatic speech recognition (ASR) by integrating external knowledge, such as user-specific phrases or entities, during decoding. In this work, we use an attention-based biasing decoder to produce scores for candidate phrases based on acoustic information extracted by an ASR encoder, which can be used to filter out unlikely phrases and to calculate bonus for shallow-fusion biasing. We introduce a per-token discriminative objective that encourages higher scores for gro...

ID: 2510.23849v1 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

📄 TokenChain: A Discrete Speech Chain via Semantic Token Modeling

2025-10-09

Авторы:

Mingxuan Wang, Satoshi Nakamura

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Machine Speech Chain, simulating the human perception-production loop, proves effective in jointly improving ASR and TTS. We propose TokenChain, a fully discrete speech chain coupling semantic-token ASR with a two-stage TTS: an autoregressive text-to-semantic model co-trained with ASR and a masked-generative semantic-to-acoustic model for synthesis only. End-to-end feedback across the text interface is enabled with straight-through argmax/Gumbel-Softmax and balanced with supervised ASR via dynam...

ID: 2510.06201v1 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

📄 Frame-Stacked Local Transformers For Efficient Multi-Codebook Speech Generation

2025-09-26

Авторы:

Roy Fejgin, Paarth Neekhara, Xuesong Yang, Edresson Casanova, Ryan Langman Jaehyeon Kim, Subhankar Ghosh, Shehzeen Hussain, Jason Li

## Контекст Speech generation становится все более важной областью исследований в области глубокого обучения, особенно в связи с развитием large language models (LLMs). Одна из основных проблем в этой области — это проблема эффективности при генерации речи, которая связана с различиями между текстовыми токенами и дискретными акустическими кодовыми буферами, используемыми в LLMs. Эти кодовые буферы делятся на несколько наборов (multicodebook structure), что затрудняет процесс параллельной генерации. Несмотря на то, что такие модели позволяют достигать высокой производительности, они часто страдают от уменьшения точности и качества звука. Это влечет за собой необходимость разработки более эффективных стратегий для решения этих проблем, что и стало мотивацией для данного исследования. ## Метод В данном работе предлагается использовать архитектуру Frame-Stacked Local Transformers, которая состоит из двух основных элементов. Первый — это autoregressive transformer, который позволяет предсказывать несколько кодовых буферов одновременно, чтобы уменьшить время генерации. Второй — это MaskGIT-based transformer, который использует маскированную предсказательную модель, чтобы улучшить точность и качество звука. Более того, в работе представлена идея frame stacking, где подряд идущие фреймы генерируются одновременно, что позволяет эффективно использовать ресурсы. Метод также включает в себя исследование различных стратегий decoding, таких как autoregressive и iterative, чтобы понять, какие из них лучше подходят для различных задач, где нужно выбирать между скоростью и качеством. ## Результаты Для проверки эффективности предлагаемой модели, проведено ряд экспериментов с разными наборами данных. Были сравнены различные варианты decoding, включая autoregressive и iterative sampling. Результаты показали, что Frame-Stacked Local Transformers позволяют достигать высокой скорости генерации, не утрачивая качества звука. Также были проанализированы точность и качество звука, полученных при использовании разных моделей, которые показали, что MaskGIT-based transformer дает лучшие результаты в случае необходимости повысить качество. Исследования также показали, что frame stacking может существенно увеличить производительность, не снижая качества. ## Значимость Предлагаемая модель имеет большой потенциал в сфере генерации речи, особенно в сетях, где необходима высокая производительность и качество звука. Модель может быть применена в различных областях, включая синтез речи, генерацию голосов для видео и генерацию речи в реальном времени. Одним из основных преимуществ является то, что Frame-Stacked Local Transformers эффективнее существующих моделей, не требуя того же уровня ресурсов. Это может позволить применять модель в сценариях, где доступ к высокопроизводительной технике

Annotation:

Speech generation models based on large language models (LLMs) typically operate on discrete acoustic codes, which differ fundamentally from text tokens due to their multicodebook structure. At each timestep, models must predict N codebook entries jointly, introducing dependencies that challenge simple parallel prediction approaches. Parallel prediction assumes independence among codebooks, yielding efficient decoding but often at the cost of reduced fidelity. To address this, hierarchical strat...

ID: 2509.19592v1 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

📄 No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS

2025-09-25

Авторы:

Seungyoun Shin, Dongha Ahn, Jiwoo Kim, Sungwook Jeon

## Контекст Текстовое воспроизведение речи (Text-to-Speech, TTS) — это технология, позволяющая конвертировать текстовые данные в естественный голосовой вывод. Одной из ключевых проблем в этой области является создание естественной и естественного звучания речи, включая просодические свойства, такие как интонация, ритм и тембр. Несмотря на улучшение TTS-систем, не удается достичь желаемого уровня просодической привлекательности без явного контроля и оценки просодических параметров. Это вызывает значительные ограничения в широком развитии технологии, особенно в сферах, где просодические свойства ключевым образом влияют на качество звука и качество социальной интеракции. ## Метод Наша методология основывается на **Direct Preference Optimization (DPO)**, которая использует небольшое количество человеческих предпочтений для поддержки естественности просодических свойств в TTS. Мы применяем GRPO (Group Relative Policy Optimization) для оптимизации просодических факторов, но в условиях отсутствия явной награды для просодики, полагаемся на взаимодействие с человеком для ручного определения желаемых просодических характеристик. Это позволяет нам минимизировать ошибки и достичь более естественного звучания в TTS. Мы также вводим регуляризацию для стабилизации тренировки, чтобы избежать ложных минимумов. ## Результаты Мы проверяли нашу модель на **KoCC-TTS**, датасете, состоящем из реальных записей голосовых интеракций из корпоративных центров обработки обращений. Наши эксперименты показали, что DPO позволяет получить наивысший уровень желаемости пользователя (ELO) и сравнительно низкие значения CER (Character Error Rate). В сравнении с GRPO и сильными коммерческими алгоритмами, метод DPO демонстрирует значительные улучшения в просодической привлекательности, не прибегая к громоздким или нестабильным методам. Эти результаты указывают на то, что человеческие предпочтения могут стать эффективным инструментом для повышения качества голосных моделей. ## Значимость Наш метод имеет широкое применение в сфере естественного звучания голоса, в частности для TTS в задачах обработки обращений, таск-ориентированных диалогов и автоматических систем телефонной связи. Он также позволяет снизить необходимый объем ручной работы над ручной оценкой просодических свойств, что делает технологию более эффективной и доступной для разработчиков. Будущие исследования будут направлены на улучшение методов оценки естественности просодики и расширение применения наших результатов к другим языкам и стилюм речи. ## Выводы Мы доказали, что **Direct Preference Optimization** является эффективным способом обучения TTS с естественным просодическим звучанием. Наши ре

Annotation:

Recent work reports gains in neural text-to-speech (TTS) with Group Relative Policy Optimization (GRPO). However, in the absence of a verifiable reward for \textit{prosody}, GRPO trained on transcription-oriented signals (CER/NLL) lowers error rates yet collapses prosody into monotone, unnatural speech; adding speaker-similarity further destabilizes training and degrades CER. We address this with an \textit{iterative Direct Preference Optimization (DPO)} scheme that uses only a few hundred human...

ID: 2509.18531v1 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

📄 Length-Aware Rotary Position Embedding for Text-Speech Alignment

2025-09-17

Авторы:

Hyeongju Kim, Juheon Lee, Jinhyeok Yang, Jacob Morton

## Контекст Текстово-речевые системы (TTS) широко используются для генерации речи на основе текста в различных приложениях, таких как видеоконференции, автоматизированные системы обслуживания, интерактивные ассистенты и доступность звукового контента. Одной из ключевых задач в этих системах является текстово-речевая алигнмент (TRА), которая включает в себя корректное установление соответствия между текстом и его речевой интерпретацией. Одним из известных подходов к решению этой задачи является использование трансформеров с кросс-аттенцией. Однако, текущие модели TTS имеют проблемы с точностью TRА, особенно при работе с длинными высказываниями, где разница в длине участков текста и речи может привести к расхождениям. Необходимо разработать эффективные способы улучшить алигнмент, чтобы обеспечить высокое качество генерируемой речи при длительных высказываниях. ## Метод Мы предлагаем **Length-Aware Rotary Position Embedding (LARoPE)**, расширение Rotary Position Embedding (RoPE), которое учитывает длину участков для улучшения text-speech alignment. В отличие от RoPE, которое использует абсолютные индексы для кодирования позиций, LARoPE вычисляет относительные расстояния между позициями запроса (query) и ключа (key) с использованием length-normalized indices. Это позволяет лучше адаптироваться к изменениям в длине участков в тексте и речи. Метод основывается на трансформерной архитектуре и использует кросс-аттенционные механизмы, но с использованием LARoPE в качестве позиционных признаков. ## Результаты Мы проводили эксперименты на стандартных датасетах TTS, включая LJSpeech и LibriTTS, сравнивая LARoPE с RoPE. Эксперименты показали, что LARoPE улучшает text-speech alignment, снижает word error rate (WER) и обеспечивает более высокое качество генерируемой речи. Например, в тестах на длинных высказываниях (до 30 секунд) LARoPE показала стабильное выполнение, в то время как RoPE имела заметные расхождения. Мы также проверили устойчивость модели к изменениям в длине участков текста и речи, и LARoPE показала лучшие результаты. Был доказан состояние технологии (SOTA) по WER на zero-shot TTS benchmark. ## Значимость Результаты LARoPE демонстрируют ее применимость в TTS-системах, особенно для длинных аудио-высказываний. Это может повысить качество речи и улучшить доступность звукового контента в различных сценариях применения, таких как видеоконференции, интерактивные системы и доступность контента. LARoPE также снижает WER и обеспечивает более точный алигнмент, что может положительно сказаться на качестве речи и ее понятности. Будущие исследования могут сосредоточиться на расширении LARoPE для работы с мультимодальными данными и улучшению ее скорости и эффе

Annotation:

Many recent text-to-speech (TTS) systems are built on transformer architectures and employ cross-attention mechanisms for text-speech alignment. Within these systems, rotary position embedding (RoPE) is commonly used to encode positional information in text and speech representations. In this work, we introduce length-aware RoPE (LARoPE), a simple yet effective extension of RoPE that improves text-speech alignment. Unlike RoPE, which relies on absolute indices, LARoPE computes relative distances...

ID: 2509.11084v1 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

📄 TurboBias: Universal ASR Context-Biasing powered by GPU-accelerated Phrase-Boosting Tree

2025-08-13

Авторы:

Andrei Andrusenko, Vladimir Bataev, Lilit Grigoryan, Vitaly Lavrukhin, Boris Ginsburg

## Контекст Внедрение контекстной биазированной транскрибации звуков (ASR) становится все более важной задачей в статистических распознавателях речи. Она позволяет улучшить точность распознавания, оптимизировав сеть для распознавания конкретных фраз, важных для контекста. Существующие подходы сталкиваются с такими проблемами, как необходимость дополнительной модели, высокое влияние на производительность системы при работе с большим количеством фраз, и ограничения системы распознавания звука. Эти ограничения налагают серьезные ограничения на универсальность и поддерживаемую скорость обработки. ## Метод Мы предлагаем TurboBias, новую модель ASR с биазированием контекста, которая работает на GPU-акселераторе с деревом ускорения фраз. Метод работает в рамках трех основных типов распознавания речи на основе CTC, Transducers и сетей Attention Encoder-Decoder. Метод имеет высокую скорость обработки, независимо от количества фраз в словаре, благодаря объединению фраз в бинарное дерево. Благодаря этому, TurboBias может обрабатывать до 20 000 фраз с минимальным влиянием на производительность. ## Результаты Мы проверили TurboBias на стандартных датасетах ASR. Система показала высокую точность распознавания слов, а также быстродействие, которое не снижается даже при большом количестве фраз в словаре. Наши результаты показывают, что TurboBias обеспечивает улучшение точности и скорости в сравнении с другими методами ASR, особенно при работе с большим количеством целевых фраз. ## Значимость TurboBias может использоваться для различных задач, таких как распознавание речи на лету, улучшение систем распознавания речи для специальных языковых контекстов, и для любых систем, требующих быстрого и точного распознавания фраз. Метод открывает новые возможности для развития систем ASR, особенно для приложений, требующих высокого быстродействия и уменьшения ошибок распознавания. ## Выводы Мы представили TurboBias, мощную универсальную модель ASR с биазированием контекста. Метод обеспечивает не только высокую точность распознавания, но и высокую скорость даже при обработке больших наборов фраз. Мы видим будущие развитие TurboBias в области улучшения систем распознавания звука для разных языков и специальных задач.

Annotation:

Recognizing specific key phrases is an essential task for contextualized Automatic Speech Recognition (ASR). However, most existing context-biasing approaches have limitations associated with the necessity of additional model training, significantly slow down the decoding process, or constrain the choice of the ASR system type. This paper proposes a universal ASR context-biasing framework that supports all major types: CTC, Transducers, and Attention Encoder-Decoder models. The framework is base...

ID: 2508.07014v2 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

📄 SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec

2025-08-09

Авторы:

Chunyu Qiang, Haoyu Wang, Cheng Gong, Tianrui Wang, Ruibo Fu, Tao Wang, Ruilong Chen, Jiangyan Yi, Zhengqi Wen, Chen Zhang, Longbiao Wang, Jianwu Dang, Jianhua Tao

**Резюме** В статье предлагается SecoustiCodec — новый потоковый кодек речи с низким битрейтом, который решает ключевые проблемы существующих кодеков. Он способен разделять семантическую и паралингвистическую информацию в едином кодеконе, что позволяет избежать нежелательных эффектов, таких как остаточная паралингвистическая информация (например, тон и эмоция). Для улучшения реконструкции и компактности текстового семантического кодирования используется метод эффективной шкальной квантизации, основанный на VAE и FSQ, что решает проблему длинного хвоста распределения токенов. Для улучшения многомодального выравнивания сложности используется метод обучения с подкреплением, что делает модель более устойчивой. Опытные результаты показали, что SecoustiCodec достигает высокого качества реконструкции (PESQ) — 1.77 при 0.27 кбит/с и 2.58 при 1 кбит/с. Это продвижение в области кодеков речи открывает новые горизонты для совместного использования речи и текста в AI-системах.

Annotation:

Speech codecs serve as a crucial bridge in unifying speech and text language models. Existing codec methods face several challenges in semantic encoding, such as residual paralinguistic information (e.g., timbre, emotion), insufficient semantic completeness, limited reconstruction capability, and lack of support for streaming. To address these challenges, we propose SecoustiCodec, a cross-modal aligned low-bitrate streaming speech codec that disentangles semantic and paralinguistic information i...

ID: 2508.02849v1 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF