📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Maja J. Hjuler, Harald V. Skat-Rørdam, Line H. Clemmensen, Sneha Das

## Контекст Исследование сосредоточено на проблематике любознательного расширения корпусов эмоционального речевого анализа, ориентированных на менее широко говорящие языки. Известно, что существует недостаток функциональных данных для менее распространенных языков, таких как датский. Датский эмоциональный речевой (DES) корпус, опубликованный в 1997 году, является единственным известным базой данных эмоциональной речи на данном языке. Для компенсации этого недостатка представлен корпус EmoTale, который включает записи речи на датском и английском языках с ассоциированными ансамбленными эмоциональными оценками. Этот корпус предназначен для поддержки развития моделей распознавания эмоций в речи (SER), особенно в небольших языках. ## Метод EmoTale состоит из двух частей: датских и английских речевых записей, сопровождаемых ансамбленными эмоциональными оценками. Методология использовала самосваленные модели распознавания речи (SSLM) и функциональный инструмент openSMILE для экстракции признаков. Модели были обучены с использованием этих функций для предсказания эмоциональных состояний на основе речи. Это позволило проверить точность и эффективность EmoTale в сравнении с другими корпусами. Для сравнения использовался DES. ## Результаты Использование SSLM-эмбеддингов показало значительное превосходство по сравнению с традиционными ручными признаками. На EmoTale был достигнут уровень точности примерно в 64.1% при кросс-валидации с leave-one-speaker-out, что стабильно соответствует результатам DES. Это подтверждает справедливость EmoTale как надежного источника данных для развития моделей SER. ## Значимость Корпус EmoTale является первым широкого круга применения для эмоциональной речи на датском языке. Его можно применять для разработки и тестирования моделей распознавания эмоций в речи, что включает биометрическое распознавание, анализ звука и психологическое исследование эмоций. Он дает возможность расширить исследования в этой области на менее широко говорящих языках, которое было ограничено ранее. ## Выводы Результаты EmoTale показывают высокую эффективность использования SSLM-эмбеддингов для предсказания эмоций в речи на менее распространенных языках. Будущие исследования будут фокусироваться на расширении EmoTale, включении дополнительных эмоциональных состояний и исследовании различных стилей речи. Этот корпус может стать важной ресурсной базой для дальнейшего развития технологий распознавания эмоций в речи на менее распространенных языках.
Annotation:
While multiple emotional speech corpora exist for commonly spoken languages, there is a lack of functional datasets for smaller (spoken) languages, such as Danish. To our knowledge, Danish Emotional Speech (DES), published in 1997, is the only other database of Danish emotional speech. We present EmoTale; a corpus comprising Danish and English speech recordings with their associated enacted emotion annotations. We demonstrate the validity of the dataset by investigating and presenting its predic...
ID: 2508.14548v1 cs.CL, cs.SD, eess.AS
Авторы:

Wonjune Kang, Deb Roy

## Контекст Существует устойчивая тенденция в развитии звукового поиска, направленная на создание моделей, которые могут выполнять поиск звуковых фрагментов по текстовым описаниям. Однако поисковые запросы, как правило, ограничиваются описанием содержимого речи, не учитывая стиль ее воспроизведения. Это привело к отсутствию методов, работающих с изменениями в стиле речи, таких как эмоциональные оттенки, скорость, тональность и другие экспрессивные особенности. Мотивация для этого исследования заключается в развитии моделей, которые могут выполнять поиск речи не только по содержимому, но и по стилю ее воплощения. Это открывает новые возможности для звукового поиска, в том числе для поиска речи по эмоциональным описаниям, стилям и другим атрибутам. ## Метод Мы предлагаем фреймворк, объединяющий текстовые описания стиля речи с ее акустическими признаками в единое пространство. Учитывая то, что текст описания и акустические признаки речи являются разными типами данных, мы используем модели генеративного представления, которые могут преобразовывать эти данные в пространство, где они могут быть эффективно сравниваемы. Мы обучаем два вида моделей: модель для текста, которая превращает описания стиля речи в векторы, и модель для звука, которая превращает акустические признаки речи в векторы. Затем эти модели обучаются вместе, чтобы обеспечить эффективную и точную корреляцию между звуковыми и текстовыми данными. ## Результаты Мы проводим эксперименты на нескольких датасетах, содержащих звуковые записи речи, как описано в тексте. Наши модели обучены на 22 различных эмоциональных и стилистических атрибутах. Мы оцениваем их по точности поиска, используя критерий Recall@k. Наши результаты показывают, что наши модели способны выполнять поиск речи по текстовым описаниям с высокой точностью, особенно когда используются богатые текстовые описания. Мы также проводим серию анализов, включая эффективность различных моделей генерации текста, а также сравниваем результаты с различными модификациями наших моделей. ## Значимость Наша работа может быть применена в различных областях, включая развитие интеллектуальных систем, ориентированных на звуковый поиск, а также в области моделирования и анализа речи. Этот подход может быть полезен для создания систем, которые могут понимать и идентифицировать эмоциональный тон речи, диалект и другие стилистические атрибуты. В дополнение, наша работа демонстрирует потенциал для улучшения точности в поисковых системах, которые используют естественный язык для выражения потребностей пользователей. ## Выводы Мы представляем но
Annotation:
We introduce the task of expressive speech retrieval, where the goal is to retrieve speech utterances spoken in a given style based on a natural language description of that style. While prior work has primarily focused on performing speech retrieval based on what was said in an utterance, we aim to do so based on how something was said. We train speech and text encoders to embed speech and text descriptions of speaking styles into a joint latent space, which enables using free-form text prompts...
ID: 2508.11187v1 eess.AS, cs.CL, cs.SD
Авторы:

Chenyang Le, Yinfeng Xia, Huiyan Li, Manhong Wang, Yutao Sun, Xingyang Ma, Yanmin Qian

## Контекст Многоязычная распознавательная технология является важной областью исследований, поскольку она позволяет устранить барьеры языковых различий и обеспечить широкий круг пользователей. Однако современные многоязычные модели транскрипции речи в текст часто сталкиваются с проблемами, такими как большой размер моделей, высокий потребление ресурсов и снижение производительности при локальной инференсе. Такие ограничения становятся весомым препятствием для развертывания моделей в реальных условиях, где требуется быстрота, эффективность и точность. Цель нашего исследования заключается в разработке эффективной и точной модели, которая бы сочетала в себе высокую производительность с сохранением высокого качества перевода. ## Метод Для решения этих проблем мы предлагаем **Паразитный Двойной-Масштабный Метод (Parasitic Dual-Scale Approach)**. Основные компоненты этого подхода: усовершенствованная методика спекулятивного семплинга, методы сжатия модели и знаний (knowledge distillation). Мы расширяем модель Whisper Medium до whisperM2M, при этом внедряя нашу собственную модульную систему KVSPN (Knowledge-Vision-Speech-Parallel-Network). Этот модуль позволяет разделять функции модели на два уровня: первый - работа с низким разрешением для быстроты, второй - предсказание с высоким разрешением для точности. Эта двойная конфигурация позволяет уменьшить нагрузку на вычисления, увеличивая при этом производительность. ## Результаты Мы проводили эксперименты на шести языках с популярными диалектами: английский, французский, немецкий, испанский, итальянский и турецкий. Для оценки качества перевода использовали метрику BLEU. Наши результаты показывают, что KVSPN модуль обеспечивает скоростный прирост в 40% при сохранении безудержного качества перевода (неизменного BLEU-скора). Благодаря использованию метода дистилляции знаний, мы добились скоростного прироста в 2.6 раз сохраняя на выходе качество, которое значительно превосходит результаты оригинальной модели Whisper Medium. ## Значимость Наш подход широко применяется в сценариях, где требуется быстрота работы и надежность, например в локальных приложениях, устройствах с ограниченными ресурсами и сервисах, требующих непрерывности. Важность нашей работы также заключается в том, что она позволяет достичь сочетания масштабности и точности, которое недоступно для многих современных многоязычных моделей. Мы также открываем новые пути для дальнейшего развития моделей, включая использование более сложных стратегий сжатия и расширения кросс-языковых моделей. ## Выводы Мы представили новую модель whisperM2M, в которой используется **Паразитный Двойной-Масштабный Метод**.
Annotation:
Recent advancements in speech-to-text translation have led to the development of multilingual models capable of handling multiple language pairs simultaneously. However, these unified models often suffer from large parameter sizes, making it challenging to balance inference efficiency and performance, particularly in local deployment scenarios. We propose an innovative Parasitic Dual-Scale Approach, which combines an enhanced speculative sampling method with model compression and knowledge disti...
ID: 2508.11189v1 cs.CL, cs.SD, eess.AS
Авторы:

Greta Tuckute, Klemen Kotar, Evelina Fedorenko, Daniel L. K. Yamins

## Контекст Понимание речи — это ключевая задача в области искусственного интеллекта, существенная для развития естественного взаимодействия между человеком и машиной. Однако существующие модели либо недостаточно эффективно обрабатывают аудиодорожки, либо не могут построить качественные представления речи, что приводит к ограниченному функционалу и недостаточной естественности. Биологически точные модели, вдохновленные звукоснежинкой и звукоинтерпретирующими структурами мозга, могут эффективно решить эти проблемы, предоставив более глубокие и значимые представления речи. ## Метод AuriStream представляет собой двухступенчатый архитектурный подход, скоррелированный с биологическими процессами звукообработки. В первой стадии аудио-сигнал трансформируется в временно-частотное представление, аналогичное звукоснежинке, и извлекаются **кохлейские токены** — дискретные числовые представления. Во второй стадии используется авторегрессионный подход, дообучаемый на этих токенах. Эта модель способна выделять фонетические и семантические особенности, включая палиндромы и профили лексических смыслов. ## Результаты В ходе экспериментов AuriStream демонстрирует высокую эффективность на различных задачах, включая лексическую семантику и распознавание речи. Модель показала соревновательную производительность на SUPERB-тестах, показав высокую точность в распознавании фонем и слов. Более того, AuriStream может продолжать аудио-сигнал, выводить его в виде спектрограмм и воспроизводить обратно в аудио, обеспечивая прозрачность и понимание своих предсказаний. ## Значимость AuriStream может применяться в различных сферах — от естественных языковых моделей до аудио-визуальной синтезации. Модель предоставляет более точное и естественное представление речи, что может улучшить ассистентские технологии, транскрибирование речи и прогнозирование развития речи у детей. Её гибкость и эффективность открывают новые пути для создания более естественных и эффективных моделей устных задач. ## Выводы AuriStream является прорывом в области обучения представлений речи, объединяя биологическую точность и силу машинного обучения. Она демонстрирует высокую эффективность в различных задачах, что подтверждает её потенциал в создании более сложных и естественных моделей для обработки речи. Будущие исследования будут фокусироваться на улучшении точности и расширении приложений модели.
Annotation:
We introduce AuriStream, a biologically inspired model for encoding speech via a two-stage framework inspired by the human auditory processing hierarchy. The first stage transforms raw audio into a time-frequency representation based on the human cochlea, from which we extract discrete \textbf{cochlear tokens}. The second stage applies an autoregressive sequence model over the cochlear tokens. AuriStream learns meaningful phoneme and word representations, and state-of-the-art lexical semantics. ...
ID: 2508.11598v1 cs.CL, cs.SD, eess.AS
Авторы:

Lavanya Shankar, Leibny Paola Garcia Perera

## Контекст Код-свитчинг и языковая идентификация в сценариях речевого взаимодействия с детьми представляют серьезные затруднения, особенно в билингвальных средах. Эти проблемы усиливаются в ситуациях, когда речь содержит две неравнозначные языки, такие как мандаринский и английский. Такие ситуации характерны для речевых взаимодействий с детьми, где родители или опекуны часто переключаются между языками. Это затрудняет автоматизированную систему распознавания языка, так как требуется высокая точность для правильной идентификации языка. Наша мотивация заключается в использовании модели Zipformer для улучшения языковой идентификации в таких сценариях. Мы исследуем внутренние слои модели, которые эффективно кодируют языковые черты, и исследуем их практическое применение в реальных условиях. ## Метод Мы использовали модель Zipformer, разработанную специально для задач распознавания языка. Модель обладает трансформерской архитектурой, которая позволяет эффективно обрабатывать потоки речи. Мы использовали внутренние слои модели для извлечения эмбеддингов, которые содержат характеристики языка. Для сравнения мы использовали другие модели и бэкенды для оценки точности. Наша цель заключалась в оптимизации выбора внутренних слоев Zipformer для точного извлечения эмбеддингов, которые могут быть использованы в языковой идентификации. ## Результаты Мы провели эксперименты с реальными данными, содержащими два неравнозначных языка, мандаринский и английский. Мы измерили производительность Zipformer по сравнению с другими моделями на метриках Balanced Accuracy (BAC) и F1-меры. Эксперименты показали, что Zipformer превосходит другие модели, достигнув BAC 81.89%, что является улучшением на 15.47% по сравнению с базовым алгоритмом. Эти результаты демонстрируют высокую точность и устойчивость модели в условиях неравномерного распределения данных. ## Значимость Наши результаты имеют значительное значение в области языковой идентификации, особенно в сценариях с код-свитчингом. Модель Zipformer может быть применена в системах распознавания речи, транскрибировании речи и анализе речевых данных. Она предоставляет достоверные результаты для языков с неравномерным распределением, что делает ее полезной в реальных условиях, например, в обучении детей и в технологиях поддержки детского развития. Этот подход также может быть расширен на другие языки и сценарии с код-свитчингом. ## Выводы Мы демонстрируем, что Zipformer является эффективным инструментом для языковой идентификации в код-свитчинговых сценариях, о
Annotation:
Code-switching and language identification in child-directed scenarios present significant challenges, particularly in bilingual environments. This paper addresses this challenge by using Zipformer to handle the nuances of speech, which contains two imbalanced languages, Mandarin and English, in an utterance. This work demonstrates that the internal layers of the Zipformer effectively encode the language characteristics, which can be leveraged in language identification. We present the selection...
ID: 2508.09430v1 cs.CL, cs.SD
Авторы:

Andrei Andrusenko, Vladimir Bataev, Lilit Grigoryan, Vitaly Lavrukhin, Boris Ginsburg

## Контекст Внедрение контекстной биазированной транскрибации звуков (ASR) становится все более важной задачей в статистических распознавателях речи. Она позволяет улучшить точность распознавания, оптимизировав сеть для распознавания конкретных фраз, важных для контекста. Существующие подходы сталкиваются с такими проблемами, как необходимость дополнительной модели, высокое влияние на производительность системы при работе с большим количеством фраз, и ограничения системы распознавания звука. Эти ограничения налагают серьезные ограничения на универсальность и поддерживаемую скорость обработки. ## Метод Мы предлагаем TurboBias, новую модель ASR с биазированием контекста, которая работает на GPU-акселераторе с деревом ускорения фраз. Метод работает в рамках трех основных типов распознавания речи на основе CTC, Transducers и сетей Attention Encoder-Decoder. Метод имеет высокую скорость обработки, независимо от количества фраз в словаре, благодаря объединению фраз в бинарное дерево. Благодаря этому, TurboBias может обрабатывать до 20 000 фраз с минимальным влиянием на производительность. ## Результаты Мы проверили TurboBias на стандартных датасетах ASR. Система показала высокую точность распознавания слов, а также быстродействие, которое не снижается даже при большом количестве фраз в словаре. Наши результаты показывают, что TurboBias обеспечивает улучшение точности и скорости в сравнении с другими методами ASR, особенно при работе с большим количеством целевых фраз. ## Значимость TurboBias может использоваться для различных задач, таких как распознавание речи на лету, улучшение систем распознавания речи для специальных языковых контекстов, и для любых систем, требующих быстрого и точного распознавания фраз. Метод открывает новые возможности для развития систем ASR, особенно для приложений, требующих высокого быстродействия и уменьшения ошибок распознавания. ## Выводы Мы представили TurboBias, мощную универсальную модель ASR с биазированием контекста. Метод обеспечивает не только высокую точность распознавания, но и высокую скорость даже при обработке больших наборов фраз. Мы видим будущие развитие TurboBias в области улучшения систем распознавания звука для разных языков и специальных задач.
Annotation:
Recognizing specific key phrases is an essential task for contextualized Automatic Speech Recognition (ASR). However, most existing context-biasing approaches have limitations associated with the necessity of additional model training, significantly slow down the decoding process, or constrain the choice of the ASR system type. This paper proposes a universal ASR context-biasing framework that supports all major types: CTC, Transducers, and Attention Encoder-Decoder models. The framework is base...
ID: 2508.07014v2 eess.AS, cs.AI, cs.CL, cs.SD
Авторы:

Wenqian Cui, Lei Zhu, Xiaohui Li, Zhihan Guo, Haoli Bai, Lu Hou, Irwin King

#### Контекст Full-Duplex Speech Language Models (FD-SLMs) являются основными моделями, разработанными для поддержки натуральных и реального времени происходящих диалогов. Они моделируют сложные динамики разговоров, такие как перебивания, согласования и другие формы взаимодействия. Энд-то-энд (e2e) FD-SLMs воспользовались реальными двухканальными данными для построения моделей разговоров между двумя участниками. Однако они сталкиваются со значительной проблемой: их разговорные способности часто ниже, чем у моделей, основанных только на тексте. Это связано с проблемами, связанными с предобработкой длинных сегментов речи и недостатком высококачественных данных для говоряного диалога. Текстово-направленная генерация речи могла бы устранить некоторые из этих проблем, но сталкивается с тем, что текстовый гайд не вписывается в аудио-стрим, что приводит к дискомфорту в разговоре. #### Метод Мы предлагаем TurnGuide, новую методологию, которая имитирует человеческий подход к планированию разговора. Этот подход динамически разбивает высказывания помощника на отдельные повороты разговора (dialogue turns) и формирует текстовый гайд на уровне каждого из этих поворотов до того, как подавать речевой сигнал. Это решение устраняет проблемы с темпом и длиной, которые возникают при внедрении текстового гайда в двухканальные аудио-стримы. TurnGuide использует планирование, чтобы улучшить структуру разговора и обеспечить естественную последовательность слов. #### Результаты Мы провели эксперименты, которые показали, что TurnGuide значительно улучшает работу e2e FD-SLMs. Модели, обученные с помощью нашего подхода, генерируют семантически корректные и последовательные высказывания, сохраняя при этом естественный темп разговора. Результаты показывают, что TurnGuide решает проблемы времени и длины, которые нарушают естественность разговорных интерпретаций в двухканальных моделях. Демонстрация доступна по ссылке: [демо-сайт], а код будет доступен на GitHub по адресу: [ссылка на репозиторий]. #### Значимость Предложенный подход имеет многочисленные потенциальные применения в области голосовых помощников, которые должны общаться с людьми в реальном времени. Он может быть применен в системах с умным домашним аппаратурой, системах управления, системах самообучения, а также в других сферах, где естественное взаимодействие с пользователем ключево. TurnGuide имеет преимущество в том, что он улучшает качество говорения, устраняя проблемы времени и длины, которые были особенно важными для развития двухканальной речи. #### Выводы Мы представили TurnGuide, новую планировательную модель, которая улучшает естественность разговоров в FD-SLMs. Наши
Annotation:
Full-Duplex Speech Language Models (FD-SLMs) are specialized foundation models designed to enable natural, real-time spoken interactions by modeling complex conversational dynamics such as interruptions, backchannels, and overlapping speech, and End-to-end (e2e) FD-SLMs leverage real-world double-channel conversational data to capture nuanced two-speaker dialogue patterns for human-like interactions. However, they face a critical challenge -- their conversational abilities often degrade compared...
ID: 2508.07375v1 cs.CL, cs.SD, eess.AS
Авторы:

Robin Huo, Ewan Dunbar

#### Контекст Самостоятельное обучение моделей для отображения речи в высококачественные слоевые представления становится все более популярным в связи с их универсальностью и высокой эффективностью на задачах классификации звука, восприятия речи и аналогичных. Однако, по проблеме влияния архитектуры моделей на эту возможность значительно меньше исследований. Два из ведущих моделей в этой области — HuBERT и wav2vec 2.0 — отличаются значительно. Минимальное сравнение этих моделей позволяет выявить, насколько важной для результатов является именно архитектура, а не только выбранная цель обучения. #### Метод Основной экспериментальный подход заключается в сравнении двух моделей — HuBERT и wav2vec 2.0 — с различными исходными архитектурами и целями обучения. Для этого используется метод многоитерационного уточнения псевдомаеток (iterative pseudo-label refinement), который применяется к каждой модели. Эти уточнения применяются для каждого этапа обучения, позволяя увидеть, насколько эта процедура влияет на полученные представления речи. Архитектура каждой модели остается тем же, но смещаются цели обучения и их методы рефиней. #### Результаты В ходе экспериментов было выявлено, что HuBERT и wav2vec 2.0, несмотря на разные цели обучения, демонстрируют значительные различия в их представлениях речи. Основное отличие заключается в том, что HuBERT получает более высокую корреляцию с значениями слов, фонем и речи, чем wav2vec 2.0. Это отличие обусловлено не самой целью обучения, а именно многоитерационным уточнением псевдомаеток. Эти последние позволяют кластеризовать речи более точно, что в свою очередь приводит к более точным представлениям слов, фонем и речи в самом представлении. #### Значимость Эти результаты имеют важное значение для широкой области применения моделей самостоятельного обучения. Например, в области естественного языка обработки, восприятия речи и транскрибирования, где представления речи играют ключевую роль. Многоитерационный уточняющий процесс позволяет улучшить качество представления речи, что может повысить эффективность применения моделей в реальном мире, особенно в задачах, требующих высокой точности. Этот подход также может быть использован для улучшения других моделей самостоятельного обучения, не только в сфере речи. #### Выводы Итоги исследования показывают, что многоитерационный уточняющий процесс является ключевым фактором в том, как HuBERT извлекает слойные представления речи, а не сама цель обучения. Это открывает путь к будущим исследованиям в области уточнения и совершенствования многоитерационных методов, которые могут быть применены для всякого рода са
Annotation:
Self-supervised models for speech representation learning now see widespread use for their versatility and performance on downstream tasks, but the effect of model architecture on the linguistic information learned in their representations remains under-studied. This study investigates two such models, HuBERT and wav2vec 2.0, and minimally compares two of their architectural differences: training objective and iterative pseudo-label refinement through multiple training iterations. We find that d...
ID: 2508.08110v1 cs.CL, cs.SD, eess.AS
Авторы:

Edresson Casanova, Paarth Neekhara, Ryan Langman, Shehzeen Hussain, Subhankar Ghosh, Xuesong Yang, Ante Jukić, Jason Li, Boris Ginsburg

#### Контекст Large Language Models (LLMs) показали свою эффективность в обработке аудиоданных с помощью аудиокодеков, которые дискретизируют аудио в токены. Это позволяет применять техники языковых моделей к слову. Однако, существующие кодеки часто работают с высокими разрешениями (frame rate), что приводит к медленному обучению и выполнению моделей, особенно для систем autoregressive. Чтобы улучшить эффективность, становится все более актуальным развитие низкоразрешающих кодеков, которые уменьшают число операций авторегрессии, необходимых для создания одного секунды звука. В данной работе мы проводим анализ влияния разрешения, битрейта и каузальности на качество кодекса, чтобы привести в мир новую модель NanoCodec, которая обеспечивает высокое качество сжатия при том же frame rate (12.5 FPS). #### Метод Мы использовали широкий набор аудиосемплов для исследования влияния различных параметров кодеков на реконструкцию. Методы включали анализ битрейта, разрешения и структуры кодека. Наши эксперименты включали анализ качества реконструкции с помощью метрик, таких как Signal-to-Noise Ratio (SNR) и Perceptual Evaluation of Speech Quality (PESQ). Мы также использовали авторегрессионные модели для оценки качества запросов и реагирования на слова. Методы были оптимизированы с целью минимизации размера и времени обработки звука, при этом сохранив высокое качество реконструкции. #### Результаты Мы провели апробацию различных кодеков, включая NanoCodec, в условиях разных frame rate, bitrate и каузальности. Результаты показали, что NanoCodec демонстрирует высокое качество реконструкции при frame rate 12.5 FPS с битрейтом, сопоставимым с современными кодеками. Он также показал лучшие результаты в PESQ и SNR по сравнению с другими кодеками в низкоразрешающих условиях. Эти результаты были достигнуты благодаря специально разработанной архитектуре, которая оптимизирует сжатие без потерь существующих полезных данных. #### Значимость Наше исследование показывает, что NanoCodec может быть применено в различных областях, включая тренировку и интерпретацию Speech LLMs. Одним из основных преимуществ является уменьшение времени обучения и выполнения моделей, что может привести к меньшим затратам на ресурсы и ускорению разработки. Это также может быть критично для приложений, требующих реального времени, таких как автоматическая синтезированная речь и аудиозахват. NanoCodec также может быть применен в области компрессии аудиоданных для эффективной передачи и хранения. #### Выводы Мы привносим NanoCodec в качестве нового нормативного кодека для высокого качества и эффективной обработки речи. Наши находки показывают, что NanoCodec может улучшить производительность Speech LLMs, особенно в ситуа
Annotation:
Large Language Models (LLMs) have significantly advanced audio processing by leveraging audio codecs to discretize audio into tokens, enabling the application of language modeling techniques to speech data. However, existing audio codecs often operate at high frame rates, leading to slow training and inference, particularly for autoregressive models. To address this, there is growing interest in low frame-rate audio codecs, which reduce the number of autoregressive steps required to generate one...
ID: 2508.05835v1 eess.AS, cs.CL, cs.SD
Авторы:

Fengping Tian, Chenyang Lyu, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang

Научная статья "Marco-Voice Technical Report" предлагает многофункциональную систему генерации речи, которая объединяет в себе технологии клонирования голоса и управления эмоциями в единой структуре. Целью работы является решение проблемы достижения выразительности, контролируемости и естественности генерируемого речи, при этом сохраняя идентичность голоса и эмоции в разных языковых и эмоциональных контекстах. Авторы предлагают механизм разделения голоса и эмоции с помощью встроенного метода контрастного обучения и метод вращательной интеграции эмоциональных векторов для гладкого управления эмоцией. Для обеспечения эффективного обучения и оценки системы, разработана высококачественная эмоциональная голосовая база данных CSEMOTIONS, содержащая 10 часов мандаринского речи с шести профессиональных спикеров по восьми эмоциональным категориям. Эксперименты показали, что система Marco-Voice демонстрирует улучшения в объективных и субъективных метриках, став конкурентоспособной в области выразительной генерации речи на основе нейронных моделей.
Annotation:
This paper presents a multifunctional speech synthesis system that integrates voice cloning and emotion control speech synthesis within a unified framework. The goal of this work is to address longstanding challenges in achieving highly expressive, controllable, and natural speech generation that faithfully preserves speaker identity across diverse linguistic and emotional contexts. Our approach introduces an effective speaker-emotion disentanglement mechanism with in-batch contrastive learning,...
ID: 2508.02038v2 cs.CL, cs.SD, eess.AS
Показано 71 - 80 из 83 записей