📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 FLM-Audio: Natural Monologues Improves Native Full-Duplex Chatbots via Dual Training

2025-09-05

Авторы:

Yiqun Yao, Xiang Li, Xin Jiang, Xuezhi Fang, Naitong Yu, Wenjia Ma, Aixin Sun, Yequan Wang

## Контекст Полнофазные диалоговые модели предназначены для параллельного воспроизведения речи и обработки ввода пользователя, чтобы обеспечить быстрые ответы на частые и стремительно меняющиеся запросы. Одним из новых подходов являются *воспроизведение* и *производство* в одной модели (native full-duplex models). Они скрещивают различные каналы (например, слушание и речь) в один момент времени, устраняя проблему высокой задержки, которая характерна для альтернативных методов типа time-division multiplexing (TDM). Однако в этих моделях возникает проблема согласования текстовых монологов с аудио потоками, которые работают с разными битрейтами. Обычное решение — это *слово-уровневое выравнивание*, но оно сокращает мощность больших предобученных моделей и требует точных тайм-степсов для каждого токена, что приводит к ошибкам и увеличивает затраты на препроцессинг. Мы предлагаем новый подход — естественные монологи (natural monologues), которые очень похожи на человеческое монологическое высказывание в диалогах. Эта технология улучшает систему FLM-Audio, 7B-модель диалогового агента с открытым кодом, которая показала выдающиеся результаты в отзывчивости, двухсторонних диалогах и общении. ## Метод Мы предлагаем **естественные монологи** — поток текста, который много секунд предшествует аудио имитируя естественную последовательность разговора. Для темпорального выравнивания мы меняем положение монолога относительно аудио — либо в начале, либо в конце — на каждой стадии обучения. Этот **двуххармонический** подход (dual training) усиливает модель, улучшая отзывчивость и добавляя естественность в диалоговое взаимодействие. Мы также используем простой, но эффективный метод для синхронизации монолога с аудио, который устраняет зависимость от точных тайм-степсов и улучшает стабильность. ## Результаты Мы проверили модель FLM-Audio в нескольких экспериментах, в том числе на двух целях: 1) обеспечить отзывчивость диалога и 2) улучшить чат-опыт пользователя. У нас были несколько данных, включая говорящих моделей с текстом и аудио, а также специально сгенерированные данные для естественных монологов. Модель FLM-Audio показала существенное улучшение в отзывчивости и качестве диалога по сравнению с другими полнофазными моделями. Мы также проверили ее на частотности ответов, задержках и надежности, и она показала себя лучше во всех этих аспектах. ## Значимость Модель FLM-Audio может применяться в различных сценариях, включая виртуальных ассистентов, нормальные чат-боты и даже системы управления смарт-девайсами. Она обеспечивает высокую отзывчивость, естественность диа

Annotation:

Full-duplex dialog models are designed to listen and speak simultaneously with rapid responses to fast-changing user input. Among existing approaches, native full-duplex models merges different channels (e.g. listen and speak) in a single time step, overcoming the high response latency inherent to time-division multiplexing time-division multiplexing (TDM) alternatives. Yet, a key challenge remains: aligning textual monologues with audio streams that operate at different bitrates. The prevailing...

ID: 2509.02521v1 cs.SD, cs.AI, cs.CL

arXiv PDF

📄 Vevo2: Bridging Controllable Speech and Singing Voice Generation via Unified Prosody Learning

2025-08-26

Авторы:

Xueyao Zhang, Junan Zhang, Yuancheng Wang, Chaoren Wang, Yuanzhe Chen, Dongya Jia, Zhuo Chen, Zhizheng Wu

#### Контекст Лингвистические функции голоса влияют на способность людей выражаться и узнаваться, особенно при выполнении творческих задач, таких как поющий голос. Существующие подходы к генерации голоса часто специализируются на одной области, такой как речь или поющий голос, что ограничивает их универсальность и гибкость. Это приводит к необходимости разработки универсальных моделей, которые могут эффективно обрабатывать и контролировать обоие режимы — речь и поющий голос. Кроме того, ограниченные объемы аннотированных данных, особенно для поющего голоса, и сложность контроля за стилем и прозоди создают дополнительные вызовы. В этом контексте Vevo2 предлагает решение, объединяя голоса в единую модель. #### Метод Vevo2 представляет собой новую архитектуру, которая позволяет генерировать голос в обоих режимах — речью и поющим — с помощью общей модели. Для этого разработаны два типа токенизаторов: (1) **токенизатор музыкальной нотации без мелодии**, который позволяет получать не только прозодь и мелодию, но и звучание от речи до поющего голоса и даже инструментальных звуков; (2) **токенизатор низкого кадрового разрешения (12.5 Гц)**, который кодирует текст, прозодь и стиль для обоих режимов, а также обеспечивает разделение голоса. Модель включает авторегрессионную стадию моделирования контента и стиля, которая обеспечивает контроль над текстом, прозоди и стилем, и аккустическую стадию с потоковым соответствием, которая позволяет контролировать голос. В ходе предварительного обучения авторегрессионной модели используются стратегии обучения прозоди, которые позволяют связывать речь и поющий голос. Для повышения учтивости и стиля используется многоцелевая задача постобучения. #### Результаты Эксперименты проводились на различных задачах генерации и преобразования голоса, включая речь и поющий голос. Модель Vevo2 демонстрирует высокую точность в задачах конвертации речи в поющий голос и наоборот, а также в задачах редактирования голоса. Использовались различные данные, включая голосовые сэмплы с разными стилями и акцентами. Результаты показывают, что Vevo2 обеспечивает качественное согласование текста, прозоди и стиля в обоих режимах и предлагает гибкие возможности контроля. Аудио-примеры доступны по ссылке. #### Значимость Данная работа имеет значимость в области генерации голоса, поскольку объединяет речь и поющий голос в единую модель, что повышает универсальность и применяемость. Она может применяться в развитии новых технологий для генерации голоса в развлекательных, медицинских и образовательных приложениях. В

Annotation:

Controllable human voice generation, particularly for expressive domains like singing, remains a significant challenge. This paper introduces Vevo2, a unified framework for controllable speech and singing voice generation. To tackle issues like the scarcity of annotated singing data and to enable flexible controllability, Vevo2 introduces two audio tokenizers: (1) a music-notation-free prosody tokenizer that captures prosody and melody from speech, singing, and even instrumental sounds, and (2) ...

ID: 2508.16332v1 cs.SD, cs.AI, cs.CL

arXiv PDF

📄 Revealing the Role of Audio Channels in ASR Performance Degradation

2025-08-14

Авторы:

Kuan-Tang Huang, Li-Wei Chen, Hung-Shin Lee, Berlin Chen, Hsin-Min Wang

## Контекст Аудиосъемка через различные технические устройства оказывает существенное влияние на качество распознавания речи систем автоматического распознавания речи (ASR). Несмотря на то что предварительно обученные ASR-модели достигли впечатляющих результатов в различных языковых задачах, их работа может значительно ухудшиться при использовании аудиозаписей, полученных на разных технических устройствах. Это проблема становится особенно актуальной в условиях многоязыкового распознавания, когда звуковые файлы могут быть записаны на разных устройствах. Общепринятое мнение заключается в том, что это связано с несоответствием между аудиоданными, использованными во время обучения, и тестовыми данными. Однако, по мнению авторов, коллективный эффект различных технических устройств может затруднять распознавание речи даже в условиях соответствия типа тестовые данные — тестовые данные. Это взаимодействие требует дополнительного изучения, поскольку оно может привести к материальным потерям в работе ASR-систем, особенно в критически важных областях, таких как транскрибирование медицинских лекций или юридических документов. ## Метод Для изучения влияния технических устройств на работу ASR-системы авторы применяют методику "переобучения" (fine-tuning) — дополнительное обучение модели на аудиозаписях разных устройств. Основная идея заключается в использовании уже обученной ASR-модели, адаптированной к одному типу звуковых устройств, для повышения качества работы на других типах. Для этого используется третий набор данных, который не был использован ни при обучении, ни при тестировании. Также авторы применяют новую технику, называемую "нормализации внутренних представлений", которая предназначена для уменьшения влияния технических различий на работу ASR-системы. Эта нормализация основывается на том, чтобы выравнивать внутренние представления модели с признаками, полученными от чистого аудиоканала (например, синтетического звука, нарезанного на слова). ## Результаты Проведенные эксперименты показали, что применение нормализации внутренних представлений приводит к значительному повышению качества работы ASR-системы при распознавании речи на неизвестных устройствах. Авторы демонстрируют, что их подход может улучшить работу ASR-систем не только в различных типах техники, но и в различных языках. Например, применение нормализации внутренних представлений улучшает точность распознавания в английском, китайском и японском языках на разных устройствах. Эти результаты подтверждают то, что не только несоответствие типов технических устройств, но и внутренние погре

Annotation:

Pre-trained automatic speech recognition (ASR) models have demonstrated strong performance on a variety of tasks. However, their performance can degrade substantially when the input audio comes from different recording channels. While previous studies have demonstrated this phenomenon, it is often attributed to the mismatch between training and testing corpora. This study argues that variations in speech characteristics caused by different recording channels can fundamentally harm ASR performanc...

ID: 2508.08967v1 cs.SD, cs.AI, cs.CL

arXiv PDF

📄 Maestro-EVC: Controllable Emotional Voice Conversion Guided by References and Explicit Prosody

2025-08-13

Авторы:

Jinsung Yoon, Wooyeol Jeong, Jio Gim, Young-Joo Suh

## Контекст Emotional Voice Conversion (EVC) является важной задачей в области речевых технологий, способствующей созданию эмоционально окрашенного голоса, сохраняющего языковой контент. Известно, что в ситуациях, где требуется контролируемое изменение эмоционального содержания речи, важно моделировать не только отдельные эмоциональные выражения, но и передавать их динамику во времени. Существующие методы часто сталкиваются с проблемами несовершенного разделения спикерской идентичности и эмоционального стиля, а также недостаточной моделирования динамики эмоционального выражения. Целью данной работы является разработка метода, который обеспечит контроль над контентом, спикерской идентичностью и эмоциональным стилем, а также улучшит передачу временных динамических особенностей эмоции в случае несоответствия просодических характеристик. ## Метод Мы предлагаем Maestro-EVC — многозадачный фреймворк для контролируемой эмоциональной голосовой конверсии. Он основывается на моделировании независимого разделения контента, спикерской идентичности и эмоции с помощью различных четко отделенных референсов. Для лучшего передачи динамики эмоции во времени мы предлагаем новую темпоральную представление эмоции, а также вводим эксплититный просодический моделирование с помощью усиления просодии. Мы используем архитектуру, основанную на transformer, для эффективного извлечения и контроля этих атрибутов. Эта модель обеспечивает высококачественные эмоциональные изменения речи, даже при несоответствии просодических особенностей. ## Результаты Мы проводили эксперименты с различными данными, включая синтезированные и реальные речевые выражения с разными эмоциональными стилями. В результате показаны высокие показатели улучшения дисентеграции атрибутов речи, как по спикерской идентичности, так и по эмоциональному стилю. Мы также провели сравнение с другими подходами, демонстрируя преимущества Maestro-EVC в том, что он обеспечивает более точный контроль над эмоциональными изменениями. Особенно выдающимися результатами показался Maestro-EVC в задаче сегментации временных эмоциональных динамик, даже при просодически несовпадающих условиях. ## Значимость Maestro-EVC может быть применен в различных областях, включая создание эмоционально окрашенных голосовых помощников, лингвистических исследований, а также в сфере интерактивных технологий. Он предоставляет значительные преимущества в сравнении с традиционными методами, такими как улучшенная точность контроля и лучшая моделирование динамики эмоциональных звуков. Этот подход может оказаться важным для развития новых возможностей в области разговорных интерфейсов, где эмоции и

Annotation:

Emotional voice conversion (EVC) aims to modify the emotional style of speech while preserving its linguistic content. In practical EVC, controllability, the ability to independently control speaker identity and emotional style using distinct references, is crucial. However, existing methods often struggle to fully disentangle these attributes and lack the ability to model fine-grained emotional expressions such as temporal dynamics. We propose Maestro-EVC, a controllable EVC framework that enab...

ID: 2508.06890v1 cs.SD, cs.AI, cs.CL, eess.AS

arXiv PDF

Показано 21 - 24 из 24 записей