📚 Саммари научных статей из arXiv

Найдено 33 результатов по запросу 'cs.CL, cs.SD, eess.AS' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset

2025-09-19

Авторы:

Brian Yan, Injy Hamed, Shuichiro Shimizu, Vasista Lodagala, William Chen, Olga Iakovenko, Bashar Talafha, Amir Hussein, Alexander Polok, Kalvin Chang, Dominik Klement, Sara Althubaiti, Puyuan Peng, Matthew Wiesner, Thamar Solorio, Ahmed Ali, Sanjeev Khudanpur, Shinji Watanabe, Chih-Chen Chen, Zhen Wu, Karim Benharrak, Anuj Diwan, Samuele Cornell, Eunjung Yeo, Kwanghee Choi, Carlos Carvalho, Karen Rosero

## Контекст В статье представляется CS-FLEURS, большой многоязычный датасет для развития и оценки систем распознавания и перевода кодоподменных речи вне высокоресурсных языков. Эту область исследования недостаточно изучали, несмотря на ее важность для многоязычности и межкультурного общения. Существующие датасеты либо ограничены определенными языками, либо не подходят для тренировки и оценки систем. Для оптимального использования ML-алгоритмов необходимы масштабные и широко представительные датасеты, чтобы улучшить распознавание и перевод кодоподменных речи. ## Метод CS-FLEURS состоит из 4 тестовых наборов, охватывающих 113 уникальных кодоподменных пар языков в 52 языках. 1) Реальные голоса читают синтетически сгенерированные кодоподменные предложения (14 пар языков). 2) Generative text-to-speech (16 пар языков). 3) 60 пар языков (например, арабский, мандаринский, хинди, испанский с X-языком) с generative text-to-speech. 4) 45 низкоресурсных пар языков с конкатенативным text-to-speech. Датасет также включает 128 часов данных для обучения с генерируемым text-to-speech. Методы включают глубокое обучение и методы распознавания речи. ## Результаты Датасет CS-FLEURS использован для экспериментов с различными моделями распознавания речи. Оценка проводилась на 4 тестовых наборах. Результаты показали, что модели, обученные на этом датасете, показали высокую точность в распознавании и переводе кодоподменных речи, даже в низкоресурсных языках. Это позволяет улучшить технологии, способствующие межкультурному общению и многоязычности. ## Значимость CS-FLEURS может применяться в развитии многоязычных систем распознавания и перевода речи, в том числе для низкоресурсных языков. Он помогает улучшить доступность технологий для межкультурного общения, расширяя представительность в машинном обучении. Это способствует развитию инновационных решений в области глобального коммуникационного пространства. ## Выводы CS-FLEURS — самый крупный многоязычный датасет, расширяющий возможности исследования кодоподменных речи. Он подтверждает важность масштабированных датасетов для развития технологий. Будущие исследования будут ориентированы на улучшение моделей и расширение датасетов для более широкого диапазона языков и условий.

Annotation:

We present CS-FLEURS, a new dataset for developing and evaluating code-switched speech recognition and translation systems beyond high-resourced languages. CS-FLEURS consists of 4 test sets which cover in total 113 unique code-switched language pairs across 52 languages: 1) a 14 X-English language pair set with real voices reading synthetically generated code-switched sentences, 2) a 16 X-English language pair set with generative text-to-speech 3) a 60 {Arabic, Mandarin, Hindi, Spanish}-X langua...

ID: 2509.14161v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 Enhancing the Robustness of Contextual ASR to Varying Biasing Information Volumes Through Purified Semantic Correlation Joint Modeling

2025-09-10

Авторы:

Yue Gu, Zhihao Du, Ying Shi, Shiliang Zhang, Qian Chen, Jiqing Han

## Контекст Улучшение точности контекстной автоматической распознавания речи (ASR) в условиях изменчивости объема бизинг-информации является актуальной задачей, так как персонализированная распознаваемая информация часто встречается в различных речевых приложениях. Однако существующие модели ASR, основанные на перекрестной аттенции, часто сталкиваются с проблемами при работе с большими бизинг-списками, что приводит к понижению качества распознавания. Эта проблема становится особенно актуальной при работе с реальными данными, где объем бизинг-информации может значительно варьироваться. Наша мотивация заключается в поиске способа улучшить стабильность и точность ASR в таких условиях. ## Метод Мы предлагаем простой, но эффективный подход, который называется Purified Semantic Correlation Joint Modeling (PSC-Joint). Он основывается на определении и вычислении трех уровней семантических корреляций между ASR-представлением и бизинг-информацией: list-level, phrase-level и token-level. Эти корреляции централизованно моделируются и их интересование выполняется для получения наиболее важной бизинг-информации. Для того чтобы уменьшить вычислительные затраты, мы также предлагаем purification mechanism, основанный на grouped-and-competitive strategy, который позволяет исключить неинформативные фразы из рассмотрения. ## Результаты Мы проводили эксперименты на двух разных датасетах: AISHELL-1 и KeSpeech. Наш PSC-Joint показал существенные улучшения в F1-мере по сравнению с базовыми моделями: до 21.34% на AISHELL-1 и 28.46% на KeSpeech. Эти результаты достигнуты при работе с бизинг-списками различной длины, что демонстрирует высокую устойчивость нашего подхода к изменениям объема бизинг-информации. ## Значимость Важность PSC-Joint заключается в своем применении в сценариях, где бизинг-информация варьируется и требует точного распознавания. Например, в системах помощников, работающих с пользовательскими списками интересов или в ситуациях, когда нужно оперативно учесть контекст. Мы считаем, что наш подход может существенно повысить качество работы таких систем, уменьшив количество ошибок и увеличив удобство использования. ## Выводы В результате наших исследований, мы показали, что PSC-Joint может эффективно справляться с проблемой изменчивости объема бизинг-информации в контекстной ASR. В следующих исследованиях мы планируем расширить применение этого подхода к другим моделям распознавания речи и изучить его взаимодействие с другими технологиями, такими как текстовое представление и динамическое настройка.

Annotation:

Recently, cross-attention-based contextual automatic speech recognition (ASR) models have made notable advancements in recognizing personalized biasing phrases. However, the effectiveness of cross-attention is affected by variations in biasing information volume, especially when the length of the biasing list increases significantly. We find that, regardless of the length of the biasing list, only a limited amount of biasing information is most relevant to a specific ASR intermediate representat...

ID: 2509.05908v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 SimulMEGA: MoE Routers are Advanced Policy Makers for Simultaneous Speech Translation

2025-09-05

Авторы:

Chenyang Le, Bing Han, Jinshun Li, Songyong Chen, Yanmin Qian

## Контекст Simultaneous Speech Translation (SimulST) представляет собой подвид машинного перевода, где задача заключается в реальном времени переводе речи с одного языка на другой, при этом обеспечивая минимальные задержки. Эта область исследований важна для применений, таких как международное общение, медицина и техническая поддержка. Однако существующие системы сталкиваются с проблемами балансировки качества перевода, задержки и сохранения семантического контекста, особенно при многоязычных много-к-много сценариях. Эти задачи усложняются временными ограничениями и нерегулярностью потоков речи. Мотивацией для разработки SimulMEGA лежит необходимость создать систему, которая может эффективно решать эти проблемы, обеспечивая качественные результаты в многоязычных средах. ## Метод SimulMEGA — это неучитывающая рамы (unsupervised) рамочная модель, основанная на технологии mixture-of-experts (MoE). Модель объединяет принципы шифрования префикса (prefix-based training) и моделирования экспертов (Mixture-of-Experts refiner) для обучения решений ввода-вывода в рамках трансформеров. Решения о вводе и выводе принимаются с помощью скрытого политики, не добавляя дополнительных затрат на вычисления во время предсказания. Архитектура SimulMEGA включает в себя модифицированные трансформеры, где Mixture-of-Experts gating модули изменяют поток данных в зависимости от контекста. Этот подход позволяет модели легко адаптироваться для различных типов задач, включая speech-to-text и text-to-speech streaming. ## Результаты Авторы тестировали модель SimulMEGA на 6 языковых парах в сценариях SimulST. Модель показала значительные улучшения в сравнении с Seamless baseline. Например, в 500M параметров модель для speech-to-text поддерживает BLEU-скоры при минимальных задержках, не превышающих 1.5 секунды. Также она показала хорошие результаты при более высоких задержках, до 3 секунд. Была продемонстрирована и возможность модели для расширения в область streaming TTS, где она показала высокую эффективность в сравнении с другими моделями. ## Значимость Модель SimulMEGA может быть применена в различных областях, включая международное общение, удаленную поддержку, медицину и техническую поддержку. Она предлагает несколько преимуществ, включая лучший баланс между качеством перевода, задержкой и общим временем обработки. Потенциальное влияние заключается в том, что SimulMEGA может стать базой для развития систем, обеспечивающих многоязычную коммуникацию с минимальными задержками и высоким качеством. ## Выводы Результаты исследований показывают, что SimulMEGA является эффективным решением для SimulST, обеспечивая качественный перевод с минимальными задержками в различных сценариях. В будущем могу

Annotation:

Simultaneous Speech Translation (SimulST) enables real-time cross-lingual communication by jointly optimizing speech recognition and machine translation under strict latency constraints. Existing systems struggle to balance translation quality, latency, and semantic coherence, particularly in multilingual many-to-many scenarios where divergent read and write policies hinder unified strategy learning. In this paper, we present SimulMEGA (Simultaneous Generation by Mixture-of-Experts Gating), an u...

ID: 2509.01200v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 Comparison of End-to-end Speech Assessment Models for the NOCASA 2025 Challenge

2025-09-05

Авторы:

Aleksei Žavoronkov, Tanel Alumäe

#### Контекст Глобальный рынок технологий обработки речи постоянно растет, становится важной частью современной цифровой экономики. Одной из актуальных задач в этой области является автоматическая оценка произношения речи, особенно в контексте обучения второго языка. Дети, изучающие норвежский язык как второй, часто сталкиваются с проблемами синтаксической и фонетической адекватности. Недостаток систем автоматической оценки произношения, которые могли бы оперативно и точно давать обратную связь, приводит к затруднениям в учениках. Наша мотивация заключается в разработке моделей, которые могли бы оптимизировать процесс обучения норвежскому языку и сделать его более эффективным. #### Метод Для решения этой проблемы были разработаны три различных модели. **E2E-R** — это модель, основанная на архитектуре Siamese с участием энкодера-декодера. **Prefix-tuned direct classification model** — использует префиксное обучение с предварительно обученными представлениями wav2vec2.0. И, наконец, **GOP-CTC-based model** — новая модель, которая использует знания о хорошем произношении (GOP), вычисленные с помощью CTC (Connectionist Temporal Classification). Мы также представили новый весовый орденальный кросс-энтропийный потери, который оптимизирует такие показатели как unweighted average recall и mean absolute error. Модели были тренированы на значительных данных, включающих речевые высказывания детей, изучающих норвежский язык. #### Результаты Мы провели эксперименты с использованием данных NOCASA 2025 Challenge. Модель GOP-CTC-based показала самый высокий результат, существенно превосходя остальные методы и достигая топ-лидерборд-результатов. Эта модель существенно превосходит E2E-R и Prefix-tuned direct classification model по метрикам, таким как unweighted average recall и mean absolute error. Была также проведена аналитическая оценка, подтвердившая эффективность GOP-CTC-based модели в адаптации к реальным данным. #### Значимость Наши результаты имеют практическое значение в сфере обучения языкам. Модель GOP-CTC-based может быть применена в системах обучения норвежскому языку для детей, чтобы улучшить эффективность и производительность обучения. Также модель может быть использована для проверки произношения в других языках. Основные преимущества заключаются в том, что модель является простейшей, но эффективной, и может быть легко интегрирована в различные системы учебных приложений. #### Выводы Наше исследование показало, что GOP-CTC-based модель является самой эффективной для задач автоматической оценки произношения речи детей, изучающих норвежский язык. Она превосходит другие модели по ключевым метрикам и демонстрирует высокую точность в реальных данных. В будущ

Annotation:

This paper presents an analysis of three end-to-end models developed for the NOCASA 2025 Challenge, aimed at automatic word-level pronunciation assessment for children learning Norwegian as a second language. Our models include an encoder-decoder Siamese architecture (E2E-R), a prefix-tuned direct classification model leveraging pretrained wav2vec2.0 representations, and a novel model integrating alignment-free goodness-of-pronunciation (GOP) features computed via CTC. We introduce a weighted or...

ID: 2509.03256v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 Emotion Omni: Enabling Empathetic Speech Response Generation through Large Language Models

2025-08-28

Авторы:

Haoyu Wang, Guangyan Zhang, Jiale Chen, Jingyu Li, Yuehai Wang, Yiwen Guo

## Контекст Современные технологии управления речью позволяют пользователям взаимодействовать с ассистентами с помощью речи. Однако большинство существующих моделей просто преобразуют контент ответа в речь, не полностью учитывая эмоциональные и паралингвистические признаки, заложенные в запросе пользователя. Эмоциональное понимание важно для повышения качества взаимодействия человек-машина. На данный момент, большинство моделей с эмоциональной компонентой тренируются на огромных данных, что требует больших вычислительных ресурсов. Необходимо разработать модель, способную генерировать эмоциональные ответы с минимальным объемом данных и без требований к масштабной тренировке. ## Метод Мы предлагаем Emotion Omni — модель, предназначенную для понимания эмоционального контента в речи пользователя и генерации эмоциональных ответов. Методология основывается на архитектуре трансформеров и включает компоненты для эмоционального анализа и генерации речи. Мы также разработали пайплайн для генерации данных, используя open-source TTS-фреймворк, чтобы создать 200k эмоционального диалога. Эта база данных использовалась для обучения Emotion Omni. Модель способна использовать ограниченные данные и достигает высокой эмоциональной точности. ## Результаты Мы провели эксперименты с 200k эмоциональной базы данных для оценки точности Emotion Omni. Модель показала высокую эмоциональную точность и улучшила качество взаимодействия по сравнению с другими моделями. Мы также провели A/B-тесты, показав, что пользователи предпочитают ответы, генерируемые Emotion Omni, из-за их эмоциональной точности и сочетания семантики. Модель эффективно работает с ограниченными ресурсами, что делает ее привлекательной для реального применения. ## Значимость Emotion Omni может быть применена в различных сферах, включая помощников по здоровью, обучающие системы и бизнес-решения. Ее ключевое преимущество заключается в том, что она может функционировать с малым объемом данных и не требует сложных этапов обучения. Это делает ее более удобной и эффективной в сравнении с другими моделями. Будущие исследования будут направлены на улучшение точности и расширение функциональных возможностей модели. ## Выводы Emotion Omni достигает высокой эмоциональной точности при генерации ответов с помощью ограниченных данных. Она представляет собой новую этапу развития моделей для эмоционального взаимодействия человек-машина. Будущие исследования будут фокусироваться на расширении функциональности и повышению точности восприятия эмоций.

Annotation:

With the development of speech large language models (speech LLMs), users can now interact directly with assistants via speech. However, most existing models simply convert the response content into speech without fully understanding the rich emotional and paralinguistic cues embedded in the user's query. In many cases, the same sentence can have different meanings depending on the emotional expression. Furthermore, emotional understanding is essential for improving user experience in human-mach...

ID: 2508.18655v1 cs.CL, cs.SD, eess.AS, I.2.7

arXiv PDF

📄 UniCoM: A Universal Code-Switching Speech Generator

2025-08-23

Авторы:

Sangmin Lee, Woojin Chung, Seyun Um, Hong-Goo Kang

## Контекст Code-switching (CS), т. е. переключение между двумя или более языками в одном высказывании одного и того же говорящего, широко распространено в реальных ситуациях общения. Однако этот эффект является значительным трудностью для развития многоязычных технологий распознавания речи и трансляции. Несмотря на важность этой проблемы, относительно небольшое количество исследований посвящено ей, в основном из-за существующего дефицита качественных данных. Для решения этой проблемы предлагается Universal Code-Mixer (UniCoM) — метод для создания высококачественных примеров CS-речи, сохраняющих смысловую нагрузку предложений. ## Метод UniCoM основывается на методе Substituting WORDs with Synonyms (SWORDS), который генерирует CS-текст путем подстановки выбранных слов синонимами-переводами, учитывая их части речи. Это позволяет создавать примеры CS-речи, которые сохраняют оригинальную смысловую нагрузку. Кроме того, мы используем UniCoM для построения многоязычного CS-корпуса Code-Switching FLEURS (CS-FLEURS), ориентированного на целевые задачи ASR и S2TT. Этот корпус включает в себя CS-примеры для нескольких языковых пар, разделенных на тренировочные, валидационные и тестовые наборы. ## Результаты Experimental evaluation представляет собой сравнение CS-FLEURS с другими CS-данными и стандартными датасетовыми на ASR и S2TT. Результаты показывают, что CS-FLEURS демонстрирует высокую intelligibility и naturalness, при этом аналогично или даже лучше остальных датасетов по этим показателям. Это подтверждает, что UniCoM эффективно решает задачу генерации CS-речи, сохраняя смысловую нагрузку и предоставляя качественные данные для обучения моделей. ## Значимость UniCoM может быть применен для создания CS-данных, необходимых для обучения моделей ASR и S2TT, что в свою очередь может повысить качество технологий распознавания речи и трансляции в многоязычной среде. Этот подход имеет значимый потенциал для улучшения multilingual speech technology, устранения языковых барьеров и повышения доступности многоязычных систем для различных групп пользователей. ## Выводы UniCoM представляет собой первоначальный шаг к созданию универсального CS-генератора речи. Он эффективно решает проблему отсутствия качественных датасетов для CS-речи, создавая примеры, которые сохраняют смысловую нагрузку. В будущем планируется расширить UniCoM на более широкий спектр языковых пар и сценариев, а также использовать его для улучшения многоязычных систем ASR и S2TT.

Annotation:

Code-switching (CS), the alternation between two or more languages within a single speaker's utterances, is common in real-world conversations and poses significant challenges for multilingual speech technology. However, systems capable of handling this phenomenon remain underexplored, primarily due to the scarcity of suitable datasets. To resolve this issue, we propose Universal Code-Mixer (UniCoM), a novel pipeline for generating high-quality, natural CS samples without altering sentence seman...

ID: 2508.15244v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 EmoTale: An Enacted Speech-emotion Dataset in Danish

2025-08-22

Авторы:

Maja J. Hjuler, Harald V. Skat-Rørdam, Line H. Clemmensen, Sneha Das

## Контекст Исследование сосредоточено на проблематике любознательного расширения корпусов эмоционального речевого анализа, ориентированных на менее широко говорящие языки. Известно, что существует недостаток функциональных данных для менее распространенных языков, таких как датский. Датский эмоциональный речевой (DES) корпус, опубликованный в 1997 году, является единственным известным базой данных эмоциональной речи на данном языке. Для компенсации этого недостатка представлен корпус EmoTale, который включает записи речи на датском и английском языках с ассоциированными ансамбленными эмоциональными оценками. Этот корпус предназначен для поддержки развития моделей распознавания эмоций в речи (SER), особенно в небольших языках. ## Метод EmoTale состоит из двух частей: датских и английских речевых записей, сопровождаемых ансамбленными эмоциональными оценками. Методология использовала самосваленные модели распознавания речи (SSLM) и функциональный инструмент openSMILE для экстракции признаков. Модели были обучены с использованием этих функций для предсказания эмоциональных состояний на основе речи. Это позволило проверить точность и эффективность EmoTale в сравнении с другими корпусами. Для сравнения использовался DES. ## Результаты Использование SSLM-эмбеддингов показало значительное превосходство по сравнению с традиционными ручными признаками. На EmoTale был достигнут уровень точности примерно в 64.1% при кросс-валидации с leave-one-speaker-out, что стабильно соответствует результатам DES. Это подтверждает справедливость EmoTale как надежного источника данных для развития моделей SER. ## Значимость Корпус EmoTale является первым широкого круга применения для эмоциональной речи на датском языке. Его можно применять для разработки и тестирования моделей распознавания эмоций в речи, что включает биометрическое распознавание, анализ звука и психологическое исследование эмоций. Он дает возможность расширить исследования в этой области на менее широко говорящих языках, которое было ограничено ранее. ## Выводы Результаты EmoTale показывают высокую эффективность использования SSLM-эмбеддингов для предсказания эмоций в речи на менее распространенных языках. Будущие исследования будут фокусироваться на расширении EmoTale, включении дополнительных эмоциональных состояний и исследовании различных стилей речи. Этот корпус может стать важной ресурсной базой для дальнейшего развития технологий распознавания эмоций в речи на менее распространенных языках.

Annotation:

While multiple emotional speech corpora exist for commonly spoken languages, there is a lack of functional datasets for smaller (spoken) languages, such as Danish. To our knowledge, Danish Emotional Speech (DES), published in 1997, is the only other database of Danish emotional speech. We present EmoTale; a corpus comprising Danish and English speech recordings with their associated enacted emotion annotations. We demonstrate the validity of the dataset by investigating and presenting its predic...

ID: 2508.14548v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 Novel Parasitic Dual-Scale Modeling for Efficient and Accurate Multilingual Speech Translation

2025-08-19

Авторы:

Chenyang Le, Yinfeng Xia, Huiyan Li, Manhong Wang, Yutao Sun, Xingyang Ma, Yanmin Qian

## Контекст Многоязычная распознавательная технология является важной областью исследований, поскольку она позволяет устранить барьеры языковых различий и обеспечить широкий круг пользователей. Однако современные многоязычные модели транскрипции речи в текст часто сталкиваются с проблемами, такими как большой размер моделей, высокий потребление ресурсов и снижение производительности при локальной инференсе. Такие ограничения становятся весомым препятствием для развертывания моделей в реальных условиях, где требуется быстрота, эффективность и точность. Цель нашего исследования заключается в разработке эффективной и точной модели, которая бы сочетала в себе высокую производительность с сохранением высокого качества перевода. ## Метод Для решения этих проблем мы предлагаем **Паразитный Двойной-Масштабный Метод (Parasitic Dual-Scale Approach)**. Основные компоненты этого подхода: усовершенствованная методика спекулятивного семплинга, методы сжатия модели и знаний (knowledge distillation). Мы расширяем модель Whisper Medium до whisperM2M, при этом внедряя нашу собственную модульную систему KVSPN (Knowledge-Vision-Speech-Parallel-Network). Этот модуль позволяет разделять функции модели на два уровня: первый - работа с низким разрешением для быстроты, второй - предсказание с высоким разрешением для точности. Эта двойная конфигурация позволяет уменьшить нагрузку на вычисления, увеличивая при этом производительность. ## Результаты Мы проводили эксперименты на шести языках с популярными диалектами: английский, французский, немецкий, испанский, итальянский и турецкий. Для оценки качества перевода использовали метрику BLEU. Наши результаты показывают, что KVSPN модуль обеспечивает скоростный прирост в 40% при сохранении безудержного качества перевода (неизменного BLEU-скора). Благодаря использованию метода дистилляции знаний, мы добились скоростного прироста в 2.6 раз сохраняя на выходе качество, которое значительно превосходит результаты оригинальной модели Whisper Medium. ## Значимость Наш подход широко применяется в сценариях, где требуется быстрота работы и надежность, например в локальных приложениях, устройствах с ограниченными ресурсами и сервисах, требующих непрерывности. Важность нашей работы также заключается в том, что она позволяет достичь сочетания масштабности и точности, которое недоступно для многих современных многоязычных моделей. Мы также открываем новые пути для дальнейшего развития моделей, включая использование более сложных стратегий сжатия и расширения кросс-языковых моделей. ## Выводы Мы представили новую модель whisperM2M, в которой используется **Паразитный Двойной-Масштабный Метод**.

Annotation:

Recent advancements in speech-to-text translation have led to the development of multilingual models capable of handling multiple language pairs simultaneously. However, these unified models often suffer from large parameter sizes, making it challenging to balance inference efficiency and performance, particularly in local deployment scenarios. We propose an innovative Parasitic Dual-Scale Approach, which combines an enhanced speculative sampling method with model compression and knowledge disti...

ID: 2508.11189v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 Representing Speech Through Autoregressive Prediction of Cochlear Tokens

2025-08-19

Авторы:

Greta Tuckute, Klemen Kotar, Evelina Fedorenko, Daniel L. K. Yamins

## Контекст Понимание речи — это ключевая задача в области искусственного интеллекта, существенная для развития естественного взаимодействия между человеком и машиной. Однако существующие модели либо недостаточно эффективно обрабатывают аудиодорожки, либо не могут построить качественные представления речи, что приводит к ограниченному функционалу и недостаточной естественности. Биологически точные модели, вдохновленные звукоснежинкой и звукоинтерпретирующими структурами мозга, могут эффективно решить эти проблемы, предоставив более глубокие и значимые представления речи. ## Метод AuriStream представляет собой двухступенчатый архитектурный подход, скоррелированный с биологическими процессами звукообработки. В первой стадии аудио-сигнал трансформируется в временно-частотное представление, аналогичное звукоснежинке, и извлекаются **кохлейские токены** — дискретные числовые представления. Во второй стадии используется авторегрессионный подход, дообучаемый на этих токенах. Эта модель способна выделять фонетические и семантические особенности, включая палиндромы и профили лексических смыслов. ## Результаты В ходе экспериментов AuriStream демонстрирует высокую эффективность на различных задачах, включая лексическую семантику и распознавание речи. Модель показала соревновательную производительность на SUPERB-тестах, показав высокую точность в распознавании фонем и слов. Более того, AuriStream может продолжать аудио-сигнал, выводить его в виде спектрограмм и воспроизводить обратно в аудио, обеспечивая прозрачность и понимание своих предсказаний. ## Значимость AuriStream может применяться в различных сферах — от естественных языковых моделей до аудио-визуальной синтезации. Модель предоставляет более точное и естественное представление речи, что может улучшить ассистентские технологии, транскрибирование речи и прогнозирование развития речи у детей. Её гибкость и эффективность открывают новые пути для создания более естественных и эффективных моделей устных задач. ## Выводы AuriStream является прорывом в области обучения представлений речи, объединяя биологическую точность и силу машинного обучения. Она демонстрирует высокую эффективность в различных задачах, что подтверждает её потенциал в создании более сложных и естественных моделей для обработки речи. Будущие исследования будут фокусироваться на улучшении точности и расширении приложений модели.

Annotation:

We introduce AuriStream, a biologically inspired model for encoding speech via a two-stage framework inspired by the human auditory processing hierarchy. The first stage transforms raw audio into a time-frequency representation based on the human cochlea, from which we extract discrete \textbf{cochlear tokens}. The second stage applies an autoregressive sequence model over the cochlear tokens. AuriStream learns meaningful phoneme and word representations, and state-of-the-art lexical semantics. ...

ID: 2508.11598v1 cs.CL, cs.SD, eess.AS

arXiv PDF

📄 Think Before You Talk: Enhancing Meaningful Dialogue Generation in Full-Duplex Speech Language Models with Planning-Inspired Text Guidance

2025-08-13

Авторы:

Wenqian Cui, Lei Zhu, Xiaohui Li, Zhihan Guo, Haoli Bai, Lu Hou, Irwin King

#### Контекст Full-Duplex Speech Language Models (FD-SLMs) являются основными моделями, разработанными для поддержки натуральных и реального времени происходящих диалогов. Они моделируют сложные динамики разговоров, такие как перебивания, согласования и другие формы взаимодействия. Энд-то-энд (e2e) FD-SLMs воспользовались реальными двухканальными данными для построения моделей разговоров между двумя участниками. Однако они сталкиваются со значительной проблемой: их разговорные способности часто ниже, чем у моделей, основанных только на тексте. Это связано с проблемами, связанными с предобработкой длинных сегментов речи и недостатком высококачественных данных для говоряного диалога. Текстово-направленная генерация речи могла бы устранить некоторые из этих проблем, но сталкивается с тем, что текстовый гайд не вписывается в аудио-стрим, что приводит к дискомфорту в разговоре. #### Метод Мы предлагаем TurnGuide, новую методологию, которая имитирует человеческий подход к планированию разговора. Этот подход динамически разбивает высказывания помощника на отдельные повороты разговора (dialogue turns) и формирует текстовый гайд на уровне каждого из этих поворотов до того, как подавать речевой сигнал. Это решение устраняет проблемы с темпом и длиной, которые возникают при внедрении текстового гайда в двухканальные аудио-стримы. TurnGuide использует планирование, чтобы улучшить структуру разговора и обеспечить естественную последовательность слов. #### Результаты Мы провели эксперименты, которые показали, что TurnGuide значительно улучшает работу e2e FD-SLMs. Модели, обученные с помощью нашего подхода, генерируют семантически корректные и последовательные высказывания, сохраняя при этом естественный темп разговора. Результаты показывают, что TurnGuide решает проблемы времени и длины, которые нарушают естественность разговорных интерпретаций в двухканальных моделях. Демонстрация доступна по ссылке: [демо-сайт], а код будет доступен на GitHub по адресу: [ссылка на репозиторий]. #### Значимость Предложенный подход имеет многочисленные потенциальные применения в области голосовых помощников, которые должны общаться с людьми в реальном времени. Он может быть применен в системах с умным домашним аппаратурой, системах управления, системах самообучения, а также в других сферах, где естественное взаимодействие с пользователем ключево. TurnGuide имеет преимущество в том, что он улучшает качество говорения, устраняя проблемы времени и длины, которые были особенно важными для развития двухканальной речи. #### Выводы Мы представили TurnGuide, новую планировательную модель, которая улучшает естественность разговоров в FD-SLMs. Наши

Annotation:

Full-Duplex Speech Language Models (FD-SLMs) are specialized foundation models designed to enable natural, real-time spoken interactions by modeling complex conversational dynamics such as interruptions, backchannels, and overlapping speech, and End-to-end (e2e) FD-SLMs leverage real-world double-channel conversational data to capture nuanced two-speaker dialogue patterns for human-like interactions. However, they face a critical challenge -- their conversational abilities often degrade compared...

ID: 2508.07375v1 cs.CL, cs.SD, eess.AS

arXiv PDF

1
2
3
4

Показано 21 - 30 из 33 записей