📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Jules Cauzinille, Marius Miron, Olivier Pietquin, Masato Hagiwara, Ricard Marxer, Arnaud Rey, Benoit Favre

## Контекст Область исследования, посвященная методам обучения с малоизвестным наблюдением, набирает популярность в области обработки звука, в том числе для задач классификации животных и вредителей в сельскохозяйственных системах. Несмотря на прогресс в области самостоятельного обучения с использованием самостоятельных контекстов, эффективность таких методов на животных звуках остается достаточно неизученной. Установлено, что существуют специфические семантические и акустические особенности в животных звуках, которые могут снизить эффективность предварительно обученных моделей, ориентированных на звуковые данные. В статье рассматривается потенциал самостоятельного обучения с помощью говорения для системы классификации животных звуков. ## Метод В статье применяется методология, основанная на самостоятельном обучении для построения моделей, моделирующих звуки. Рассматриваются модели HuBERT, WavLM и XEUS, обученные на говорении, для генерирования богатых латентных представлений звуков животных. Были использованы техники линейной пробинга и расширенных архитектур для эффективного использования звуковых данных. Было осуществлено изучение представлений в акустической области, где были проанализированы влияние частотного диапазона и шума на результаты классификации. ## Результаты Исследования показали, что модели HuBERT, WavLM и XEUS могут эффективно генерировать латентные представления звуков животных, аналогичные результатам, полученным с использованием моделей, обученных на животных звуках. Было продемонстрировано, что линейная пробинга позволяет эффективно использовать звуковые представления, но с учетом временных данных результаты улучшаются. Также было проверено, что модели гибко реагируют на изменения частотного диапазона и шума, что демонстрирует их высокую резильтативность в трудных условиях. ## Значимость Высокая эффективность моделей, обученных на говорении, может быть использована в различных сельскохозяйственных приложениях, включая классификацию животных звуков и вредителей. Эти модели позволяют экономить время и ресурсы на подготовку данных, а также снижают необходимость в тщательном фине-тюнинге. Таким образом, создается возможность ускорения развития систем мониторинга и контроля животных в сельскохозяйственной сфере. ## Выводы Исследование показало, что модели, обученные на говорении, могут эффективно использоваться для классификации животных звуков. Однако для достижения максимальной эффективности требуется учесть актуальные свойства звуков
Annotation:
Self-supervised speech models have demonstrated impressive performance in speech processing, but their effectiveness on non-speech data remains underexplored. We study the transfer learning capabilities of such models on bioacoustic detection and classification tasks. We show that models such as HuBERT, WavLM, and XEUS can generate rich latent representations of animal sounds across taxa. We analyze the models properties with linear probing on time-averaged representations. We then extend the ap...
ID: 2509.04166v1 cs.LG, cs.AI, cs.CL, cs.SD, 68T07, I.5.4; I.2.6; H.5.5
Авторы:

Chenyang Le, Bing Han, Jinshun Li, Songyong Chen, Yanmin Qian

## Контекст Simultaneous Speech Translation (SimulST) представляет собой подвид машинного перевода, где задача заключается в реальном времени переводе речи с одного языка на другой, при этом обеспечивая минимальные задержки. Эта область исследований важна для применений, таких как международное общение, медицина и техническая поддержка. Однако существующие системы сталкиваются с проблемами балансировки качества перевода, задержки и сохранения семантического контекста, особенно при многоязычных много-к-много сценариях. Эти задачи усложняются временными ограничениями и нерегулярностью потоков речи. Мотивацией для разработки SimulMEGA лежит необходимость создать систему, которая может эффективно решать эти проблемы, обеспечивая качественные результаты в многоязычных средах. ## Метод SimulMEGA — это неучитывающая рамы (unsupervised) рамочная модель, основанная на технологии mixture-of-experts (MoE). Модель объединяет принципы шифрования префикса (prefix-based training) и моделирования экспертов (Mixture-of-Experts refiner) для обучения решений ввода-вывода в рамках трансформеров. Решения о вводе и выводе принимаются с помощью скрытого политики, не добавляя дополнительных затрат на вычисления во время предсказания. Архитектура SimulMEGA включает в себя модифицированные трансформеры, где Mixture-of-Experts gating модули изменяют поток данных в зависимости от контекста. Этот подход позволяет модели легко адаптироваться для различных типов задач, включая speech-to-text и text-to-speech streaming. ## Результаты Авторы тестировали модель SimulMEGA на 6 языковых парах в сценариях SimulST. Модель показала значительные улучшения в сравнении с Seamless baseline. Например, в 500M параметров модель для speech-to-text поддерживает BLEU-скоры при минимальных задержках, не превышающих 1.5 секунды. Также она показала хорошие результаты при более высоких задержках, до 3 секунд. Была продемонстрирована и возможность модели для расширения в область streaming TTS, где она показала высокую эффективность в сравнении с другими моделями. ## Значимость Модель SimulMEGA может быть применена в различных областях, включая международное общение, удаленную поддержку, медицину и техническую поддержку. Она предлагает несколько преимуществ, включая лучший баланс между качеством перевода, задержкой и общим временем обработки. Потенциальное влияние заключается в том, что SimulMEGA может стать базой для развития систем, обеспечивающих многоязычную коммуникацию с минимальными задержками и высоким качеством. ## Выводы Результаты исследований показывают, что SimulMEGA является эффективным решением для SimulST, обеспечивая качественный перевод с минимальными задержками в различных сценариях. В будущем могу
Annotation:
Simultaneous Speech Translation (SimulST) enables real-time cross-lingual communication by jointly optimizing speech recognition and machine translation under strict latency constraints. Existing systems struggle to balance translation quality, latency, and semantic coherence, particularly in multilingual many-to-many scenarios where divergent read and write policies hinder unified strategy learning. In this paper, we present SimulMEGA (Simultaneous Generation by Mixture-of-Experts Gating), an u...
ID: 2509.01200v1 cs.CL, cs.SD, eess.AS
Авторы:

Bashar Talafha, Hawau Olamide Toyin, Peter Sullivan, AbdelRahim Elmadany, Abdurrahman Juma, Amirbek Djanibekov, Chiyu Zhang, Hamad Alshehhi, Hanan Aldarmaki, Mustafa Jarrar, Nizar Habash, Muhammad Abdul-Mageed

## Контекст Арабский язык широко изучается в сфере естественных языков, однако решение проблем связанных с процессингом науичной статьи на русском языке, языков с многоязычным использованием. Наиболее ранние работы посвящались только одному аспекту, такому как лексико-грамматическое содержание или морфологическое разборность. Однако последние исследования показывают, что эффективность обработки текста сильно зависит от языкового и географического контекста. Особенно трудности возникают при обработке речи в разных диалектах арабского языка, которые отличаются сильно друг от друга по лёгкости идентификации и преобразованию. ## Метод В этом решении используется многоступенчатая модель, включающая в себя три основных задачи: лидеринг контекста, где используется метод оптимального подбора, который позволяет увеличить значимость результатов. Метод основывается на нарушении работы речи, включая обработку диалектов, на стадии классификации и отделения звуков. Архитектура модели основана на распознавании входных данных, с последующим преобразованием их в нужные форматы. Для обработки сложностей, связанных с тремя отдельными задачами, были применены разные инструменты, включая машинное обучение и глубокое обучение. ## Результаты В ходе экспериментов применялись различные данные, включая голосовые аудиозаписи, произносимые на разных диалектах арабского языка. Были получены результаты, показывающие 79,8% точности в идентификации диалекта, 35,68/12,20 WER/CER в автоматическом распознавании речи, и 55/13 WER/CER в диакритическом восстановлении. Эти показатели показывают, что хотя системы достигли некоторых успехов, они всё ещё сталкиваются с значительными трудностями в работе с арабскими диалектами. ## Значимость Результаты могут быть использованы в разных областях, включая лексикографию, морфологию, и анализ речи. Этот подход может помочь улучшить общее понимание языковых и разговорных особенностей арабского языка. Однако, несмотря на достигнутый прогресс, существуют ещё многочисленные проблемы, которые требуют будущих исследований, в том числе улучшение точности распознавания речи и восстановления диакритических знаков. ## Выводы На основе исследований, проведённых в рамках NADI 2025, были достигнуты научные прогрессы в области распознавания диалектов и восстановления диакритических знаков. Однако, необходимо продолжительное исследования и развития моделей, чтобы достичь более точного и эффективного обработки голос
Annotation:
We present the findings of the sixth Nuanced Arabic Dialect Identification (NADI 2025) Shared Task, which focused on Arabic speech dialect processing across three subtasks: spoken dialect identification (Subtask 1), speech recognition (Subtask 2), and diacritic restoration for spoken dialects (Subtask 3). A total of 44 teams registered, and during the testing phase, 100 valid submissions were received from eight unique teams. The distribution was as follows: 34 submissions for Subtask 1 "five te...
ID: 2509.02038v2 cs.CL, cs.SD
Авторы:

Aleksei Žavoronkov, Tanel Alumäe

#### Контекст Глобальный рынок технологий обработки речи постоянно растет, становится важной частью современной цифровой экономики. Одной из актуальных задач в этой области является автоматическая оценка произношения речи, особенно в контексте обучения второго языка. Дети, изучающие норвежский язык как второй, часто сталкиваются с проблемами синтаксической и фонетической адекватности. Недостаток систем автоматической оценки произношения, которые могли бы оперативно и точно давать обратную связь, приводит к затруднениям в учениках. Наша мотивация заключается в разработке моделей, которые могли бы оптимизировать процесс обучения норвежскому языку и сделать его более эффективным. #### Метод Для решения этой проблемы были разработаны три различных модели. **E2E-R** — это модель, основанная на архитектуре Siamese с участием энкодера-декодера. **Prefix-tuned direct classification model** — использует префиксное обучение с предварительно обученными представлениями wav2vec2.0. И, наконец, **GOP-CTC-based model** — новая модель, которая использует знания о хорошем произношении (GOP), вычисленные с помощью CTC (Connectionist Temporal Classification). Мы также представили новый весовый орденальный кросс-энтропийный потери, который оптимизирует такие показатели как unweighted average recall и mean absolute error. Модели были тренированы на значительных данных, включающих речевые высказывания детей, изучающих норвежский язык. #### Результаты Мы провели эксперименты с использованием данных NOCASA 2025 Challenge. Модель GOP-CTC-based показала самый высокий результат, существенно превосходя остальные методы и достигая топ-лидерборд-результатов. Эта модель существенно превосходит E2E-R и Prefix-tuned direct classification model по метрикам, таким как unweighted average recall и mean absolute error. Была также проведена аналитическая оценка, подтвердившая эффективность GOP-CTC-based модели в адаптации к реальным данным. #### Значимость Наши результаты имеют практическое значение в сфере обучения языкам. Модель GOP-CTC-based может быть применена в системах обучения норвежскому языку для детей, чтобы улучшить эффективность и производительность обучения. Также модель может быть использована для проверки произношения в других языках. Основные преимущества заключаются в том, что модель является простейшей, но эффективной, и может быть легко интегрирована в различные системы учебных приложений. #### Выводы Наше исследование показало, что GOP-CTC-based модель является самой эффективной для задач автоматической оценки произношения речи детей, изучающих норвежский язык. Она превосходит другие модели по ключевым метрикам и демонстрирует высокую точность в реальных данных. В будущ
Annotation:
This paper presents an analysis of three end-to-end models developed for the NOCASA 2025 Challenge, aimed at automatic word-level pronunciation assessment for children learning Norwegian as a second language. Our models include an encoder-decoder Siamese architecture (E2E-R), a prefix-tuned direct classification model leveraging pretrained wav2vec2.0 representations, and a novel model integrating alignment-free goodness-of-pronunciation (GOP) features computed via CTC. We introduce a weighted or...
ID: 2509.03256v1 cs.CL, cs.SD, eess.AS
Авторы:

Muhammad Shakeel, Yui Sudo, Yifan Peng, Chyi-Jiunn Lin, Shinji Watanabe

## Контекст Многоголосая диаризация, разделение речи и распознавание речи (ASR) являются ключевыми задачами в области обработки речи. Однако существующие подходы обрабатывают эти задачи по отдельности, часто применяя различные архитектуры и оптимизируя под каждую задачу. Это приводит к неэффективному использованию ресурсов и трудностям в обработке намного многоголосых данных. Мотивацией для этого исследования является развитие универсальной архитектуры, которая могла бы сгенерировать общие представления для всех этих задач, включая диаризацию, разделение и распознавание речи. Такой подход может не только упростить процесс обучения, но и повысить точность решения задач. ## Метод Многоголоский энкодер (UME) представляет собой сеть, которая объединяет задачи диаризации, разделения речи и ASR в единую структуру. Основной идеей является создание общего представления речи, используя несколько уровней скрытых слоев энкодера. Для эффективного слияния информации из разных слоев вводится метод разделения на мульти-спикер (RWSE), который учитывает различия в семантических уровнях. Эта архитектура обеспечивает более точную обработку, синхронизируя различные задачи и улучшая их взаимодействие. ## Результаты Для оценки UME были проведены эксперименты на LibriMix-сети, включающих Libri2Mix и Libri3Mix. Результаты показали, что UME достигает очень низких диаризационных ошибок (Diarization Error Rate, DER) — 1.37% для Libri2Mix и 2.29% для Libri3Mix. Это значительно превосходит результаты подходов, оптимизированных по отдельности для каждой задачи. Кроме того, UME демонстрирует высокую точность в распознавании речи, даже при наличии нескольких участников. ## Значимость Данный подход имеет широкие практические применения, включая системы обработки речи в звонках, конференциях и дистанционных собраниях. Он позволяет значительно упростить процесс обучения и использования для разных задач, сократив время и ресурсы. Улучшенная точность и общая эффективность UME делают его привлекательным для реальных приложений в условиях многоголосного разговора. ## Выводы Результаты показывают, что UME является эффективной архитектурой для решения многоголоской диаризации, разделения речи и ASR. Он устанавливает новые стандарты в точности на многоголосых данных и демонстрирует потенциал для улучшения многозадачных подходов в области обработки речи. Будущие исследования будут ориентированы на расширение UME для других задач и улучшение его реализации в реальных системах.
Annotation:
This paper presents a unified multi-speaker encoder (UME), a novel architecture that jointly learns representations for speaker diarization (SD), speech separation (SS), and multi-speaker automatic speech recognition (ASR) tasks using a shared speech foundational encoder. We leverage the hidden representations from multiple layers of UME as a residual weighted-sum encoding (RWSE) to effectively use information from different semantic levels, contributing to bottom-up alignment between tasks. Thi...
ID: 2508.20474v1 eess.AS, cs.CL, cs.SD
Авторы:

Haoyu Wang, Guangyan Zhang, Jiale Chen, Jingyu Li, Yuehai Wang, Yiwen Guo

## Контекст Современные технологии управления речью позволяют пользователям взаимодействовать с ассистентами с помощью речи. Однако большинство существующих моделей просто преобразуют контент ответа в речь, не полностью учитывая эмоциональные и паралингвистические признаки, заложенные в запросе пользователя. Эмоциональное понимание важно для повышения качества взаимодействия человек-машина. На данный момент, большинство моделей с эмоциональной компонентой тренируются на огромных данных, что требует больших вычислительных ресурсов. Необходимо разработать модель, способную генерировать эмоциональные ответы с минимальным объемом данных и без требований к масштабной тренировке. ## Метод Мы предлагаем Emotion Omni — модель, предназначенную для понимания эмоционального контента в речи пользователя и генерации эмоциональных ответов. Методология основывается на архитектуре трансформеров и включает компоненты для эмоционального анализа и генерации речи. Мы также разработали пайплайн для генерации данных, используя open-source TTS-фреймворк, чтобы создать 200k эмоционального диалога. Эта база данных использовалась для обучения Emotion Omni. Модель способна использовать ограниченные данные и достигает высокой эмоциональной точности. ## Результаты Мы провели эксперименты с 200k эмоциональной базы данных для оценки точности Emotion Omni. Модель показала высокую эмоциональную точность и улучшила качество взаимодействия по сравнению с другими моделями. Мы также провели A/B-тесты, показав, что пользователи предпочитают ответы, генерируемые Emotion Omni, из-за их эмоциональной точности и сочетания семантики. Модель эффективно работает с ограниченными ресурсами, что делает ее привлекательной для реального применения. ## Значимость Emotion Omni может быть применена в различных сферах, включая помощников по здоровью, обучающие системы и бизнес-решения. Ее ключевое преимущество заключается в том, что она может функционировать с малым объемом данных и не требует сложных этапов обучения. Это делает ее более удобной и эффективной в сравнении с другими моделями. Будущие исследования будут направлены на улучшение точности и расширение функциональных возможностей модели. ## Выводы Emotion Omni достигает высокой эмоциональной точности при генерации ответов с помощью ограниченных данных. Она представляет собой новую этапу развития моделей для эмоционального взаимодействия человек-машина. Будущие исследования будут фокусироваться на расширении функциональности и повышению точности восприятия эмоций.
Annotation:
With the development of speech large language models (speech LLMs), users can now interact directly with assistants via speech. However, most existing models simply convert the response content into speech without fully understanding the rich emotional and paralinguistic cues embedded in the user's query. In many cases, the same sentence can have different meanings depending on the emotional expression. Furthermore, emotional understanding is essential for improving user experience in human-mach...
ID: 2508.18655v1 cs.CL, cs.SD, eess.AS, I.2.7
Авторы:

Qingzheng Wang, Hye-jin Shim, Jiancheng Sun, Shinji Watanabe

#### Контекст Распознавание речи (Spoken Language Identification, LID) является ключевым заданием в области звукового обработки и машинного обучения. Оно используется в различных приложениях, таких как системы управления пользователем, локализация языка в мультиязычных средах и транскрипция речи. Несмотря на неоцениваемые достижения, достигнутые с помощью Self-Supervised Learning (SSL), существующие модели LID часто сталкиваются с проблемами в распознавании языковых вариаций, таких как диалекты и акценты. Эти проблемы возникают из-за того, что многие модели не учитывают географические особенности языка, что приводит к неустойчивости в распознавании. Мотивация для данного исследования заключается в создании модели, которая будет более устойчивой к таким вариациям и более точно классифицировать речи, независимо от диалекта или акцента. #### Метод Методология, предложенная в данной работе, включает в себя geolocation-aware LID -- новую подходящую модель, которая интегрирует информацию о геопозиции языка в процесс обучения. Мы предлагаем использовать ауксиллярное задание по прогнозированию геолокации. Данные, полученные с помощью этого задания, инъектируются в средние представления модели в качестве условияльных сигналов. Это позволяет модели не только извлекать особенности слов и фоновых шумов, но также учитывать распределение речи по географическим регионам. Это улучшает универсальность модели, так как она может более эффективно обрабатывать различные диалекты и акценты в рамках одного языка. #### Результаты Модель была проверена на шести мультиязычных датасетах. Она показала значительные улучшения в отношении устойчивости к различным вариациям речи внутри одного языка. На датасете FLEURS, модель достигла долей точности 97.7%, что является рекордным показателем. На датасете ML-SUPERB 2.0, относительное улучшение составило 9.7% в распознавании диалектов. Эти результаты подтверждают эффективность условительных сигналов, внедренных с помощью прогноза геолокации. #### Значимость Geolocation-aware LID может быть применена в различных областях, таких как локализация речи в мультиязычных средах, мониторинг речи в социальных сетях и в системах перевода. Ее преимущество заключается в том, что она может распознавать речь независимо от диалекта или акцента, что увеличивает доступность и точность в различных сценариях. Этот подход также может положительно влиять на развитие технологий, которые требуют точного распознавания речи, такие как системы управления пользователем и системы локализации языка. #### Выводы Данная работа представляет собой значительный шаг в нап
Annotation:
While Self-supervised Learning (SSL) has significantly improved Spoken Language Identification (LID), existing models often struggle to consistently classify dialects and accents of the same language as a unified class. To address this challenge, we propose geolocation-aware LID, a novel approach that incorporates language-level geolocation information into the SSL-based LID model. Specifically, we introduce geolocation prediction as an auxiliary task and inject the predicted vectors into interm...
ID: 2508.17148v1 cs.CL, cs.SD
Авторы:

Nassima Ould Ouali, Awais Hussain Sani, Ruben Bueno, Jonah Dauvet, Tim Luka Horstmann, Eric Moulines

## Контекст Современные тексто-na-reči (TTS) системы, несмотря на постоянный прогресс, часто сталкиваются с проблемой недостаточной выразительности синтетических голосов. Это ограничение связано с недостаточным контролем прозоса, который определяет гармонию звучания в речи. Это влияет на применение TTS в различных сферах, включая аудиокниги, интерактивные системы и доступность для инвалидов. Особенно заметна проблема на языках с богатым лексическим и фонетическим составом, таких как французский. Наша мотивация заключается в улучшении прозоса синтетического голоса, чтобы сделать его более природным и естественным. ## Метод Мы предлагаем первую полностью интегрированную архитектуру, которая внедряет SSML (Speech Synthesis Markup Language) теги в французский текст для контроля питча, скорости речи, громкости и продолжительности пауз. Наша модель основана на двух моделях QLoRA-fine-tuned Qwen 2.5-7B. Первая модель предсказывает позиции фразных перерывов, а вторая регрессионно определяет целевые прозосные параметры. Эти цели преобразуются в SSML теги, которые могут использоваться в коммерческих TTS-системах. Мы тренировали и проверили нашу модель на 14-часовом корпусе французских подкастов. ## Результаты Эксперименты показали высокую точность в позиционировании фразных перерывов — 99.2% F1. Мы также достигли существенных улучшений в регрессии на прозосные параметры: ошибка абсолютного значения (MAE) уменьшилась на 25-40% по сравнению с prompting-only LLMs и BiLSTM-базисом. В клиническом опросе, в котором участвовали 18 членов комитета, мы обнаружили, что SSML-подкрепленная речь с нашей моделью значительно приличнее и природнее, с МОС (Mean Opinion Score) повысившимся с 3.20 до 3.87 (p < 0.005). 15 из 18 слушателей существенно предпочли нашу модель к оригинальной. ## Значимость Наше решение может быть применено в различных сферах, таких как доступная коммуникация, аудиоконтент для новостей и образовательные цели. Оно предлагает значительные преимущества в улучшении натуральности и выразительности синтетической речи на французском языке. Эти достижения открывают новые перспективы для улучшения TTS-систем в области эмоциональной натуральности и естественности речи. ## Выводы Мы добились значительных улучшений в выразительности синтетического голоса на французском языке с помощью нашей новой SSML-контролируемой архитектуры. Будущие исследования будут направлены на продолжение улучшения моделей, включая многоязычную поддержку и интеграцию более высокоуровневых функций, таких ка
Annotation:
Despite recent advances, synthetic voices often lack expressiveness due to limited prosody control in commercial text-to-speech (TTS) systems. We introduce the first end-to-end pipeline that inserts Speech Synthesis Markup Language (SSML) tags into French text to control pitch, speaking rate, volume, and pause duration. We employ a cascaded architecture with two QLoRA-fine-tuned Qwen 2.5-7B models: one predicts phrase-break positions and the other performs regression on prosodic targets, generat...
ID: 2508.17494v1 cs.CL, cs.SD, 68T50, I.2.7; H.5.5
Авторы:

Dingdong Wang, Junan Li, Mingyu Cui, Dongchao Yang, Xueyuan Chen, Helen Meng

#### Контекст Говорение — это сложное средство межличностного общения, которое позволяет людям делиться информацией, выражать эмоции и устанавливать взаимодействия. В последние годы стало понятно, что обработка говорящего языка требует новых подходов, которые могут обрабатывать большие объемы данных, включая звуковые сигналы, слова и контекст. SpeechLLMs (Speech Large Language Models) являются продвинутыми моделями, которые используются для таких задач, как распознавание речи и понимание речи. Существуют два основных подхода к обработке речи: использование дискретных токенов и непрерывных признаков. Несмотря на то что оба подхода доказали свою эффективность в различных задачах, пока не было проведено подробного сравнения их возможностей в рамках SpeechLLMs. Мы предлагаем сравнить дискретные токены и непрерывные признаки, используя одинаковые экспериментальные условия, чтобы выявить преимущества каждого подхода. #### Метод Мы использовали самостоятельное обучение (SSL) для создания дискретных токенов и непрерывных признаков. Для сравнения мы выбрали шесть задач, связанных с пониманием речи, включая задачи распознавания речи, разметки речи и понимания речи на разных уровнях. Для экспериментов мы использовали две модели разного размера: Qwen1.5-0.5B и Llama3.1-8B. Эти модели были обучены на больших объемах данных для обеспечения точности и полноты результатов. Мы также проводили анализы, включая эффективность обучения, анализ слоёв моделей и устойчивость моделей к помехам. #### Результаты В результате экспериментов мы обнаружили, что непрерывные признаки показали более высокую точность по сравнению с дискретными токенами. На каждой из шести задач по пониманию речи непрерывные признаки демонстрировали более высокую точность и стабильность. Мы также обнаружили, что каждый подход имеет свои особенности в обучении и обработке речевых данных. Например, дискретные токены показали лучшие результаты в задачах, требующих высокой скорости обработки, в то время как непрерывные признаки демонстрировали высокую точность в задачах, требующих понимания контекста. #### Значимость Полученные результаты имеют большое значение для развития SpeechLLMs. Мы показали, что непрерывные признаки могут быть более эффективными в задачах, требующих понимания контекста, таких как разметка речи и понимание речи на высоком уровне. Эти результаты могут помочь разработчикам моделей SpeechLLMs делать выбор между дискретными токенами и непрерывными признаками в зависимости от конкретных задач и требований. Мы также открыли новые направления для будущих исследований, в том числе исследование способов сочетания дискретных и непр
Annotation:
With the rise of Speech Large Language Models (SpeechLLMs), two dominant approaches have emerged for speech processing: discrete tokens and continuous features. Each approach has demonstrated strong capabilities in audio-related processing tasks. However, the performance gap between these two paradigms has not been thoroughly explored. To address this gap, we present a fair comparison of self-supervised learning (SSL)-based discrete and continuous features under the same experimental settings. W...
ID: 2508.17863v1 cs.CL, cs.SD
Авторы:

Sangmin Lee, Woojin Chung, Seyun Um, Hong-Goo Kang

## Контекст Code-switching (CS), т. е. переключение между двумя или более языками в одном высказывании одного и того же говорящего, широко распространено в реальных ситуациях общения. Однако этот эффект является значительным трудностью для развития многоязычных технологий распознавания речи и трансляции. Несмотря на важность этой проблемы, относительно небольшое количество исследований посвящено ей, в основном из-за существующего дефицита качественных данных. Для решения этой проблемы предлагается Universal Code-Mixer (UniCoM) — метод для создания высококачественных примеров CS-речи, сохраняющих смысловую нагрузку предложений. ## Метод UniCoM основывается на методе Substituting WORDs with Synonyms (SWORDS), который генерирует CS-текст путем подстановки выбранных слов синонимами-переводами, учитывая их части речи. Это позволяет создавать примеры CS-речи, которые сохраняют оригинальную смысловую нагрузку. Кроме того, мы используем UniCoM для построения многоязычного CS-корпуса Code-Switching FLEURS (CS-FLEURS), ориентированного на целевые задачи ASR и S2TT. Этот корпус включает в себя CS-примеры для нескольких языковых пар, разделенных на тренировочные, валидационные и тестовые наборы. ## Результаты Experimental evaluation представляет собой сравнение CS-FLEURS с другими CS-данными и стандартными датасетовыми на ASR и S2TT. Результаты показывают, что CS-FLEURS демонстрирует высокую intelligibility и naturalness, при этом аналогично или даже лучше остальных датасетов по этим показателям. Это подтверждает, что UniCoM эффективно решает задачу генерации CS-речи, сохраняя смысловую нагрузку и предоставляя качественные данные для обучения моделей. ## Значимость UniCoM может быть применен для создания CS-данных, необходимых для обучения моделей ASR и S2TT, что в свою очередь может повысить качество технологий распознавания речи и трансляции в многоязычной среде. Этот подход имеет значимый потенциал для улучшения multilingual speech technology, устранения языковых барьеров и повышения доступности многоязычных систем для различных групп пользователей. ## Выводы UniCoM представляет собой первоначальный шаг к созданию универсального CS-генератора речи. Он эффективно решает проблему отсутствия качественных датасетов для CS-речи, создавая примеры, которые сохраняют смысловую нагрузку. В будущем планируется расширить UniCoM на более широкий спектр языковых пар и сценариев, а также использовать его для улучшения многоязычных систем ASR и S2TT.
Annotation:
Code-switching (CS), the alternation between two or more languages within a single speaker's utterances, is common in real-world conversations and poses significant challenges for multilingual speech technology. However, systems capable of handling this phenomenon remain underexplored, primarily due to the scarcity of suitable datasets. To resolve this issue, we propose Universal Code-Mixer (UniCoM), a novel pipeline for generating high-quality, natural CS samples without altering sentence seman...
ID: 2508.15244v1 cs.CL, cs.SD, eess.AS
Показано 61 - 70 из 83 записей