📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня
Авторы:

Ayano Shibata, Toshiki Gunji, Mitsuaki Tsuda, Takashi Endo, Kota Dohi, Tomoya Nishida, Satoko Nomoto

## Контекст Обслуживание и мониторинг железнодорожного оборудования требуют значительных ресурсов, в том числе времени и человеческой силы. Начиная с 2018 года, East Japan Railway Company и Hitachi, Ltd. работали над заменой традиционных визуальных осмотров на системы мониторинга на основе IoT, чтобы уменьшить затраты и обеспечить эффективный превентивный обслуживание. Однако визуальные осмотры и мониторинг электрических характеристик оставались сложными для автоматизации, а интеграция новых высокопроизводительных сенсоров оказалась дорогостоящей. В 2019 году был реализован проект с использованием камер и микрофонов в электрических переключателях (NS) для мониторинга состояния замков и реализации удаленного контроля. Одним из результатов этого проекта стала предложенная методика определения ошибок в переключении точек по звуковым сигналам, позволяющая в реальном времени выявлять неполадки в оборудовании и снизить потребность в визуальных осмотрах. ## Метод Метод основывается на анализе звуковых сигналов, получаемых от переключения точек в электроприводах. Основной идеей является использование спектрального анализа звуковых сигналов для идентификации характерных шумовых признаков, которые могут указывать на наличие неполадок. Для этого были проведены исследования звукового сигнала, учитывая различные условия работы техники, включая разные уровни шума окружающей среды. Метод также включает в себя разработку алгоритмов обработки сигналов, а также использование специального программного обеспечения для анализа звуков в реальном времени. Технические решения включают в себя использование микрофонов с высокой чувствительностью и системы машинного обучения для классификации звуковых сигналов. ## Результаты Проведенные эксперименты показали высокую точность и надежность метода. Был разработан и протестирован алгоритм для выявления ошибок в переключении точек на основе звуковых сигналов. Для этих целей были использованы наборы данных, включающие звуковые записи с различных типов переключателей в различных условиях работы. Эксперименты показали, что метод обнаружения ошибок имеет достаточно высокую точность и эффективность. Использование звукового мониторинга позволило снизить время отклика на выявление неполадок и уменьшить необходимость в традиционных визуальных осмотрах. ## Значимость Эта методика имеет широкие потенциальные применения в сфере мониторинга и обслуживания железнодорожного оборудования. Она может быть применена для повышения эффективности и снижения затрат на обслуживание, а также для обеспечения более высо
Annotation:
Since 2018, East Japan Railway Company and Hitachi, Ltd. have been working to replace human inspections with IoT-based monitoring. The purpose is Labor-saving required for equipment inspections and provide appropriate preventive maintenance. As an alternative to visual inspection, it has been difficult to substitute electrical characteristic monitoring, and the introduction of new high-performance sensors has been costly. In 2019, we implemented cameras and microphones in an ``NS'' electric poin...
ID: 2508.20870v1 eess.AS, cs.LG, cs.SD
Авторы:

Alessio Falai, Ziyao Zhang, Akos Gangoly

#### Контекст Текстовое-к-речевое преобразование (Text-to-Speech, TTS) является важной областью искусственного интеллекта, которая обеспечивает синтез речи на основе текста. Одним из главных вызовов является синтез речи в неизвестных языках или с неизвестными речевыми идентичностями. Этот процесс важен для расширения приложений TTS, таких как локализация и доступность. Несмотря на прогресс в масштабируемых моделях, лёгкие модели TTS, оптимизированные для ресурсно-ограниченных устройств, становятся все более востребоваными. В этой работе мы изучаем добавление адаптеров к лёгким моделям TTS для решения проблемы неизвестных речевых и языковых идентичностей, чтобы достичь эффективного и точного синтеза голоса. #### Метод Мы используем адаптеровую архитектуру для улучшения лёгких моделей TTS. Адаптеры — небольшие модули, добавляемые к существующим моделям, чтобы научить их обучаться на новых речевых и языковых идентичностях без переобучения основной модели. Мы сравниваем две задачи: неизвестный голос и неизвестный язык. Для измерения качества синтеза мы используем традиционные метрики, такие как MOS (Mean Opinion Score), а также разрабатываем новую метрику, основанную на измерении акцента, чтобы оценить натуральность синтезированной речи в новом языке. Модель тренируется на существующих данных речи, а затем модифицируется с помощью адаптеров для обучения новых речевых и языковых признаков. #### Результаты Мы проводим эксперименты на широкой палитре речевых и языковых признаков, включая новые речевые идентичности и языки, для которых не было доступных никаких записей. Мы показываем, что адаптеры эффективно учитывают новую информацию о голосе и языке, улучшая качество синтеза. Благодаря нашей метрике акцента, мы также показываем, что синтезированная речь звучит натурально в новой среде. Мы также изучаем различные конфигурации адаптеров, такие как размер, место размещения и количество голосов, и показываем, что эти факторы влияют на качество синтеза. #### Значимость Наши результаты демонстрируют широкое применение адаптеров в лёгких текстово-речевых системах. Они могут быть использованы для синтеза речи на новых языках и с неизвестными речевыми идентичностями без необходимости обучать модель с нуля. Это значительно увеличивает производительность и дешевизну при развёртывании TTS в новых регионах и языках. Кроме того, мы показываем, как адаптеры могут быть настроены для минимизации «забывания» исходной знания модели, что является ключевым вызовом в машинном обучении. Наша работа такж
Annotation:
In this paper we investigate cross-lingual Text-To-Speech (TTS) synthesis through the lens of adapters, in the context of lightweight TTS systems. In particular, we compare the tasks of unseen speaker and language adaptation with the goal of synthesising a target voice in a target language, in which the target voice has no recordings therein. Results from objective evaluations demonstrate the effectiveness of adapters in learning language-specific and speaker-specific information, allowing pre-t...
ID: 2508.18006v1 eess.AS, cs.CL, cs.LG, cs.SD
Авторы:

NVIDIA, :, Chaeyeon Chung, Ilya Fedorov, Michael Huang, Aleksey Karmanov, Dmitry Korobchenko, Roger Ribera, Yeongho Seol

## Контекст Аудио-движение лица (аудио-драйвен фейс энимайшн) является эффективным способом анимации цифровых аватаров. Он позволяет создавать реалистичные и динамичные образцы движений лица на основе звуковых сигналов. Однако существуют несколько значимых проблем в этой области, включая необходимость в высококачественных данных, сложность построения точных моделей, а также адаптации анимации для различных типов героев и сценариев. Изложенное решение может использоваться в различных цифровых индустриях, включая игроориентированные приложения, виртуальную реальность, а также области интерактивного контента. ## Метод Аудио2Фейс-3D (Audio2Face-3D) — это система, основанная на нейронных сетях, которая использует входные звуковые сигналы для анимации 3D-моделей лиц. Основная архитектура состоит из нескольких модулей: 1. **Акустический модуль** — обрабатывает звуковые сигналы, извлекая признаки, необходимые для анимации. 2. **Ретаргетинг и анимационный модуль** — применяет полученные признаки к 3D-модели лица, адаптируя движения под целевую модель. 3. **Оценочный модуль** — использует метрики качества для анализа результатов анимации. Архитектура задействует глубокие нейронные сети, в том числе квантизационные модели для эффективной обработки данных. ## Результаты Эксперименты проводились с использованием различных типов звуков, включая речь, музыку и другие звуковые выражения. Набор данных, использованный для обучения, включал видеозаписи лиц с аудиоподписями. Результаты показали высокую точность в анимации лица, особенно в сложных сценариях. Авторы также отметили улучшение качества анимации при использовании более объемных данных. ## Значимость Система Audio2Face-3D может применяться в игровых отраслях, виртуальных реальностях, а также в интерактивных приложениях. Он обеспечивает более высокую точность и скорость в анимации лиц, что существенно упрощает процесс разработки. Открытое открытие сетей и инструментов позволяет разработчикам создавать реалистичные модели лиц без значительных инвестиций в ресурсы. ## Выводы Работа Audio2Face-3D является значительным шагом в области аудио-движения лиц. Авторы отмечают, что будущие исследования будут сфокусированы на улучшении моделей для разных типов звуков и повышении точности в разных сценариях. Открытость проекта может способствовать развитию индустрии в отраслях, где реалистичная анимация играет ключевую роль.
Annotation:
Audio-driven facial animation presents an effective solution for animating digital avatars. In this paper, we detail the technical aspects of NVIDIA Audio2Face-3D, including data acquisition, network architecture, retargeting methodology, evaluation metrics, and use cases. Audio2Face-3D system enables real-time interaction between human users and interactive avatars, facilitating facial animation authoring for game characters. To assist digital avatar creators and game developers in generating r...
ID: 2508.16401v1 cs.GR, cs.HC, cs.LG, cs.SD, eess.AS
Авторы:

Tomer Krichli, Bhiksha Raj, Joseph Keshet

#### Контекст **Automatic Speech Recognition (ASR)** — одна из наиболее активно развивающихся областей искусственного интеллекта, нацеленная на распознавание и преобразование речи в текст. Существующие модели, такие как **OpenAI Whisper** и **NVIDIA Canary**, достигли отличных результатов в области офлайн-транскрипции. Однако эти модели не предназначены для работы в режиме streaming (реального времени) из-за архитектурных ограничений и методологии тренировки. Это приводит к высокому латенту и неэффективному использованию ресурсов. Латентность становится критичной в сценариях, где временная задержка критична (например, в системах управления железнодорожными проектами). В нашем исследовании мы адресовали эту проблему, предлагая метод по адаптации существующих моделей к требованиям реального времени, обеспечивая локальную оптимальность и низкую сложность. #### Метод Мы предлагаем преобразовать **transformer encoder-decoder** в **causal streaming model** (модель, не ориентирующуюся на будущий контекст). Это достигается путем **fine-tuning** исходного модели, включая как encoder, так и decoder. Используется **Low-Rank Adaptation (LoRA)** для эффективного обучения, а также **weakly aligned dataset** для улучшения выравнивания времени. Мы предложили новый **inference mechanism**, который использует fine-tuned model для **greedy decoding** и **beam search decoding**, обеспечивая локально оптимальные решения. Эта новая архитектура позволяет модели работать в режиме с низкой задержкой, не теряя качества распознавания. Кроме того, наш процесс тренировки улучшает выравнивание времени, что позволяет создавать точные **word-level timestamps**. #### Результаты Мы провели эксперименты с разными **chunk sizes** (менее 300 мс) и сравнили нашу модель с нетрейненговыми потоковыми моделями. Результаты показали, что **fine-tuned model** превосходит уже существующие потоковые модели, при этом используя значительно меньшую сложность. Мы также показали, что наш метод выравнивания времени эффективен и позволяет легко извлекать **word-level timestamps**, которые являются важным ресурсом для пользователей в таких приложениях, как **railway management systems**. Наши **fine-tuned models** скачаны и могут быть использованы для дальнейших исследований и развития в области streaming ASR. #### Значимость Наша работа открывает новые возможности для использования моделей **ASR** в сценариях, где реальное время и низкая задержка критичны, таких как **railway management systems**, **real-time speech transcription** для динамических сред. Мы также доказали, что можно эффективно адаптировать имеющиеся модели, не требуя полного переучивания, что экономит ресурсы. Наш подход имеет **broad applications** в различных областях, таких как **real-time communication systems**, **voice assistants** и **accessibility tools**. Мы положили фундамент для дальнейших исследований в области **causal streaming models** в ASR. #### Выводы Мы успешно
Annotation:
Automatic Speech Recognition (ASR) has seen remarkable progress, with models like OpenAI Whisper and NVIDIA Canary achieving state-of-the-art (SOTA) performance in offline transcription. However, these models are not designed for streaming (online or real-time) transcription, due to limitations in their architecture and training methodology. We propose a method to turn the transformer encoder-decoder model into a low-latency streaming model that is careless about future context. We present an an...
ID: 2508.12301v1 cs.CL, cs.LG, cs.SD, eess.AS
Авторы:

Abhijit Sinha, Harishankar Kumar, Mohit Joshi, Hemant Kumar Kathania, Shrikanth Narayanan, Sudarsana Reddy Kadiri

#### Контекст Детская речь отличается высокой разнообразностью в звучании, которая возникает из-за развития физиологических характеристик, разнообразия в практике речи и индивидуальных различий. Эти особенности сделали детский голос сложной областью для задач классификации полов и возраста. Несмотря на то, что самостоятельно настроенные методы обучения (self-supervised learning, SSL) демонстрируют высокую эффективность при работе с аудио данными взрослых, их применимость к детской речи остается недостаточно исследована. Однако детская речь является важной областью, так как помогает в развитии интерактивных систем, таких как такие как речевые помощники, которые требуют точности в распознавании детских голосов. В работе предлагается широкомасштабный анализ слоёв моделей Wav2Vec2 для классификации возраста и пола детей, чтобы углубить понимание того, как эти модели кодируют детские голоса. #### Метод В ходе исследования проводился подробный анализ слоёв четырёх вариантов модели Wav2Vec2, которые были обучены с помощью метода self-supervised learning на обширных данных PFSTAR и CMU Kids. Для дальнейшего анализа использовалась методика PCA (Principal Component Analysis) с целью уменьшить размерность данных и выделить наиболее важные компоненты. Эксперименты проводились на классификации возраста и пола с использованием различных моделей Wav2Vec2, включая Wav2Vec2-large-lv60, Wav2Vec2-base-100h и другие. Этакие эксперименты позволили изучить, как слои моделей SSL кодируют говорящих характеристики, а также определить лучшие модели для классификации детских голосов. #### Результаты Результаты экспериментов показали, что ранние слои (с 1 по 7) моделей Wav2Vec2 эффективнее кодируют говорящие характеристики детей, в то время как диапазон глубже слоев (с 8 по 12) сосредотачивается на лингвистических свойствах речи. Применение PCA позволило уменьшить размерность данных и выделить самые важные компоненты. Лучшие результаты были достигнуты моделью Wav2Vec2-large-lv60, которая показала 97.14% точность при классификации возраста и 98.20% при классификации пола на CMU Kids dataset. На PFSTAR dataset базовая модель Wav2Vec2-base-100h показала 86.05% точность, в то время как Wav2Vec2-large-lv60 — 95.00%. #### Значимость Эти результаты имеют неоценимую значимость для применения SSL-моделей в детских системах распознавания речи. Они указывают на то, что ранние слои моделей более устойчивы к изменениям в детской речи, а дальнейшие слои отдают предпочтение лингвистическим особенностям. Это позволяет создавать более точные и настраиваемые системы распознавания, адаптированные к детским голосам. Изучение такого подхода имеет широкие применения
Annotation:
Children's speech presents challenges for age and gender classification due to high variability in pitch, articulation, and developmental traits. While self-supervised learning (SSL) models perform well on adult speech tasks, their ability to encode speaker traits in children remains underexplored. This paper presents a detailed layer-wise analysis of four Wav2Vec2 variants using the PFSTAR and CMU Kids datasets. Results show that early layers (1-7) capture speaker-specific cues more effectively...
ID: 2508.10332v1 eess.AS, cs.AI, cs.HC, cs.LG, cs.SD
Авторы:

Eray Eren, Qingju Liu, Hyeongwoo Kim, Pablo Garrido, Abeer Alwan

## Контекст Просодия (speech prosody) — это важный аспект речи, который необходим для передачи эмоций, интонаций, информационных приоритетов и индивидуальных особенностей речи. Однако создание моделей просодии, которые эффективно могут принимать текстовые и акустические входы, остается сложной задачей. Недостаток мощных моделей просодии приводит к недостатку точности в таких задачах, как text-to-speech (TTS) и других, где просодия играет ключевую роль. Существующие модели часто страдают от ограниченности в обработке текста и акустических признаков вместе, что приводит к предсказаниям, которые могут быть точными лишь в части. Мотивируя нашу работу является необходимость разработки модели, которая бы способствовала повышению эффективности моделей просодии и предоставляла новые возможности в задачах, где просодия играет важную роль. ## Метод Предлагаемая модель, **ProMode**, является stand-alone моделью, которая предназначена для преобразования текстовых сигналов в просодические признаки, такие как F0 (частота ф F0) и энергия. Она использует как входные данные звуковые признаки, так и текстовые данные, которые частично замаскированы, и производит унифицированный фиксированного размера просодический вектор. Этот вектор, в свою очередь, используется декодером для предсказания отсутствующих частей акустического сигнала. Модель обучается на данных GigaSpeech dataset и включает в себя архитектуру, состоящую из энкодера (который обрабатывает текст и акустику) и декодера (который предсказывает акустические признаки). Модель обучается так, чтобы учитывать обе части входных данных, что позволяет повысить точность предсказаний просодии. ## Результаты Мы проводили эксперименты для оценки точности предсказания F0 и энергии в предложениях. Наши результаты показали, что ProMode превосходит текущие стандартные модели просодии на разных уровнях гранулярности. Мы также интегрировали наши предсказанные просодические признаки в TTS-систему и провели перцептивные тесты, которые показали, что наши результаты превосходят базовые модели по предпочтениям пользователей в пределах просодических признаков. Эти результаты демонстрируют, что ProMode может быть эффективно использована в текстово-слойных моделях речи для повышения качества моделей просодии. ## Значимость Модель ProMode может быть применена в различных областях, включая текстовые-слойные модели речи, синтез речи, генерацию речи и другие задачи, где просодия играет важную роль. Одной из основных преимуществ этой модели является ее способность обрабатывать тексты и акустические признаки вместе, что дает более качественные предсказания просодии. Это может привести к повышению точности в задача
Annotation:
Prosody conveys rich emotional and semantic information of the speech signal as well as individual idiosyncrasies. We propose a stand-alone model that maps text-to-prosodic features such as F0 and energy and can be used in downstream tasks such as TTS. The ProMode encoder takes as input acoustic features and time-aligned textual content, both are partially masked, and obtains a fixed-length latent prosodic embedding. The decoder predicts acoustics in the masked region using both the encoded pros...
ID: 2508.09389v1 eess.AS, cs.CL, cs.LG, cs.SD
Авторы:

Lilit Grigoryan, Vladimir Bataev, Nikolay Karpov, Andrei Andrusenko, Vitaly Lavrukhin, Boris Ginsburg

## Контекст В последние годы значительный прогресс в области распознавания речи был достигнут благодаря развитию моделей Connectionist Temporal Classification (CTC). Однако стандартные средства для beam decoding, используемые для улучшения качества распознавания, часто ограничены по производительности, последовательны и требуют значительных ресурсов CPU. Это затрудняет эффективное использование современных GPU, которые могли бы значительно ускорить процесс. Далее, существующие решения либо требуют сложной настройки, либо не поддерживают расширенные возможности, такие как интеграция грамматических моделей или фаззинг фраз. Изложенная проблема мотивирует разработку производительного, расширяемого и понятного для пользователя средства для GPU-powered beam decoding. ## Метод FlexCTC — это опен-сорсный инструмент, разработанный на Python и PyTorch, предназначенный для решения проблем скорости и производительности в beam decoding для CTC-моделей. Архитектура FlexCTC основана на полностью батченной GPU-реализации, которая устраняет задержки синхронизации между CPU и GPU, а также использует CUDA Graphs для минимизации затрат на запуск курсоров. Для добавления расширенных возможностей, таких как фаззинг фраз и GPU-powered N-gram language model fusion, разработчики внедрили универсальный интерфейс для подключения дополнительных модулей. Это позволяет легко адаптировать систему под конкретные задачи и модели. ## Результаты На тестах с реальными данными FlexCTC показал значительные выигрыши в производительности по сравнению с существующими решениями. Тесты показали, что возможности GPU-based decoding позволяют обрабатывать большие объемы данных за меньшее время, что делает FlexCTC привлекательным для использования в production-ready системах. Также были проведены эксперименты с интеграцией грамматических моделей и фаззинга фраз, которые подтвердили повышение точности распознавания в сценариях сложности. ## Значимость FlexCTC широко может применяться в сферах распознавания речи, таких как транскрибирование аудио, поисковые системы и интерактивные системы управления. Его преимущества включают высокую производительность, полностью GPU-powered решение, расширенные возможности для контекстуализации и простоту использования благодаря интуитивно понятному интерфейсу. Эти особенности делают FlexCTC полезным инструментом как для научных исследований, так и для коммерческого применения. ## Выводы FlexCTC — это развивающееся и мощное решение для beam decoding в CTC-моделях. Его GPU-powered инфраструктура, простота использования и расширенные возможности контекстуализации делают его привлекательным для разработчиков и исследователей. Будущие работы будут направлены на улучшение производительности, добавление поддержки дополнительных моделей и
Annotation:
While beam search improves speech recognition quality over greedy decoding, standard implementations are slow, often sequential, and CPU-bound. To fully leverage modern hardware capabilities, we present a novel open-source FlexCTC toolkit for fully GPU-based beam decoding, designed for Connectionist Temporal Classification (CTC) models. Developed entirely in Python and PyTorch, it offers a fast, user-friendly, and extensible alternative to traditional C++, CUDA, or WFST-based decoders. The toolk...
ID: 2508.07315v2 eess.AS, cs.AI, cs.CL, cs.LG, cs.SD
Авторы:

Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Hamdi Altaheri, Lobna Nassar, Fakhri Karray

## Контекст В последние годы становится все очевиднее, что депрессия является одной из самых серьезных проблем психического здоровья, значительно сказывающихся на качестве жизни и благополучии индивидуума. Несмотря на значительные достижения в области диагностики депрессии, окончательный анализ часто влечет за собой субъективные оценки в клинических интервью. Это может привести к задержке диагноза и неэффективному лечению. Недавно начались исследования, ориентированные на использование социальных сетей для ранней диагностики депрессии. Тем не менее, обычные методы не всегда справляются с трудностями, связанными с объемом и разнообразием пользовательских данных, а также с потребностью в эффективном сочетании многомодальных данных. Таким образом, возникает необходимость в разработке нового подхода, который бы позволил эффективно обрабатывать многомодальные данные и выявлять связи между ними. ## Метод MMFformer — это многомодальная сеть, основанная на использовании трансформеров, предназначенная для выявления депрессивных моделей в многомодальных социальных медиа-данных. Она включает в себя несколько основных модулей. Во-первых, трансформер с резидентными связями используется для извлечения пространственных характеристик из видеоматериалов. Затем, второй трансформер-энкодер применяется для извлечения динамики в аудиоданных. Для улучшения эффективности, архитектура объединения функций использует лонгшорт-фюзинг для объединения взаимосвязанных функций, что позволяет улучшить детализацию и точность. Наконец, сеть прошла оптимизацию для работы с данными многомодальности, что достигается с помощью устранения некоторых ограничений, связанных с задержкой синтеза и проблемами взаимодействия между модальностями. ## Результаты Для оценки MMFformer были применены две крупномасштабные базы данных по диагностике депрессии: D-Vlog и LMVD. Эксперименты показали, что предложенная сеть превосходит существующие подходы, повышая F1-Score на 13.92% для D-Vlog и 7.74% для LMVD. Эти результаты отражают высокую точность сети в выявлении моделей депрессии, даже в условиях многообразия и большого объема данных. Еще одним огромным достижением является возможность обнаружения столь точных пространственных и временных моделей, что дает новый взгляд на диагностику депрессии. ## Значимость Предложенный подход имеет значительное значение для нескольких областей, включая психиатрию, медицинское исследование и прогностические технологии. Эффективность MMFformer в сочетании нескольких модальностей данных открыва
Annotation:
Depression is a serious mental health illness that significantly affects an individual's well-being and quality of life, making early detection crucial for adequate care and treatment. Detecting depression is often difficult, as it is based primarily on subjective evaluations during clinical interviews. Hence, the early diagnosis of depression, thanks to the content of social networks, has become a prominent research area. The extensive and diverse nature of user-generated information poses a si...
ID: 2508.06701v1 cs.CV, cs.AI, cs.CL, cs.LG, cs.SD, eess.AS
Авторы:

Gangular Singh Irengbam, Nirvash Singh Wahengbam, Lanthoiba Meitei Khumanthem, Paikhomba Oinam

## Контекст Маніпурский язык является языком, широко распространенным в Северо-Восточной регионе Индии. Он использует систему письменности Meitei Mayek, которая, несмотря на свою богатую историю, сталкивается с проблемами сохранения и широкого применения. Основной причиной этого являются недостаточные технологические решения, которые подходят для этого языка. Особенно сложной является задача развития текстовой речи (Text-to-Speech, TTS), в связи с характерными для Маніпурского языка гармоничными и звуковыми особенностями, недостаточным количеством текстовых ресурсов. Данная работа адресует эти проблемы, предлагая современное решение для развития TTS-системы, которая может помочь сохранить и раскрыть потенциал Маніпурского языка в цифровой среде. ## Метод Для решения задачи разработки TTS-системы для Маніпурского языка было принято решение использовать архитектуру Tacotron 2 для преобразования текста в звуковые сигналы, а HiFi-GAN для генерации естественного звучания. Так как Meitei Mayek имеет уникальную графему и звуковую систему, включая тональную фонологию, был осуществлен ранжирование гласных и согласных, а также создан словарь фонемов Маніпурского языка в соответствии с ARPAbet. Для обучения системы была собрана уникальная голосовая база данных, содержащая звуковые фрагменты, наиболее устойчивые к различным условиям. Архитектура TTS была адаптирована для тональной фонологии, используя сложные нейронные сети, что позволило повысить точность и природность генерируемой речи. ## Результаты В результате экспериментов, проведенных с использованием голосовой базы данных, TTS-система показала высокую точность и природность в генерировании речи. На основе представленных метрик, таких как Mean Opinion Score (MOS) и Perceptual Evaluation of Speech Quality (PESQ), было подтверждено, что голос, синтезированный системой, является естественным и понятным. Эти результаты были проверены как на технических показателях, так и с помощью лицензионных тестов с участием человеческого слуха. Представленная система доказала способность генерировать естественную и ясную речь, даже в условиях нехватки ресурсов и текстовых источников. ## Значимость Разработанная система имеет многочисленные области применения, включая лингвистическое сохранение, технологическую интеграцию и образовательные цели. В первую очередь, она может быть использована для создания голосовых интерфейсов, которые будут поддерживать Маніпурский язык, что значительно будет повышать удобство использования технологий для носителей этого языка. Кром
Annotation:
This paper presents the development of a Text-to-Speech (TTS) system for the Manipuri language using the Meitei Mayek script. Leveraging Tacotron 2 and HiFi-GAN, we introduce a neural TTS architecture adapted to support tonal phonology and under-resourced linguistic environments. We develop a phoneme mapping for Meitei Mayek to ARPAbet, curate a single-speaker dataset, and demonstrate intelligible and natural speech synthesis, validated through subjective and objective metrics. This system lays ...
ID: 2508.06870v1 cs.CL, cs.LG, cs.SD, eess.AS
Авторы:

Itai Allouche, Itay Asael, Rotem Rousso, Vered Dassa, Ann Bradlow, Seung-Eun Kim, Matthew Goldrick, Joseph Keshet

## Контекст Глубокие нейронные сети (DNN) доказали свою эффективность в обработке языка, особенно в сфере распознавания речи. Однако они часто работают как "черные ящики", при этом возникает вопрос о том, что именно информирует их решения. Это исследование фокусируется на лексической напряженности (stress), которая важна для вербальной интонации и понимания речи. Лексическая напряженность варьируется между словами и внутри слов, влияя на их значение и тонус. Однако существуют недостатки в записях данных для лексической напряженности, так как многие слова отсутствуют в управляемых наборах данных. Данное исследование адресует эти проблемы, используя автоматически сгенерированные наборы данных из речи в реальных условиях. ## Метод Для исследования был создан набор данных из дисиллабных слов в английском языке, с использованием естественных записей речи. Несколько Convolutional Neural Network (CNN) архитектур были обучены классифицировать положение лексической напряженности в словах, основываясь на спектрограммах слов. Были использованы минимальные пары слов с разным положением напряженности (например, протест vs. проТЕСТ). Также, для понимания решений сетей, была применена техника Layerwise Relevance Propagation (LRP). ## Результаты Сети достигли до 92% точности в предсказании положения напряженности. Анализ LRP показал, что сети уделяют большое внимание информации в напряженных слогах, особенно в спектральных свойствах напряженных гласных. Также, они учитывают информацию по всему слову, что позволяет им аккумулировать распределенные признаки напряженности. ## Значимость Результаты имеют практическое значение для области распознавания речи и естественного языка процессинга. Они демонстрируют, что DNN могут извлекать информацию о структуре речи из натуральных данных, что может быть полезно для улучшения технологий распознавания речи. ## Выводы Исследование демонстрирует успех DNN в понимании лексической напряженности, несмотря на недостатки в управляемых данных. Будущие исследования должны сосредоточиться на дальнейшем улучшении интерпретируемости DNN и их применении в реальных ситуациях.
Annotation:
Despite their success in speech processing, neural networks often operate as black boxes, prompting the question: what informs their decisions, and how can we interpret them? This work examines this issue in the context of lexical stress. A dataset of English disyllabic words was automatically constructed from read and spontaneous speech. Several Convolutional Neural Network (CNN) architectures were trained to predict stress position from a spectrographic representation of disyllabic words lacki...
ID: 2508.07229v1 cs.CL, cs.LG, cs.SD, eess.AS
Показано 51 - 60 из 66 записей