Text to Speech System for Meitei Mayek Script

2508.06870v1 cs.CL, cs.LG, cs.SD, eess.AS 2025-08-13
Авторы:

Gangular Singh Irengbam, Nirvash Singh Wahengbam, Lanthoiba Meitei Khumanthem, Paikhomba Oinam

Резюме на русском

## Контекст Маніпурский язык является языком, широко распространенным в Северо-Восточной регионе Индии. Он использует систему письменности Meitei Mayek, которая, несмотря на свою богатую историю, сталкивается с проблемами сохранения и широкого применения. Основной причиной этого являются недостаточные технологические решения, которые подходят для этого языка. Особенно сложной является задача развития текстовой речи (Text-to-Speech, TTS), в связи с характерными для Маніпурского языка гармоничными и звуковыми особенностями, недостаточным количеством текстовых ресурсов. Данная работа адресует эти проблемы, предлагая современное решение для развития TTS-системы, которая может помочь сохранить и раскрыть потенциал Маніпурского языка в цифровой среде. ## Метод Для решения задачи разработки TTS-системы для Маніпурского языка было принято решение использовать архитектуру Tacotron 2 для преобразования текста в звуковые сигналы, а HiFi-GAN для генерации естественного звучания. Так как Meitei Mayek имеет уникальную графему и звуковую систему, включая тональную фонологию, был осуществлен ранжирование гласных и согласных, а также создан словарь фонемов Маніпурского языка в соответствии с ARPAbet. Для обучения системы была собрана уникальная голосовая база данных, содержащая звуковые фрагменты, наиболее устойчивые к различным условиям. Архитектура TTS была адаптирована для тональной фонологии, используя сложные нейронные сети, что позволило повысить точность и природность генерируемой речи. ## Результаты В результате экспериментов, проведенных с использованием голосовой базы данных, TTS-система показала высокую точность и природность в генерировании речи. На основе представленных метрик, таких как Mean Opinion Score (MOS) и Perceptual Evaluation of Speech Quality (PESQ), было подтверждено, что голос, синтезированный системой, является естественным и понятным. Эти результаты были проверены как на технических показателях, так и с помощью лицензионных тестов с участием человеческого слуха. Представленная система доказала способность генерировать естественную и ясную речь, даже в условиях нехватки ресурсов и текстовых источников. ## Значимость Разработанная система имеет многочисленные области применения, включая лингвистическое сохранение, технологическую интеграцию и образовательные цели. В первую очередь, она может быть использована для создания голосовых интерфейсов, которые будут поддерживать Маніпурский язык, что значительно будет повышать удобство использования технологий для носителей этого языка. Кром

Abstract

This paper presents the development of a Text-to-Speech (TTS) system for the Manipuri language using the Meitei Mayek script. Leveraging Tacotron 2 and HiFi-GAN, we introduce a neural TTS architecture adapted to support tonal phonology and under-resourced linguistic environments. We develop a phoneme mapping for Meitei Mayek to ARPAbet, curate a single-speaker dataset, and demonstrate intelligible and natural speech synthesis, validated through subjective and objective metrics. This system lays the groundwork for linguistic preservation and technological inclusion of Manipuri.

Ссылки и действия

Связанные статьи

CarelessWhisper: Turning Whisper into a Causal Streaming Model

#### Контекст **Automatic Speech Recognition (ASR)** — одна из наиболее активно развивающихся областей искусственного ин...

2025-08-19

How Does a Deep Neural Network Look at Lexical Stress?

## Контекст Глубокие нейронные сети (DNN) доказали свою эффективность в обработке языка, особенно в сфере распознавания ...

2025-08-13

The State Of TTS: A Case Study with Human Fooling Rates

**Резюме** В статье предлагается Human Fooling Rate (HFR) — метрика, оценивающая вероятность того, что машинно-генериру...

2025-08-09