ARTI-6: Towards Six-dimensional Articulatory Speech Encoding
2509.21447v1
eess.AS, cs.AI, cs.CL
2025-09-30
Авторы:
Jihwan Lee, Sean Foley, Thanathai Lertpetchpun, Kevin Huang, Yoonjeong Lee, Tiantian Feng, Louis Goldstein, Dani Byrd, Shrikanth Narayanan
Резюме на русском
## Контекст
Область исследования артикуляторного распознавания речи становится все более важной в связи с ростом требований к точности и эффективности голосовых технологий. Традиционные подходы часто страдают от неэффективности, неточности или нехватки глубины понимания артикуляционных процессов. Эти проблемы влекут за собой ограниченную точность речи, ограниченные возможности для синтеза естественного голоса и дополнительные сложности в применении к реальным задачам. В этом контексте предлагается ARTI-6 — новая модель, которая стремится преодолеть эти ограничения, обеспечивая более подробный и интерпретируемый подход к артикуляционной речи.
## Метод
Методология ARTI-6 основывается на реальных данных, полученных с помощью реального временного МРТ. Она включает в себя три основных компонента: (1) шестимерный набор артикуляторных фичей, который представляет ключевые регионы гортани, включая велю, корень языка и глоту; (2) модель инверсии, которая использует базисные модели голоса для предсказания артикуляторных фичей из акустических данных речи, достигнув корреляции 0.87; и (3) модель синтеза, которая генерирует естественное звучание речи на основе артикуляционных фичей. Эта архитектура обеспечивает интерпретируемость, высокую эффективность и физиологическую обоснованность, которые отличают ARTI-6 от предыдущих подходов.
## Результаты
Результаты ARTI-6 были проверены в ряде экспериментов, используя разнообразные данные речи. Модель показала высокую точность в предсказании артикуляционных фичей, достигая корреляции 0.87. Была продемонстрирована ее способность генерировать естественно звучащую речь с помощью низкой-размерной артикуляционной модели. Эти результаты были получены на разных наборах данных, что подтверждает широкую применимость ARTI-6 в разных сценариях.
## Значимость
ARTI-6 предлагает широкие возможности для развития голосовых технологий, включая продвижение в области артикуляционной инверсии и синтеза. Он предоставляет компактную, но точную модель, которая позволяет создавать естественно звучащую речь с меньшим потреблением ресурсов. Благодаря его физиологической обоснованности, ARTI-6 может быть применен в различных сферах, таких как робототехника, здравоохранение и улучшение интерактивных голосовых систем.
## Выводы
В целом, ARTI-6 представляет собой перспективный подход к артикуляторному распознаванию речи, объединяя точность, эффективность и глубину понимания процессов говорения. Будущие исследования будут сконцентрированы на улучшении модели, рас
Abstract
We propose ARTI-6, a compact six-dimensional articulatory speech encoding
framework derived from real-time MRI data that captures crucial vocal tract
regions including the velum, tongue root, and larynx. ARTI-6 consists of three
components: (1) a six-dimensional articulatory feature set representing key
regions of the vocal tract; (2) an articulatory inversion model, which predicts
articulatory features from speech acoustics leveraging speech foundation
models, achieving a prediction correlation of 0.87; and (3) an articulatory
synthesis model, which reconstructs intelligible speech directly from
articulatory features, showing that even a low-dimensional representation can
generate natural-sounding speech. Together, ARTI-6 provides an interpretable,
computationally efficient, and physiologically grounded framework for advancing
articulatory inversion, synthesis, and broader speech technology applications.
The source code and speech samples are publicly available.
Ссылки и действия
Дополнительные ресурсы: