ARTI-6: Towards Six-dimensional Articulatory Speech Encoding

2509.21447v1 eess.AS, cs.AI, cs.CL 2025-09-30

Авторы:

Jihwan Lee, Sean Foley, Thanathai Lertpetchpun, Kevin Huang, Yoonjeong Lee, Tiantian Feng, Louis Goldstein, Dani Byrd, Shrikanth Narayanan

Резюме на русском

## Контекст Область исследования артикуляторного распознавания речи становится все более важной в связи с ростом требований к точности и эффективности голосовых технологий. Традиционные подходы часто страдают от неэффективности, неточности или нехватки глубины понимания артикуляционных процессов. Эти проблемы влекут за собой ограниченную точность речи, ограниченные возможности для синтеза естественного голоса и дополнительные сложности в применении к реальным задачам. В этом контексте предлагается ARTI-6 — новая модель, которая стремится преодолеть эти ограничения, обеспечивая более подробный и интерпретируемый подход к артикуляционной речи. ## Метод Методология ARTI-6 основывается на реальных данных, полученных с помощью реального временного МРТ. Она включает в себя три основных компонента: (1) шестимерный набор артикуляторных фичей, который представляет ключевые регионы гортани, включая велю, корень языка и глоту; (2) модель инверсии, которая использует базисные модели голоса для предсказания артикуляторных фичей из акустических данных речи, достигнув корреляции 0.87; и (3) модель синтеза, которая генерирует естественное звучание речи на основе артикуляционных фичей. Эта архитектура обеспечивает интерпретируемость, высокую эффективность и физиологическую обоснованность, которые отличают ARTI-6 от предыдущих подходов. ## Результаты Результаты ARTI-6 были проверены в ряде экспериментов, используя разнообразные данные речи. Модель показала высокую точность в предсказании артикуляционных фичей, достигая корреляции 0.87. Была продемонстрирована ее способность генерировать естественно звучащую речь с помощью низкой-размерной артикуляционной модели. Эти результаты были получены на разных наборах данных, что подтверждает широкую применимость ARTI-6 в разных сценариях. ## Значимость ARTI-6 предлагает широкие возможности для развития голосовых технологий, включая продвижение в области артикуляционной инверсии и синтеза. Он предоставляет компактную, но точную модель, которая позволяет создавать естественно звучащую речь с меньшим потреблением ресурсов. Благодаря его физиологической обоснованности, ARTI-6 может быть применен в различных сферах, таких как робототехника, здравоохранение и улучшение интерактивных голосовых систем. ## Выводы В целом, ARTI-6 представляет собой перспективный подход к артикуляторному распознаванию речи, объединяя точность, эффективность и глубину понимания процессов говорения. Будущие исследования будут сконцентрированы на улучшении модели, рас

Abstract

We propose ARTI-6, a compact six-dimensional articulatory speech encoding framework derived from real-time MRI data that captures crucial vocal tract regions including the velum, tongue root, and larynx. ARTI-6 consists of three components: (1) a six-dimensional articulatory feature set representing key regions of the vocal tract; (2) an articulatory inversion model, which predicts articulatory features from speech acoustics leveraging speech foundation models, achieving a prediction correlation of 0.87; and (3) an articulatory synthesis model, which reconstructs intelligible speech directly from articulatory features, showing that even a low-dimensional representation can generate natural-sounding speech. Together, ARTI-6 provides an interpretable, computationally efficient, and physiologically grounded framework for advancing articulatory inversion, synthesis, and broader speech technology applications. The source code and speech samples are publicly available.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ARTI-6: Towards Six-dimensional Articulatory Speech Encoding

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Towards Audio Token Compression in Large Audio Language Models

Unifying Model and Layer Fusion for Speech Foundation Models

Lost in Phonation: Voice Quality Variation as an Evaluation Dimension for Speech...

StutterZero and StutterFormer: End-to-End Speech Conversion for Stuttering Trans...

Game-Time: Evaluating Temporal Dynamics in Spoken Language Models

Навигация