Representing Speech Through Autoregressive Prediction of Cochlear Tokens

2508.11598v1 cs.CL, cs.SD, eess.AS 2025-08-19

Авторы:

Greta Tuckute, Klemen Kotar, Evelina Fedorenko, Daniel L. K. Yamins

Резюме на русском

## Контекст Понимание речи — это ключевая задача в области искусственного интеллекта, существенная для развития естественного взаимодействия между человеком и машиной. Однако существующие модели либо недостаточно эффективно обрабатывают аудиодорожки, либо не могут построить качественные представления речи, что приводит к ограниченному функционалу и недостаточной естественности. Биологически точные модели, вдохновленные звукоснежинкой и звукоинтерпретирующими структурами мозга, могут эффективно решить эти проблемы, предоставив более глубокие и значимые представления речи. ## Метод AuriStream представляет собой двухступенчатый архитектурный подход, скоррелированный с биологическими процессами звукообработки. В первой стадии аудио-сигнал трансформируется в временно-частотное представление, аналогичное звукоснежинке, и извлекаются **кохлейские токены** — дискретные числовые представления. Во второй стадии используется авторегрессионный подход, дообучаемый на этих токенах. Эта модель способна выделять фонетические и семантические особенности, включая палиндромы и профили лексических смыслов. ## Результаты В ходе экспериментов AuriStream демонстрирует высокую эффективность на различных задачах, включая лексическую семантику и распознавание речи. Модель показала соревновательную производительность на SUPERB-тестах, показав высокую точность в распознавании фонем и слов. Более того, AuriStream может продолжать аудио-сигнал, выводить его в виде спектрограмм и воспроизводить обратно в аудио, обеспечивая прозрачность и понимание своих предсказаний. ## Значимость AuriStream может применяться в различных сферах — от естественных языковых моделей до аудио-визуальной синтезации. Модель предоставляет более точное и естественное представление речи, что может улучшить ассистентские технологии, транскрибирование речи и прогнозирование развития речи у детей. Её гибкость и эффективность открывают новые пути для создания более естественных и эффективных моделей устных задач. ## Выводы AuriStream является прорывом в области обучения представлений речи, объединяя биологическую точность и силу машинного обучения. Она демонстрирует высокую эффективность в различных задачах, что подтверждает её потенциал в создании более сложных и естественных моделей для обработки речи. Будущие исследования будут фокусироваться на улучшении точности и расширении приложений модели.

Abstract

We introduce AuriStream, a biologically inspired model for encoding speech via a two-stage framework inspired by the human auditory processing hierarchy. The first stage transforms raw audio into a time-frequency representation based on the human cochlea, from which we extract discrete \textbf{cochlear tokens}. The second stage applies an autoregressive sequence model over the cochlear tokens. AuriStream learns meaningful phoneme and word representations, and state-of-the-art lexical semantics. AuriStream shows competitive performance on diverse downstream SUPERB speech tasks. Complementing AuriStream's strong representational capabilities, it generates continuations of audio which can be visualized in a spectrogram space and decoded back into audio, providing insights into the model's predictions. In summary, we present a two-stage framework for speech representation learning to advance the development of more human-like models that efficiently handle a range of speech-based tasks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Representing Speech Through Autoregressive Prediction of Cochlear Tokens

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Joint Speech and Text Training for LLM-Based End-to-End Spoken Dialogue State Tr...

Mispronunciation Detection and Diagnosis Without Model Training: A Retrieval-Bas...

Proactive Hearing Assistants that Isolate Egocentric Conversations

Hallucination Benchmark for Speech Foundation Models

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Predic...

Навигация