Representing Speech Through Autoregressive Prediction of Cochlear Tokens
2508.11598v1
cs.CL, cs.SD, eess.AS
2025-08-19
Авторы:
Greta Tuckute, Klemen Kotar, Evelina Fedorenko, Daniel L. K. Yamins
Резюме на русском
## Контекст
Понимание речи — это ключевая задача в области искусственного интеллекта, существенная для развития естественного взаимодействия между человеком и машиной. Однако существующие модели либо недостаточно эффективно обрабатывают аудиодорожки, либо не могут построить качественные представления речи, что приводит к ограниченному функционалу и недостаточной естественности. Биологически точные модели, вдохновленные звукоснежинкой и звукоинтерпретирующими структурами мозга, могут эффективно решить эти проблемы, предоставив более глубокие и значимые представления речи.
## Метод
AuriStream представляет собой двухступенчатый архитектурный подход, скоррелированный с биологическими процессами звукообработки. В первой стадии аудио-сигнал трансформируется в временно-частотное представление, аналогичное звукоснежинке, и извлекаются **кохлейские токены** — дискретные числовые представления. Во второй стадии используется авторегрессионный подход, дообучаемый на этих токенах. Эта модель способна выделять фонетические и семантические особенности, включая палиндромы и профили лексических смыслов.
## Результаты
В ходе экспериментов AuriStream демонстрирует высокую эффективность на различных задачах, включая лексическую семантику и распознавание речи. Модель показала соревновательную производительность на SUPERB-тестах, показав высокую точность в распознавании фонем и слов. Более того, AuriStream может продолжать аудио-сигнал, выводить его в виде спектрограмм и воспроизводить обратно в аудио, обеспечивая прозрачность и понимание своих предсказаний.
## Значимость
AuriStream может применяться в различных сферах — от естественных языковых моделей до аудио-визуальной синтезации. Модель предоставляет более точное и естественное представление речи, что может улучшить ассистентские технологии, транскрибирование речи и прогнозирование развития речи у детей. Её гибкость и эффективность открывают новые пути для создания более естественных и эффективных моделей устных задач.
## Выводы
AuriStream является прорывом в области обучения представлений речи, объединяя биологическую точность и силу машинного обучения. Она демонстрирует высокую эффективность в различных задачах, что подтверждает её потенциал в создании более сложных и естественных моделей для обработки речи. Будущие исследования будут фокусироваться на улучшении точности и расширении приложений модели.
Abstract
We introduce AuriStream, a biologically inspired model for encoding speech
via a two-stage framework inspired by the human auditory processing hierarchy.
The first stage transforms raw audio into a time-frequency representation based
on the human cochlea, from which we extract discrete \textbf{cochlear tokens}.
The second stage applies an autoregressive sequence model over the cochlear
tokens. AuriStream learns meaningful phoneme and word representations, and
state-of-the-art lexical semantics. AuriStream shows competitive performance on
diverse downstream SUPERB speech tasks. Complementing AuriStream's strong
representational capabilities, it generates continuations of audio which can be
visualized in a spectrogram space and decoded back into audio, providing
insights into the model's predictions. In summary, we present a two-stage
framework for speech representation learning to advance the development of more
human-like models that efficiently handle a range of speech-based tasks.
Ссылки и действия
Дополнительные ресурсы: