End-to-end Topographic Auditory Models Replicate Signatures of Human Auditory Cortex

2509.24039v1 q-bio.NC, cs.AI, cs.CV, cs.SD 2025-10-01
Авторы:

Haider Al-Tahan, Mayukh Deb, Jenelle Feather, N. Apurva Ratan Murty

Резюме на русском

#### Контекст Голосая система человека характеризуется высокой топографической организацией. В ранних уровнях аудиопроцессинга происходит кластеризация нейронов с похожими ответными свойствами, образуя плавные карты для акустических признаков, таких как частота. В более высоких уровнях обработки сигнала образуются модулярные регионы, которые отвечают за селективность к музыке и речи. Несмотря на эту организацию, подходы к оценке вычислительных моделей аудиоперцепции не проверяют наличие топографической структуры. Целью данного исследования является разработка моделей, которые бы не только различали аудиофоны, но и воспроизводили топографическую организацию, которая характерна для человеческой системы зрения. #### Метод Мы предлагаем новую классификационную модель, TopoAudio, основанную на концепции "волоконной сети" для визуального перцептива, примененной к аудиопроцессингу. Модель обучается классифицировать звуковые фоны (speech и environmental sounds) на основе коэхлеграмм. Для воспроизведения топографической структуры включена дополнительная ограничениевость сети на то, чтобы ближайшие узлы на двумерной мозаичной сетке развивали похожие ответы на свойства звука. Эта конструкция позволяет модели стабильно выполнять входные данные и в то же время строить топографические карты, похожие на топографию человеческой аудиории. #### Результаты Мы провели эксперименты с TopoAudio, сравнивая ее с двумя ведущими нетопографическими моделями. Модель TopoAudio демонстрирует почти одинаковую точность классификации, при этом включая топографические карты, похожие на человеческий мозг. Мы использовали данные от fMRI для оценки того, насколько модель может воспроизвести естественную топографию. В результате, TopoAudio совпадает с точностью нетопографических моделей, но в своих картах представляет более точную изображение топографии человеческой аудиории, включая зоны ответа на звуковую частоту и амплитуду. #### Значимость Модель TopoAudio является первой биологически обоснованной моделью, которая воспроизводит топографическую структуру звукообработки в человеческой аудиории на энд-то-энд уровне. Такая модель может применяться в области робототехники, для создания более биологично организованных систем перцепции. Кроме того, она показывает, что ограничение на длину волокон может быть эффективным инструментом для воспроизведения биологических структур в вычислительных моделях. #### Выводы Наша модель TopoAudio продемонстрировала, что моделирование топографической организации может быть реализовано в классификацио

Abstract

The human auditory cortex is topographically organized. Neurons with similar response properties are spatially clustered, forming smooth maps for acoustic features such as frequency in early auditory areas, and modular regions selective for music and speech in higher-order cortex. Yet, evaluations for current computational models of auditory perception do not measure whether such topographic structure is present in a candidate model. Here, we show that cortical topography is not present in the previous best-performing models at predicting human auditory fMRI responses. To encourage the emergence of topographic organization, we adapt a cortical wiring-constraint loss originally designed for visual perception. The new class of topographic auditory models, TopoAudio, are trained to classify speech, and environmental sounds from cochleagram inputs, with an added constraint that nearby units on a 2D cortical sheet develop similar tuning. Despite these additional constraints, TopoAudio achieves high accuracy on benchmark tasks comparable to the unconstrained non-topographic baseline models. Further, TopoAudio predicts the fMRI responses in the brain as well as standard models, but unlike standard models, TopoAudio develops smooth, topographic maps for tonotopy and amplitude modulation (common properties of early auditory representation, as well as clustered response modules for music and speech (higher-order selectivity observed in the human auditory cortex). TopoAudio is the first end-to-end biologically grounded auditory model to exhibit emergent topography, and our results emphasize that a wiring-length constraint can serve as a general-purpose regularization tool to achieve biologically aligned representations.

Ссылки и действия