Thinking While Listening: Simple Test Time Scaling For Audio Classification

2509.19676v1 cs.SD, cs.AI, cs.LG, eess.AS 2025-09-26
Авторы:

Prateek Verma, Mert Pilanci

Резюме на русском

## Контекст Аудиоклассификация — это важная задача в области обработки звуковых данных, которая находит применение в многочисленных приложениях, таких как звуковой анализ, речевые ассистенты, автоматическая распознавание речи и анализ сенсорных сетей. Однако существуют сложности, связанные с ограниченной точностью и способностью существующих моделей обрабатывать сложные аудиоданные. Недавние развития в области языковых моделей, особенно те, что связаны с улучшением "мыслительных" способностей, показали, что модели могут быть обучены не только просто классифицировать, но и "думать" над задачами, что позволяет повысить точность классификации и улучшить понимание категорий. Наша мотивация заключается в исследовании способов интегрировать такие "мыслительные" процессы в модели для аудиоданных, а также в разработке архитектур, которые могут обеспечить эффективность в реальном времени, в том числе тест-тайм скалированием. ## Метод Мы предлагаем фреймворк, который включает в себя несколько ключевых элементов: (i) интеграция "мыслительных" процессов в модели классификации аудио, чтобы они могли выполнять рациональные выводы над категориями; (ii) разработка архитектуры, которая поддерживает "мыслительные" процессы во время тестирования (тест-тайм скалирование); (iii) эффективное использование моделей с меньшим количеством параметров для реализации этих возможностей. Мы используем методы тест-тайм скалирования, где модель производит несколько повторных проходов по тестовым данным с различными инициализациями, что позволяет повысить точность. Мы также рассматриваем два открытых текстовых модели размышления — GPT-OSS-20B и Qwen3-14B — для сравнения с нашей моделью. ## Результаты Мы проводим эксперименты, используя широкий набор данных, включая AudioSet и ESC-50, для оценки нашей модели. Мы сравниваем наше решение с существующими моделями, включая GPT-OSS-20B и Qwen3-14B. Наши эксперименты показывают, что модель, использующая тест-тайм скалирование, показывает значительные повышения точности в классификации аудио по сравнению с стандартными моделями. Мы также показываем, что модели с меньшим количеством параметров, такие как retrained GPT-2, могут превосходить в показателях точности модели с миллиардами параметров, таких как GPT-OSS-20B, благодаря ретраинированию только входного вектора. ## Значимость Наш фреймворк может применяться в различных сферах, таких как автоматическая распознавание речи (ASR), анализ сенсорных сетей, аудио аналитика для робототехники и даже в области здравоохранения (например, звуковые сигналы для диаг

Abstract

We propose a framework that enables neural models to "think while listening" to everyday sounds, thereby enhancing audio classification performance. Motivated by recent advances in the reasoning capabilities of large language models, we address two central questions: (i) how can thinking be incorporated into existing audio classification pipelines to enable reasoning in the category space and improve performance, and (ii) can a new architecture be designed from the ground up to support both thinking and test-time scaling? We demonstrate that in both settings, our models exhibit improved classification accuracy. Leveraging test-time scaling, we observe consistent gains as the number of sampled traces increases. Furthermore, we evaluate two open-source reasoning models, GPT-OSS-20B and Qwen3-14B, showing that while such models are capable of zero-shot reasoning, a lightweight approach--retraining only the embedding matrix of a frozen, smaller model like GPT-2--can surpass the performance of billion-parameter text-based reasoning models.

Ссылки и действия