ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signal

2508.14689v1 cs.SD, cs.AI, cs.LG, eess.AS 2025-08-22

Авторы:

Yucong Zhang, Juan Liu, Ming Li

Резюме на русском

#### Контекст Предварительно обученные фундаментальные модели показали определенный успех в области обработки звука и текста, однако их потенциал в области общей моделирования сигналов — включая акустические, вибрационные и другие индустриальные данные сенсоров — пока остается недостаточно исследованным. Существующие подходы, основанные на разделении сигнала по подботам (sub-band-based), достигли высокой эффективности, но ограничены фиксированным размером входных данных и отсутствием информации о частотной позиции. В данной работе мы предлагаем новую фундаментальную модель, которая объединяет расширенную архитектуру разделения по бандам с позиционными инкапсуляциями частоты, обеспечивая точную локализацию спектра в произвольных конфигурациях семплирования. Модель включает в себя продвинутый ввод неограниченной длины, не требующий дополнительного подучавливания или разбиения на фрагменты, что позволяет сохранять как временную, так и спектральную точность. Мы проверили наш подход на бенчмарке SIREN (https://github.com/yucongzh/SIREN), созданном для синтетического и реального сигнала, который объединяет несколько баз данных, включая все задачи DCASE (2020-2025) и корпусы индустриальных сигналов. Результаты экспериментов подтверждают состояние лидирующего решения в задачах аномалического детектирования и диагностики аварий. #### Метод Мы предлагаем модель, основанную на продвинутой архитектуре разделения сигнала по бандам, в которой включены позиционные модели частоты, обеспечивающие точную локализацию в спектре. Наша модель использует процесс синхронного обучения, что позволяет ему поддерживать входные данные произвольной длины без необходимости подобрать длину или разбивать данные. Мы также внедрили высший уровень позиционного сигнала в спектр, чтобы сохранить высокую точность в интерпретации фоновых и аномальных шумов. Для оценки модели мы использовали бенчмарк SIREN, который предоставляет широкий набор данных, включая задачи DCASE, а также реальные собранные данные в различных индустрийных приложениях. Кроме того, мы проводили подробный анализ эффективности модели в задачах детектирования аномалий и идентификации аварий. #### Результаты Мы провести эксперименты на базе SIREN и получили выдающиеся результаты в задачах аномалического детектирования и идентификации аварий. Наши результаты показали высшую точность по сравнению с имеющимися подходами, особенно в ситуациях с произвольными длинами входных данных и произвольными конфигурациями семплирования. Мы также провели проверку на реальных данных и продемонстрировали, что наш подход может эффек

Abstract

Pre-trained foundation models have demonstrated remarkable success in vision and language, yet their potential for general machine signal modeling-covering acoustic, vibration, and other industrial sensor data-remains under-explored. Existing approach using sub-band-based encoders has achieved competitive results but are limited by fixed input lengths, and the absence of explicit frequency positional encoding. In this work, we propose a novel foundation model that integrates an advanced band-split architecture with relative frequency positional embeddings, enabling precise spectral localization across arbitrary sampling configurations. The model supports inputs of arbitrary length without padding or segmentation, producing a concise embedding that retains both temporal and spectral fidelity. We evaluate our method on SIREN (https://github.com/yucongzh/SIREN), a newly introduced large-scale benchmark for machine signal encoding that unifies multiple datasets, including all DCASE task 2 challenges (2020-2025) and widely-used industrial signal corpora. Experimental results demonstrate consistent state-of-the-art performance in anomaly detection and fault identification, confirming the effectiveness and generalization capability of the proposed model. We open-sourced ECHO on https://github.com/yucongzh/ECHO.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signal

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Advancing Marine Bioacoustics with Deep Generative Models: A Hybrid Augmentation...

Learning Linearity in Audio Consistency Autoencoders via Implicit Regularization

Schrödinger Bridge Mamba for One-Step Speech Enhancement

Automatic Music Sample Identification with Multi-Track Contrastive Learning

Leveraging Whisper Embeddings for Audio-based Lyrics Matching

Навигация