ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signal
2508.14689v1
cs.SD, cs.AI, cs.LG, eess.AS
2025-08-22
Авторы:
Yucong Zhang, Juan Liu, Ming Li
Резюме на русском
#### Контекст
Предварительно обученные фундаментальные модели показали определенный успех в области обработки звука и текста, однако их потенциал в области общей моделирования сигналов — включая акустические, вибрационные и другие индустриальные данные сенсоров — пока остается недостаточно исследованным. Существующие подходы, основанные на разделении сигнала по подботам (sub-band-based), достигли высокой эффективности, но ограничены фиксированным размером входных данных и отсутствием информации о частотной позиции. В данной работе мы предлагаем новую фундаментальную модель, которая объединяет расширенную архитектуру разделения по бандам с позиционными инкапсуляциями частоты, обеспечивая точную локализацию спектра в произвольных конфигурациях семплирования. Модель включает в себя продвинутый ввод неограниченной длины, не требующий дополнительного подучавливания или разбиения на фрагменты, что позволяет сохранять как временную, так и спектральную точность. Мы проверили наш подход на бенчмарке SIREN (https://github.com/yucongzh/SIREN), созданном для синтетического и реального сигнала, который объединяет несколько баз данных, включая все задачи DCASE (2020-2025) и корпусы индустриальных сигналов. Результаты экспериментов подтверждают состояние лидирующего решения в задачах аномалического детектирования и диагностики аварий.
#### Метод
Мы предлагаем модель, основанную на продвинутой архитектуре разделения сигнала по бандам, в которой включены позиционные модели частоты, обеспечивающие точную локализацию в спектре. Наша модель использует процесс синхронного обучения, что позволяет ему поддерживать входные данные произвольной длины без необходимости подобрать длину или разбивать данные. Мы также внедрили высший уровень позиционного сигнала в спектр, чтобы сохранить высокую точность в интерпретации фоновых и аномальных шумов. Для оценки модели мы использовали бенчмарк SIREN, который предоставляет широкий набор данных, включая задачи DCASE, а также реальные собранные данные в различных индустрийных приложениях. Кроме того, мы проводили подробный анализ эффективности модели в задачах детектирования аномалий и идентификации аварий.
#### Результаты
Мы провести эксперименты на базе SIREN и получили выдающиеся результаты в задачах аномалического детектирования и идентификации аварий. Наши результаты показали высшую точность по сравнению с имеющимися подходами, особенно в ситуациях с произвольными длинами входных данных и произвольными конфигурациями семплирования. Мы также провели проверку на реальных данных и продемонстрировали, что наш подход может эффек
Abstract
Pre-trained foundation models have demonstrated remarkable success in vision
and language, yet their potential for general machine signal modeling-covering
acoustic, vibration, and other industrial sensor data-remains under-explored.
Existing approach using sub-band-based encoders has achieved competitive
results but are limited by fixed input lengths, and the absence of explicit
frequency positional encoding. In this work, we propose a novel foundation
model that integrates an advanced band-split architecture with relative
frequency positional embeddings, enabling precise spectral localization across
arbitrary sampling configurations. The model supports inputs of arbitrary
length without padding or segmentation, producing a concise embedding that
retains both temporal and spectral fidelity. We evaluate our method on SIREN
(https://github.com/yucongzh/SIREN), a newly introduced large-scale benchmark
for machine signal encoding that unifies multiple datasets, including all DCASE
task 2 challenges (2020-2025) and widely-used industrial signal corpora.
Experimental results demonstrate consistent state-of-the-art performance in
anomaly detection and fault identification, confirming the effectiveness and
generalization capability of the proposed model. We open-sourced ECHO on
https://github.com/yucongzh/ECHO.