SwiftF0: Fast and Accurate Monophonic Pitch Detection

2508.18440v1 cs.SD, cs.AI, cs.LG, eess.AS 2025-08-28

Авторы:

Lars Nieradzik

Резюме на русском

## Контекст Задача монофонической оценки пичами (F0-estimation) является ключевой в области аудиопроцессинга, особенно при работе в шумных условиях. Несмотря на развитие современных алгоритмов, достижение высокой точности в реальном времени на ресурс-ограниченных устройствах остается вызовом. Эта проблема усложняется дополнительно тем, что доступ к идеально точным значениям пичами в речевых и музыкальных данных часто ограничивается аппроксимативными или алгоритмическими оценками. Данная работа нацелена на развитие решения, которое обеспечивает высокую точность, широкую область применения и эффективность в реальном времени. ## Метод SwiftF0 – это нейронная модель, разработанная с учетом требований к высокой точности, эффективности и универсальности. Она обучается на разнообразных данных, включая речь, музыку и синтетически сгенерированные звуки. Использование разнообразных техник аугментации данных позволяет модели достичь высокой общеуниверсальности и подавлять проблему переобучения. Архитектура модели оптимизирована для минимизации количества параметров и ускорения вычислений, чтобы обеспечить реальное время исполнения даже на небольших устройствах. ## Результаты Были проведены многочисленные эксперименты для оценки точности и эффективности SwiftF0. Модель была протестирована на множестве звуковых корпусов, включая речь и музыку, и показала стабильную высокую точность в разных шумовых условиях. Например, на 10 дБ SNR, SwiftF0 достигла гармонического мера (HM) 91.80%, что значительно превосходит соревнования, такие как CREPE. Также был проведен анализ времени выполнения, показав, что SwiftF0 работает примерно 42 раз быстрее CREPE на CPU. ## Значимость SwiftF0 открывает новые возможности для применения моделей оценки пичами в реальном времени, например, в распознавании речи, устройствах с ограниченными ресурсами и виртуальных инструментах. Его высокая точность и эффективность позволяют использовать его в различных сценариях, включая мобильные приложения и ИИ для музыкального создания. Благодаря AudioCommons и SpeechSynth, данная работа также вносит вклад в развитие открытых ресурсов для комьюнити. ## Выводы SwiftF0 достигает нового состояния искусства в монофонической оценке пичами, демонстрируя свою эффективность и универсальность. Будущие работы будут сфокусированы на расширении модели для работы в смешанных акустических условиях и её интеграции в более широкие аудиопроцессинговые пайплайны.

Abstract

Accurate and real-time monophonic pitch estimation in noisy conditions, particularly on resource-constrained devices, remains an open challenge in audio processing. We present \emph{SwiftF0}, a novel, lightweight neural model that sets a new state-of-the-art for monophonic pitch estimation. Through training on diverse speech, music, and synthetic datasets with extensive data augmentation, SwiftF0 achieves robust generalization across acoustic domains while maintaining computational efficiency. SwiftF0 achieves a 91.80\% harmonic mean (HM) at 10 dB SNR, outperforming baselines like CREPE by over 12 percentage points and degrading by only 2.3 points from clean audio. SwiftF0 requires only 95,842 parameters and runs approximately 42x faster than CREPE on CPU, making it ideal for efficient, real-time deployment. To address the critical lack of perfectly accurate ground truth pitch in speech corpora (which typically rely on algorithmic estimators or laryngograph signals), we introduce \emph{SpeechSynth}. This synthetic speech dataset, generated by a phoneme-level TTS model, provides exact, on-demand ground-truth pitch curves, enabling more robust model training and evaluation. Furthermore, we propose a unified metric, combining six complementary performance measures for comprehensive and reliable pitch evaluation, and release an open-source pitch benchmark suite. A live demo of SwiftF0 is available at https://swift-f0.github.io/, the source code at https://github.com/lars76/swift-f0, and the benchmark framework at https://github.com/lars76/pitch-benchmark.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SwiftF0: Fast and Accurate Monophonic Pitch Detection

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Advancing Marine Bioacoustics with Deep Generative Models: A Hybrid Augmentation...

Learning Linearity in Audio Consistency Autoencoders via Implicit Regularization

Schrödinger Bridge Mamba for One-Step Speech Enhancement

Automatic Music Sample Identification with Multi-Track Contrastive Learning

Leveraging Whisper Embeddings for Audio-based Lyrics Matching

Навигация