SwiftF0: Fast and Accurate Monophonic Pitch Detection
2508.18440v1
cs.SD, cs.AI, cs.LG, eess.AS
2025-08-28
Авторы:
Lars Nieradzik
Резюме на русском
## Контекст
Задача монофонической оценки пичами (F0-estimation) является ключевой в области аудиопроцессинга, особенно при работе в шумных условиях. Несмотря на развитие современных алгоритмов, достижение высокой точности в реальном времени на ресурс-ограниченных устройствах остается вызовом. Эта проблема усложняется дополнительно тем, что доступ к идеально точным значениям пичами в речевых и музыкальных данных часто ограничивается аппроксимативными или алгоритмическими оценками. Данная работа нацелена на развитие решения, которое обеспечивает высокую точность, широкую область применения и эффективность в реальном времени.
## Метод
SwiftF0 – это нейронная модель, разработанная с учетом требований к высокой точности, эффективности и универсальности. Она обучается на разнообразных данных, включая речь, музыку и синтетически сгенерированные звуки. Использование разнообразных техник аугментации данных позволяет модели достичь высокой общеуниверсальности и подавлять проблему переобучения. Архитектура модели оптимизирована для минимизации количества параметров и ускорения вычислений, чтобы обеспечить реальное время исполнения даже на небольших устройствах.
## Результаты
Были проведены многочисленные эксперименты для оценки точности и эффективности SwiftF0. Модель была протестирована на множестве звуковых корпусов, включая речь и музыку, и показала стабильную высокую точность в разных шумовых условиях. Например, на 10 дБ SNR, SwiftF0 достигла гармонического мера (HM) 91.80%, что значительно превосходит соревнования, такие как CREPE. Также был проведен анализ времени выполнения, показав, что SwiftF0 работает примерно 42 раз быстрее CREPE на CPU.
## Значимость
SwiftF0 открывает новые возможности для применения моделей оценки пичами в реальном времени, например, в распознавании речи, устройствах с ограниченными ресурсами и виртуальных инструментах. Его высокая точность и эффективность позволяют использовать его в различных сценариях, включая мобильные приложения и ИИ для музыкального создания. Благодаря AudioCommons и SpeechSynth, данная работа также вносит вклад в развитие открытых ресурсов для комьюнити.
## Выводы
SwiftF0 достигает нового состояния искусства в монофонической оценке пичами, демонстрируя свою эффективность и универсальность. Будущие работы будут сфокусированы на расширении модели для работы в смешанных акустических условиях и её интеграции в более широкие аудиопроцессинговые пайплайны.
Abstract
Accurate and real-time monophonic pitch estimation in noisy conditions,
particularly on resource-constrained devices, remains an open challenge in
audio processing. We present \emph{SwiftF0}, a novel, lightweight neural model
that sets a new state-of-the-art for monophonic pitch estimation. Through
training on diverse speech, music, and synthetic datasets with extensive data
augmentation, SwiftF0 achieves robust generalization across acoustic domains
while maintaining computational efficiency. SwiftF0 achieves a 91.80\% harmonic
mean (HM) at 10 dB SNR, outperforming baselines like CREPE by over 12
percentage points and degrading by only 2.3 points from clean audio. SwiftF0
requires only 95,842 parameters and runs approximately 42x faster than CREPE on
CPU, making it ideal for efficient, real-time deployment. To address the
critical lack of perfectly accurate ground truth pitch in speech corpora (which
typically rely on algorithmic estimators or laryngograph signals), we introduce
\emph{SpeechSynth}. This synthetic speech dataset, generated by a phoneme-level
TTS model, provides exact, on-demand ground-truth pitch curves, enabling more
robust model training and evaluation. Furthermore, we propose a unified metric,
combining six complementary performance measures for comprehensive and reliable
pitch evaluation, and release an open-source pitch benchmark suite. A live demo
of SwiftF0 is available at https://swift-f0.github.io/, the source code at
https://github.com/lars76/swift-f0, and the benchmark framework at
https://github.com/lars76/pitch-benchmark.