Training Flow Matching Models with Reliable Labels via Self-Purification

2509.19091v1 eess.AS, cs.AI, cs.SD 2025-09-25

Авторы:

Hyeongju Kim, Yechan Yu, June Young Yi, Juheon Lee

Резюме на русском

## Контекст В области глубокого обучения становится все более важной задачей обеспечения качества данных, используемых для обучения моделей. Одна из основных проблем заключается в том, что данные, которыми обучаются модели, часто содержат неточно помеченные примеры. Эти неточности могут быть вызваны неточностью человеческого анализа, ограничениями моделей тегирования и другими источниками шума. Недостаточно чистые данные ведут к ухудшению качества моделей и их неустойчивости. Эта проблема широко распространена во всех сферах, где используется глубокое обучение, от текстового понимания до звукового распознавания. В настоящей работе мы рассматриваем этот вопрос в контексте применения моделей течения (flow-matching) и предлагаем подход, который позволяет автоматически избавляться от неточных данных во время обучения. ## Метод Мы предлагаем подход, названный Self-Purifying Flow Matching (SPFM), который основывается на принципах формализации моделей течения. SPFM использует модель, которая обучается на данных, для идентификации "шумовых" примеров. В процессе обучения модель сама определяет примеры, которые не соответствуют условиям обучения, и отбрасывает их. Это позволяет избежать зависимости от дополнительных модулей или предварительно обученных моделей. Мы используем гибкий архитектурный подход, который позволяет SPFM "научиться" отбирать данные в течение обучения. Это происходит без явного указания предварительных моделей или внешних источников данных. ## Результаты Мы проводим эксперименты на различных наборах данных, включая текстовые и звуковые данные. В ходе экспериментов мы показываем, что модель, обученная с использованием SPFM, выдает результаты, которые значительно превосходят результаты моделей, обученных на неподчищенных данных. Мы также проверяем нашу модель на данных с шумом в условиях реального мира (in-the-wild data), таких как TITW (датасет с реальным речевым вводом). Мы показываем, что SPFM позволяет модели сохранять высокую точность, даже когда обучение происходит на шумных данных. Эти результаты подтверждают, что SPFM может автоматически очищать данные во время обучения, гарантируя высокое качество модели в любых обстоятельствах. ## Значимость Мы видим применение SPFM в различных областях, таких как звуковое распознавание, текстовое понимание и даже машинное обучение с шумовыми данными. Например, SPFM может быть применим для моделей, которые обучаются на звуковых данных в условиях реального мира, таких как речевые команды для смарт-устройств. Мы видим, что SPFM может преодолеть ограничения существующих подходов, обеспечивая более надежные результаты. В будущем мы планируем расширить SPFM на другие типы данных, такие

Abstract

Training datasets are inherently imperfect, often containing mislabeled samples due to human annotation errors, limitations of tagging models, and other sources of noise. Such label contamination can significantly degrade the performance of a trained model. In this work, we introduce Self-Purifying Flow Matching (SPFM), a principled approach to filtering unreliable data within the flow-matching framework. SPFM identifies suspicious data using the model itself during the training process, bypassing the need for pretrained models or additional modules. Our experiments demonstrate that models trained with SPFM generate samples that accurately adhere to the specified conditioning, even when trained on noisy labels. Furthermore, we validate the robustness of SPFM on the TITW dataset, which consists of in-the-wild speech data, achieving performance that surpasses existing baselines.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Training Flow Matching Models with Reliable Labels via Self-Purification

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

BERT-APC: A Reference-free Framework for Automatic Pitch Correction via Musical ...

EchoFake: A Replay-Aware Dataset for Practical Speech Deepfake Detection

DroneAudioset: An Audio Dataset for Drone-based Search and Rescue

Unsupervised Speech Enhancement using Data-defined Priors

Data-Efficient ASR Personalization for Non-Normative Speech Using an Uncertainty...

Навигация