Training Flow Matching Models with Reliable Labels via Self-Purification
2509.19091v1
eess.AS, cs.AI, cs.SD
2025-09-25
Авторы:
Hyeongju Kim, Yechan Yu, June Young Yi, Juheon Lee
Резюме на русском
## Контекст
В области глубокого обучения становится все более важной задачей обеспечения качества данных, используемых для обучения моделей. Одна из основных проблем заключается в том, что данные, которыми обучаются модели, часто содержат неточно помеченные примеры. Эти неточности могут быть вызваны неточностью человеческого анализа, ограничениями моделей тегирования и другими источниками шума. Недостаточно чистые данные ведут к ухудшению качества моделей и их неустойчивости. Эта проблема широко распространена во всех сферах, где используется глубокое обучение, от текстового понимания до звукового распознавания. В настоящей работе мы рассматриваем этот вопрос в контексте применения моделей течения (flow-matching) и предлагаем подход, который позволяет автоматически избавляться от неточных данных во время обучения.
## Метод
Мы предлагаем подход, названный Self-Purifying Flow Matching (SPFM), который основывается на принципах формализации моделей течения. SPFM использует модель, которая обучается на данных, для идентификации "шумовых" примеров. В процессе обучения модель сама определяет примеры, которые не соответствуют условиям обучения, и отбрасывает их. Это позволяет избежать зависимости от дополнительных модулей или предварительно обученных моделей. Мы используем гибкий архитектурный подход, который позволяет SPFM "научиться" отбирать данные в течение обучения. Это происходит без явного указания предварительных моделей или внешних источников данных.
## Результаты
Мы проводим эксперименты на различных наборах данных, включая текстовые и звуковые данные. В ходе экспериментов мы показываем, что модель, обученная с использованием SPFM, выдает результаты, которые значительно превосходят результаты моделей, обученных на неподчищенных данных. Мы также проверяем нашу модель на данных с шумом в условиях реального мира (in-the-wild data), таких как TITW (датасет с реальным речевым вводом). Мы показываем, что SPFM позволяет модели сохранять высокую точность, даже когда обучение происходит на шумных данных. Эти результаты подтверждают, что SPFM может автоматически очищать данные во время обучения, гарантируя высокое качество модели в любых обстоятельствах.
## Значимость
Мы видим применение SPFM в различных областях, таких как звуковое распознавание, текстовое понимание и даже машинное обучение с шумовыми данными. Например, SPFM может быть применим для моделей, которые обучаются на звуковых данных в условиях реального мира, таких как речевые команды для смарт-устройств. Мы видим, что SPFM может преодолеть ограничения существующих подходов, обеспечивая более надежные результаты. В будущем мы планируем расширить SPFM на другие типы данных, такие
Abstract
Training datasets are inherently imperfect, often containing mislabeled
samples due to human annotation errors, limitations of tagging models, and
other sources of noise. Such label contamination can significantly degrade the
performance of a trained model. In this work, we introduce Self-Purifying Flow
Matching (SPFM), a principled approach to filtering unreliable data within the
flow-matching framework. SPFM identifies suspicious data using the model itself
during the training process, bypassing the need for pretrained models or
additional modules. Our experiments demonstrate that models trained with SPFM
generate samples that accurately adhere to the specified conditioning, even
when trained on noisy labels. Furthermore, we validate the robustness of SPFM
on the TITW dataset, which consists of in-the-wild speech data, achieving
performance that surpasses existing baselines.
Ссылки и действия
Дополнительные ресурсы: