$ε$-Softmax: Approximating One-Hot Vectors for Mitigating Label Noise
2508.02387v1
cs.LG, cs.CV
2025-08-09
Авторы:
Jialiang Wang, Xiong Zhou, Deming Zhai, Junjun Jiang, Xiangyang Ji, Xianming Liu
Резюме на русском
**Резюме**
Ошибочные метки — это частая проблема при обучении нейросетей, особенно в условиях масштабирования моделей. Ранее предлагались различные устойчивые функции потерь для борьбы с этой проблемой, однако они часто страдают от подавления ошибок или недостаточной точности подготовки моделей. В настоящей работе предлагается метод $\epsilon$-softmax, который аппроксимирует выходы слоя softmax в нейросети одного-горячего вектора с контролируемой точностью $\epsilon$. Это приводит к уменьшению влияния шума в метках на обучение, без потери гибкости в подавлении шума при определенных условиях. Теоретически, показано, что $\epsilon$-softmax обеспечивает ноут-толерантное обучение с оптимальным балансом между устойчивостью и точностью. На практике, сочетание $\epsilon$-softmax с симметричными функциями потерь позволяет достичь лучшего баланса между устойчивостью к шумным меткам и точностью обучения на чистых данных. Эксперименты подтвердили высокую эффективность метода на реальных и синтетических данных с мешаниной в метках.
Abstract
Noisy labels pose a common challenge for training accurate deep neural
networks. To mitigate label noise, prior studies have proposed various robust
loss functions to achieve noise tolerance in the presence of label noise,
particularly symmetric losses. However, they usually suffer from the
underfitting issue due to the overly strict symmetric condition. In this work,
we propose a simple yet effective approach for relaxing the symmetric
condition, namely $\epsilon$-softmax, which simply modifies the outputs of the
softmax layer to approximate one-hot vectors with a controllable error
$\epsilon$. Essentially, $\epsilon$-softmax not only acts as an alternative for
the softmax layer, but also implicitly plays the crucial role in modifying the
loss function. We prove theoretically that $\epsilon$-softmax can achieve
noise-tolerant learning with controllable excess risk bound for almost any loss
function. Recognizing that $\epsilon$-softmax-enhanced losses may slightly
reduce fitting ability on clean datasets, we further incorporate them with one
symmetric loss, thereby achieving a better trade-off between robustness and
effective learning. Extensive experiments demonstrate the superiority of our
method in mitigating synthetic and real-world label noise. The code is
available at https://github.com/cswjl/eps-softmax.
Ссылки и действия
Дополнительные ресурсы: