Similarity-Distance-Magnitude Activations
2509.12760v1
cs.LG, cs.CL
2025-09-18
Авторы:
Allen Schmaltz
Резюме на русском
## Контекст
Базовая формула softmax, используемая в нейронных сетях, не всегда обеспечивает достаточную точность в сложных сценариях, в том числе при высокой ковариатной смещенности и присутствии входов за пределами тренировочного распределения. Эти проблемы снижают устойчивость моделей и затрудняют их интерпретируемость. Необходимость в новых формулах, обеспечивающих более высокую устойчивость и понятность, лежит в основе этого исследования.
## Метод
Новая формула SDM (Similarity-Distance-Magnitude) активации строится на основе стандартной softmax, но добавляет три составляющих:
1. **Similarity Awareness** (создание связи с правильно классифицированными объектами во время обучения).
2. **Distance-to-Training-Distribution Awareness** (учет расстояния от входных данных до целевого распределения).
3. **Magnitude Awareness** (основываясь на границах решений).
Эти компоненты объединены в единую формулу, которая улучшает стабильность сетей и позволяет проанализировать их решения с помощью плотного соответствия примерам.
## Результаты
Используя SDM в качестве последней слоя активации для языковых моделей, авторы проводили эксперименты, сравнивая результаты с стандартным softmax. Они показали, что SDM:
- Уменьшает чувствительность к ковариатным сдвигам.
- Улучшает интерпретируемость решений, используя плотные соответствия.
- Легко настраивается на задачи с высоким уровнем подробности.
## Значимость
SDM может быть применена в областях, где необходима высокая точность при высоких затухающих ковариатных сдвигах (например, медицинские данные или высокомасштабные модели для текстов). Она обеспечивает лучшую устойчивость и ясность решений, что повышает ее привлекательность для специалистов в области машинного обучения.
## Выводы
SDM является улучшенной формулой активации, которая может заменить softmax в моделях нейронных сетей. Она показала значительные преимущества в области выбора классов и оценки распределений. Дальнейшие исследования будут сконцентрированы на оптимизации SDM для прикладных задач и ее интеграции с более сложными моделями.
Abstract
We introduce a more robust and interpretable formulation of the standard
softmax activation function commonly used with neural networks by adding
Similarity (i.e., correctly predicted depth-matches into training) awareness
and Distance-to-training-distribution awareness to the existing output
Magnitude (i.e., decision-boundary) awareness. When used as the final-layer
activation with language models, the resulting Similarity-Distance-Magnitude
(SDM) activation function is more robust than the softmax function to
co-variate shifts and out-of-distribution inputs in high-probability regions,
and provides interpretability-by-exemplar via dense matching. Complementing the
prediction-conditional estimates, the SDM activation enables a partitioning of
the class-wise empirical CDFs to guard against low class-wise recall among
selective classifications. These properties make it preferable for selective
classification, even when considering post-hoc calibration methods over the
softmax.
Ссылки и действия
Дополнительные ресурсы: