Similarity-Distance-Magnitude Activations

2509.12760v1 cs.LG, cs.CL 2025-09-18
Авторы:

Allen Schmaltz

Резюме на русском

## Контекст Базовая формула softmax, используемая в нейронных сетях, не всегда обеспечивает достаточную точность в сложных сценариях, в том числе при высокой ковариатной смещенности и присутствии входов за пределами тренировочного распределения. Эти проблемы снижают устойчивость моделей и затрудняют их интерпретируемость. Необходимость в новых формулах, обеспечивающих более высокую устойчивость и понятность, лежит в основе этого исследования. ## Метод Новая формула SDM (Similarity-Distance-Magnitude) активации строится на основе стандартной softmax, но добавляет три составляющих: 1. **Similarity Awareness** (создание связи с правильно классифицированными объектами во время обучения). 2. **Distance-to-Training-Distribution Awareness** (учет расстояния от входных данных до целевого распределения). 3. **Magnitude Awareness** (основываясь на границах решений). Эти компоненты объединены в единую формулу, которая улучшает стабильность сетей и позволяет проанализировать их решения с помощью плотного соответствия примерам. ## Результаты Используя SDM в качестве последней слоя активации для языковых моделей, авторы проводили эксперименты, сравнивая результаты с стандартным softmax. Они показали, что SDM: - Уменьшает чувствительность к ковариатным сдвигам. - Улучшает интерпретируемость решений, используя плотные соответствия. - Легко настраивается на задачи с высоким уровнем подробности. ## Значимость SDM может быть применена в областях, где необходима высокая точность при высоких затухающих ковариатных сдвигах (например, медицинские данные или высокомасштабные модели для текстов). Она обеспечивает лучшую устойчивость и ясность решений, что повышает ее привлекательность для специалистов в области машинного обучения. ## Выводы SDM является улучшенной формулой активации, которая может заменить softmax в моделях нейронных сетей. Она показала значительные преимущества в области выбора классов и оценки распределений. Дальнейшие исследования будут сконцентрированы на оптимизации SDM для прикладных задач и ее интеграции с более сложными моделями.

Abstract

We introduce a more robust and interpretable formulation of the standard softmax activation function commonly used with neural networks by adding Similarity (i.e., correctly predicted depth-matches into training) awareness and Distance-to-training-distribution awareness to the existing output Magnitude (i.e., decision-boundary) awareness. When used as the final-layer activation with language models, the resulting Similarity-Distance-Magnitude (SDM) activation function is more robust than the softmax function to co-variate shifts and out-of-distribution inputs in high-probability regions, and provides interpretability-by-exemplar via dense matching. Complementing the prediction-conditional estimates, the SDM activation enables a partitioning of the class-wise empirical CDFs to guard against low class-wise recall among selective classifications. These properties make it preferable for selective classification, even when considering post-hoc calibration methods over the softmax.

Ссылки и действия