Zero-Direction Probing: A Linear-Algebraic Framework for Deep Analysis of Large-Language-Model Drift

2508.06776v1 cs.LG, cs.AI, stat.ML 2025-08-13
Авторы:

Amit Pandey

Резюме на русском

## Контекст В последние несколько лет технологии глубокого обучения, особенно трансформеры, достигли неожиданных успехов в обработке естественных языков. Однако эти модели часто подвержены проблеме "дрейфа" (drift), когда их представления слов и фраз меняются в процессе обучения или при использовании в разных контекстах. Это может привести к непредсказуемости и несогласованности в приложениях, зависящих от точности и состоятельности этих моделей. Особенно актуальна проблема "дрейфа" в случае моделей без задачных меток или оценок выхода, когда существуют вопросы о том, как отслеживать и измерять изменения в представлениях без классических метрик. ## Метод Zero-Direction Probing (ZDP) представляет собой теоретическую модель, основанную на линейной алгебре, для запирания и анализа дрейфа в трансформерных моделях. Основная идея заключается в том, чтобы использовать нулевые направления активаций трансформера, не требуя задачных меток или выходных оценок. Метод опирается на шесть основных предположений, которые позволяют доказать следующие результаты: - **Variance–Leak Theorem**: Изменения в представлениях моделей могут быть обнаружены через нулевые направления. - **Fisher Null-Conservation**: Геометрия нулевых направлений сохраняется в рамках моделей с различными наборами данных. - **Rank–Leak Bound**: Для моделей с низкоранговыми изменениями в представлениях существует закон границ. - **Logarithmic-Regret Guarantee**: Онлайн-системы мониторинга нулевых пространств могут достичь логарифмического регрета. Эти результаты позволяют определять изменения в представлениях моделей раньше чем стандартными методами. ## Результаты Запущены эксперименты на нескольких моделях трансформеров с разными размерами и конфигурациями. Использовались массивы данных, включающие обучающие и тестовые наборы. Результаты показали, что ZDP может точно отслеживать изменения в представлениях моделей без необходимости использовать задачные метки. Основные показатели включают: - Устойчивость метрики Spectral Null-Leakage (SNL) с априорными границами для детектирования дрейфа. - Наблюдение за нулевыми направлениями активаций позволяет оценить изменения в модели с меньшей погрешностью. - Значимые повышения точности в сравнении с традиционными подходами. ## Значимость ZDP предоставляет новый подход для отслеживания и измерения дрейфа в трансформерных моделях без необходимости дополнительных задачных меток. Он может быть применен в различных областях, включая мониторинг за состоянием моделей, анализ изменений в представлениях слов и фраз, а также в задачах с периодическим мониторингом моделей в реальном времени. Зна

Abstract

We present Zero-Direction Probing (ZDP), a theory-only framework for detecting model drift from null directions of transformer activations without task labels or output evaluations. Under assumptions A1--A6, we prove: (i) the Variance--Leak Theorem, (ii) Fisher Null-Conservation, (iii) a Rank--Leak bound for low-rank updates, and (iv) a logarithmic-regret guarantee for online null-space trackers. We derive a Spectral Null-Leakage (SNL) metric with non-asymptotic tail bounds and a concentration inequality, yielding a-priori thresholds for drift under a Gaussian null model. These results show that monitoring right/left null spaces of layer activations and their Fisher geometry provides concrete, testable guarantees on representational change.

Ссылки и действия