Integrated Influence: Data Attribution with Baseline

2508.05089v1 cs.LG, cs.AI 2025-08-09
Авторы:

Linxiao Yang, Xinyu Gu, Liang Sun

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее времение вопросы интерпретируемости и прозрачности моделей машинного обучения приобрели особую актуальность. Одним из ключевых направлений в этой области является **data attribution**, то есть определение влияния отдельных обучающих примеров на результаты модели. Это позволяет лучше понять, как модель принимает решения, и повысить её прозрачность. Однако существующие методы data attribution сталкиваются с некоторыми проблемами. Первая проблема — это **локализованность объяснений**. Многие методы, основанные на методе leave-one-out (LOO), анализируют влияние только одного обучающего примера, игнорируя коллективное влияние всего набора данных. Это ограничивает глубину и точность объяснений, так как реальное влияние обучающих данных часто является результатом взаимодействия множества примеров. Вторая проблема — **отсутствие базового уровня (baseline)** во многих методах. Базовый уровень позволяет сравнивать текущий набор данных с каким-либо начальным состоянием, что может быть полезно для построения контрфактуальных объяснений. Например, без базового уровня невозможно оценить, как изменение набора данных может повлиять на результат модели. Наконец, многие существующие методы недостаточно гибкие и не позволяют эффективно идентифицировать проблемы, такие как ошибочно отмеченные примеры. Это ограничивает их практическую применимость. Таким образом, требуется новый подход, который бы учитывал коллективное влияние данных и предоставлял более гибкие возможности для объяснений. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается новый метод под названием **Integrated Influence**, который решает проблемы существующих подходов. Основная идея заключается в том, чтобы определить **базовый набор данных** и провести процесс **дегенерации данных**, при котором текущий набор данных переходит к этому базовому состоянию. Во время этого процесса вычисляется влияние каждого обучающего примера. Технически, метод основан на **теоретическом рамках**, который позволяет формализовать процесс дегенерации данных. Базовый набор данных определяется как начальное состояние, к которому текущий набор данных должен сходиться. Процесс дегенерации описывается как последовательное удаление или изменение обучающих примеров, при котором вычисляется их влияние на модель. Кроме того, метод **Integrated Influence** показывает, что некоторые существующие методы, такие как **influence functions**, могут быть рассмотрены как специальные случаи этого подхода. Это подчеркивает теоретическую значимость и гибкость предлагаемого метода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗЫЛЬТАТЫ Чтобы провести оценку метода, были проведены эксперименты на различных наборах данных. Авторы сравнили **Integrated Influence** с другими популярными методами data attribution, такими как LOO-based методы и influence functions. В экспериментах было показано, что **Integrated Influence** дает более **надёжные и точные объяснения** по сравнению с другими методами. Он лучше справляется с задачей идентификации ошибочно отмеченных примеров и позволяет получить более информативные объяснения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в различных областях, где необходима прозрачность и интерпретируемость моделей машинного обучения. Он может быть использован для **обнаружения ошибочно отмеченных данных**, что критически важно для повышения качества моделей. Кроме того, **Integrated Influence** может быть применен в задачах **контрфактуального объяснения**, которые позволяют понять, как изменения в данных могут повлиять на результат модели. Преимущества метода заключаются в его **гибкости** и **надёжности**. Он позволяет получить более глубокие и точные объяснения, что может быть полезно в таких областях, как медицина, финансы и автономные транспортные системы, где прозрачность решений критически важна. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был предложен новый метод **Integrated Influence**, который решает проблемы существующих подходов к data attribution. Он позволяет учитывать коллективное влияние данных и предоставляет более гибкие возможности для объяснений. Экспериментальные результаты показали, что этот метод является более надёжным и точным по сравнению с другими подходами. В будущем можно рассмотреть дальнейшее развитие этого метода, в том числе его применение к более сложным моделям и наборам данных. Также можно исследовать возможности интеграции этого метода в различные практические приложения, где прозрачность моделей играет ключевую роль.

Abstract

As an effective approach to quantify how training samples influence test sample, data attribution is crucial for understanding data and model and further enhance the transparency of machine learning models. We find that prevailing data attribution methods based on leave-one-out (LOO) strategy suffer from the local-based explanation, as these LOO-based methods only perturb a single training sample, and overlook the collective influence in the training set. On the other hand, the lack of baseline in many data attribution methods reduces the flexibility of the explanation, e.g., failing to provide counterfactual explanations. In this paper, we propose Integrated Influence, a novel data attribution method that incorporates a baseline approach. Our method defines a baseline dataset, follows a data degeneration process to transition the current dataset to the baseline, and accumulates the influence of each sample throughout this process. We provide a solid theoretical framework for our method, and further demonstrate that popular methods, such as influence functions, can be viewed as special cases of our approach. Experimental results show that Integrated Influence generates more reliable data attributions compared to existing methods in both data attribution task and mislablled example identification task.

Ссылки и действия