Understanding Data Influence with Differential Approximation

2508.14648v1 cs.LG, cs.CV 2025-08-22

Авторы:

Haoru Tan, Sitong Wu, Xiuzhe Wu, Wang Wang, Bo Zhao, Zeke Xie, Gui-Song Xia, Xiaojuan Qi

Резюме на русском

## Контекст Обработка данных является ключевым фактором в развитии искусственного интеллекта. Аккуратное измерение и анализ данных необходимы для эффективного обучения моделей и повышения качества их применения. Однако существующие инструменты для анализа данных часто недостаточно точны и становятся неэффективными в некоторых сценариях. Например, многие из них исходят из некорректных предположений, таких как, что функция потерь в нейронных сетях является конвексной. Такая проблема затрудняет реализацию этих методов на практике. Мы предлагаем новую модель Diff-In для точного оценки влияния данных, которая устраняет эти ограничения и демонстрирует высокую точность и масштабируемость. ## Метод Мы предлагаем новую формулу для аппроксимации влияния данных, которая основывается на суммировании различий влияния между соседними шагами обучения нейронной сети. Этот подход, мы назвали Diff-In. На каждом шаге обучения мы формулируем влияние каждого данного примера как сумма всех изменений его влияния на модель. Чтобы повысить точность аппроксимации, мы применяем второй порядок аппроксимации, который учитывает вторичные зависимости в данных. Несмотря на то, что метод Diff-In является второго порядка, его вычислительная сложность остается примерно такой же, как у методов первого порядка, что делает его эффективным и масштабируемым. Для вычисления второго порядка мы используем недорогую аппроксимацию, основанную на разностях первых производных. ## Результаты Мы проверяли Diff-In на нескольких широко используемых наборах данных и задачах, связанных с обработкой данных. Наши теоретические исследования показали, что Diff-In оказывается более точным в сравнении с другими методами оценки влияния данных. Эксперименты показали, что Diff-In выполняет оценку влияния данных быстрее и точнее, чем существующие методы, даже при работе с очень большими наборами данных. Например, в задаче удаления данных из обучающего набора, метод Diff-In демонстрирует более точную оценку влияния данных, чем существующие подходы. Также, нами проверено, что Diff-In может масштабироваться до миллионов данных, что делает его применимым в задачах визуального и варьирующегося анализа данных. ## Значимость Метод Diff-In может быть применен в различных областях, где важно точно оценить влияние данных, например в принятии решений в области машинного обучения, в обработке данных видео и текста. Он позволяет улучшить качество и эффективность обучения моделей, а также повысить способность обработки больших наборов данных. Это может привести к значительным экономиям в ресурсах и повышению качества моделей, используемых в ре

Abstract

Data plays a pivotal role in the groundbreaking advancements in artificial intelligence. The quantitative analysis of data significantly contributes to model training, enhancing both the efficiency and quality of data utilization. However, existing data analysis tools often lag in accuracy. For instance, many of these tools even assume that the loss function of neural networks is convex. These limitations make it challenging to implement current methods effectively. In this paper, we introduce a new formulation to approximate a sample's influence by accumulating the differences in influence between consecutive learning steps, which we term Diff-In. Specifically, we formulate the sample-wise influence as the cumulative sum of its changes/differences across successive training iterations. By employing second-order approximations, we approximate these difference terms with high accuracy while eliminating the need for model convexity required by existing methods. Despite being a second-order method, Diff-In maintains computational complexity comparable to that of first-order methods and remains scalable. This efficiency is achieved by computing the product of the Hessian and gradient, which can be efficiently approximated using finite differences of first-order gradients. We assess the approximation accuracy of Diff-In both theoretically and empirically. Our theoretical analysis demonstrates that Diff-In achieves significantly lower approximation error compared to existing influence estimators. Extensive experiments further confirm its superior performance across multiple benchmark datasets in three data-centric tasks: data cleaning, data deletion, and coreset selection. Notably, our experiments on data pruning for large-scale vision-language pre-training show that Diff-In can scale to millions of data points and outperforms strong baselines.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Understanding Data Influence with Differential Approximation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Studying Various Activation Functions and Non-IID Data for Machine Learning Mode...

Feature Engineering vs. Deep Learning for Automated Coin Grading: A Comparative ...

Rethinking Decoupled Knowledge Distillation: A Predictive Distribution Perspecti...

Value Gradient Guidance for Flow Matching Alignment

Efficient Training of Diffusion Mixture-of-Experts Models: A Practical Recipe

Навигация