Efficient & Correct Predictive Equivalence for Decision Trees

2509.17774v1 cs.AI, cs.LG, cs.LO 2025-09-24

Авторы:

Joao Marques-Silva, Alexey Ignatiev

Резюме на русском

## Контекст Одной из актуальных проблем в области машинного обучения является анализ и эффективное использование моделей, таких как деревья решений (далее DT). Эти модели широко применяются для задач классификации и регрессии. Одна из важных проблем, связанных с DT, — это определение их прозрачности и эффективности. Одним из ключевых понятий является **predictive equivalence** (эквивалентность классификации), которая означает, что два DT могут давать одинаковые предсказания для всех возможных входных данных. Эта эквивалентность важна для проверки моделей и понимания их внутренней структуры. Несмотря на важность этой проблемы, существуют проблемы с точностью и скоростью поиска таких эквивалентных моделей. Одно из значимых исследований в этой области — работа McTavish et al., которая предлагает метод Quine-McCluskey (QM) для решения этой задачи. Однако эта подход имеет существенные ограничения, включая возможную экспоненциальную сложность и возможность производить неточные результаты. В данной работе предлагается новый подход к решению проблемы эквивалентности классификации DT, который адресует ограничения существующих методов. ## Метод Чтобы оптимизировать процесс поиска эквивалентных DT, рассматривается альтернативная модель, основанная на представлении деревьев через минимальное DNF (дизъюнктивное нормальное выражение). Это представление позволяет эффективно сравнивать два DT на эквивалентность, так как DNF-формы могут быть быстро сравниваться в математическом смысле. Технический подход заключается в следующем: 1. Каждая ветвь DT представляется в виде булевой формулы. 2. Эти формулы комбинируются в DNF-форму, которая соответствует логике работы DT. 3. Для того чтобы проверить эквивалентность двух DT, их DNF-формулы сравниваются на равенство. Этот подход позволяет избежать использования QM-метода, который может быть экспоненциально неэффективным. Вместо этого используется более структурированная и гибкая модель, позволяющая решать задачу быстрее и более точно. ## Результаты Для проверки эффективности нового подхода проведены эксперименты на различных наборах данных и моделях DT. Опыт показал, что: 1. Новый подход работает на порядок быстрее, чем алгоритм QM, особенно при работе с большими DT. 2. Производительность нового подхода не зависит от сложности входных DT, так как он основывается на логических представлениях, а не на вычислениях по всем возможным входным данным. 3. Сравнительные эксперименты показали, что новый подход дает точные результаты, в то время как QM может производить неточности. Например, при использовании набо

Abstract

The Rashomon set of decision trees (DTs) finds importance uses. Recent work showed that DTs computing the same classification function, i.e. predictive equivalent DTs, can represent a significant fraction of the Rashomon set. Such redundancy is undesirable. For example, feature importance based on the Rashomon set becomes inaccurate due the existence of predictive equivalent DTs, i.e. DTs with the same prediction for every possible input. In recent work, McTavish et al. proposed solutions for several computational problems related with DTs, including that of deciding predictive equivalent DTs. This approach, which this paper refers to as MBDSR, consists of applying the well-known method of Quine-McCluskey (QM) for obtaining minimum-size DNF (disjunctive normal form) representations of DTs, which are then used for comparing DTs for predictive equivalence. Furthermore, the minimum-size DNF representation was also applied to computing explanations for the predictions made by DTs, and to finding predictions in the presence of missing data. However, the problem of formula minimization is hard for the second level of the polynomial hierarchy, and the QM method may exhibit worst-case exponential running time and space. This paper first demonstrates that there exist decision trees that trigger the worst-case exponential running time and space of the QM method. Second, the paper shows that the MBDSR approach can produce incorrect results for the problem of deciding predictive equivalence. Third, the paper shows that any of the problems to which the minimum-size DNF representation has been applied to can in fact be solved in polynomial time, in the size of the DT. The experiments confirm that, for DTs for which the the worst-case of the QM method is triggered, the algorithms proposed in this paper are orders of magnitude faster than the ones proposed by McTavish et al.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Efficient & Correct Predictive Equivalence for Decision Trees

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Efficient & Correct Predictive Equivalence for Decision Trees

Autonomous Code Evolution Meets NP-Completeness

SATQuest: A Verifier for Logical Reasoning Evaluation and Reinforcement Fine-Tun...

P2C: Path to Counterfactuals

MC3G: Model Agnostic Causally Constrained Counterfactual Generation

Навигация