Efficient & Correct Predictive Equivalence for Decision Trees

2509.17774v2 cs.AI, cs.LG, cs.LO 2025-09-26
Авторы:

Joao Marques-Silva, Alexey Ignatiev

Резюме на русском

## Контекст Область исследования, связанная с разработкой и анализом моделей деревьев решений (decision trees, DT), широко применяется в машинном обучении, анализе данных и технологиях принятия решений. Одной из ключевых проблем в этой области является сокращение необходимости и уменьшение размера DT, а также гарантирование поддержания точности исходных моделей. Одним из наиболее важных понятий в этой области является понятие **predictive equivalence** (предиктивной эквивалентности), которое определяет, являются ли две DT эквивалетными в том смысле, что обе дают идентичные предсказания для любого возможного входного значения. Однако рассматриваемый вопрос становится сложнее из-за того, что многие DT могут быть представлены в множестве значительного размера, что может привести к высокой необходимости выявления подобных эквивалентных моделей. Таким образом, необходимо выявить эффективные методы для решения этой проблемы. ## Метод Для решения проблемы предиктивной эквивалентности DT используется метод **Quine-McCluskey (QM)**, который предназначен для получения минимального представления в виде дизъюнктивной нормальной формы (DNF). Было предложено применять этот метод для сравнения DT, поиска минимальных представлений, а также для обработки данных с пропусками. Однако, необходимо учитывать, что метод QM является экспоненциально сложным в худшем случае, что может привести к увеличению времени выполнения и сложности памяти. Для улучшения эффективности применяется развитие новых подходов, которые позволяют решать задачи поиска предиктивной эквивалентности быстрее и более точно, чем в случае применения QM. ## Результаты Проведенные эксперименты показали, что использование QM в качестве основы для решения проблемы предиктивной эквивалентности может привести к проблемам, таким как высокая сложность вычислений и возможность неточности результатов. Однако новые методы, предложенные в этой работе, позволяют достичь значительного ускорения выполнения вычислений, особенно при работе с DT, которые имеют сложные структуры. Эти новые методы позволяют эффективно решать задачи, такие как выявление предиктивной эквивалентности, вычисление экспертных рекомендаций и работа с данными с пропусками, существенно сократив время выполнения в сравнении с QM. ## Значимость Результаты этого исследования имеют важное применение в многих областях, таких как классификация данных, выявление причинных связей в данных, а также в области обработки данных с пропусками. Благодаря повышенной эффективности новых методов, можно значительно сократить время работы и повысить точность решений в приложениях, где используются DT. Кроме того, эти результаты могут быть исполь

Abstract

The Rashomon set of decision trees (DTs) finds importance uses. Recent work showed that DTs computing the same classification function, i.e. predictive equivalent DTs, can represent a significant fraction of the Rashomon set. Such redundancy is undesirable. For example, feature importance based on the Rashomon set becomes inaccurate due the existence of predictive equivalent DTs, i.e. DTs with the same prediction for every possible input. In recent work, McTavish et al. proposed solutions for several computational problems related with DTs, including that of deciding predictive equivalent DTs. This approach, which this paper refers to as MBDSR, consists of applying the well-known method of Quine-McCluskey (QM) for obtaining minimum-size DNF (disjunctive normal form) representations of DTs, which are then used for comparing DTs for predictive equivalence. Furthermore, the minimum-size DNF representation was also applied to computing explanations for the predictions made by DTs, and to finding predictions in the presence of missing data. However, the problem of formula minimization is hard for the second level of the polynomial hierarchy, and the QM method may exhibit worst-case exponential running time and space. This paper first demonstrates that there exist decision trees that trigger the worst-case exponential running time and space of the QM method. Second, the paper shows that, depending on the QM method implementation, the MBDSR approach can produce incorrect results for the problem of deciding predictive equivalence. Third, the paper shows that any of the problems to which the smallest DNF representation has been applied to can be solved in polynomial time, in the size of the DT. The experiments confirm that, for DTs for which the worst-case of the QM method is triggered, the algorithms proposed in this paper are orders of magnitude faster than the ones proposed by McTavish et al.

Ссылки и действия

Связанные статьи

Efficient & Correct Predictive Equivalence for Decision Trees

## Контекст Одной из актуальных проблем в области машинного обучения является анализ и эффективное использование моделе...

2025-09-24

Autonomous Code Evolution Meets NP-Completeness

willingness to pay for a utility bill in the form of cryptocurrencies. --- ## Контекст В последние годы системы управ...

2025-09-11

SATQuest: A Verifier for Logical Reasoning Evaluation and Reinforcement Fine-Tun...

## Контекст Настоящие построители суть вопроса (LLMs) показали впечатляющие возможности в области общего логического рас...

2025-09-05

P2C: Path to Counterfactuals

## Контекст Машинное обучение вступает важное значение в решении решений в высокорисковых сферах, таких как финансы, пра...

2025-08-29

MC3G: Model Agnostic Causally Constrained Counterfactual Generation

```## Контекст Машинное обучение (ML) взаимодействует с огромным количеством данных и используется для принятия решений ...

2025-08-27