## Контекст
Одной из актуальных проблем в области машинного обучения является анализ и эффективное использование моделей, таких как деревья решений (далее DT). Эти модели широко применяются для задач классификации и регрессии. Одна из важных проблем, связанных с DT, — это определение их прозрачности и эффективности. Одним из ключевых понятий является **predictive equivalence** (эквивалентность классификации), которая означает, что два DT могут давать одинаковые предсказания для всех возможных входных данных. Эта эквивалентность важна для проверки моделей и понимания их внутренней структуры.
Несмотря на важность этой проблемы, существуют проблемы с точностью и скоростью поиска таких эквивалентных моделей. Одно из значимых исследований в этой области — работа McTavish et al., которая предлагает метод Quine-McCluskey (QM) для решения этой задачи. Однако эта подход имеет существенные ограничения, включая возможную экспоненциальную сложность и возможность производить неточные результаты.
В данной работе предлагается новый подход к решению проблемы эквивалентности классификации DT, который адресует ограничения существующих методов.
## Метод
Чтобы оптимизировать процесс поиска эквивалентных DT, рассматривается альтернативная модель, основанная на представлении деревьев через минимальное DNF (дизъюнктивное нормальное выражение). Это представление позволяет эффективно сравнивать два DT на эквивалентность, так как DNF-формы могут быть быстро сравниваться в математическом смысле.
Технический подход заключается в следующем:
1. Каждая ветвь DT представляется в виде булевой формулы.
2. Эти формулы комбинируются в DNF-форму, которая соответствует логике работы DT.
3. Для того чтобы проверить эквивалентность двух DT, их DNF-формулы сравниваются на равенство.
Этот подход позволяет избежать использования QM-метода, который может быть экспоненциально неэффективным. Вместо этого используется более структурированная и гибкая модель, позволяющая решать задачу быстрее и более точно.
## Результаты
Для проверки эффективности нового подхода проведены эксперименты на различных наборах данных и моделях DT. Опыт показал, что:
1. Новый подход работает на порядок быстрее, чем алгоритм QM, особенно при работе с большими DT.
2. Производительность нового подхода не зависит от сложности входных DT, так как он основывается на логических представлениях, а не на вычислениях по всем возможным входным данным.
3. Сравнительные эксперименты показали, что новый подход дает точные результаты, в то время как QM может производить неточности.
Например, при использовании набо