End-Cut Preference in Survival Trees

2509.18477v1 stat.ML, cs.LG, 62N05, 68T07 2025-09-25
Авторы:

Xiaogang Su

Резюме на русском

#### Контекст В области деревьев принятия решений (например, CART) возникает проблема end-cut preference (ECP), связанная с привередливостью к разделяющим точкам вблизи краев диапазона признака. Эта проблема приводит к высокой несбалансированности и биазу разделений, скрытию слабых сигналов, а также к нестабильности и трудности в интерпретации деревьев. В survival trees ECP может возникать при использовании жадного поиска для оптимального выбора границ, максимизирующего лог-ранг-статистику. Эта проблема становится критичной при анализе данных с большим количеством фич и высокой неоднородностью в данных. Для решения этой проблемы предлагается использовать сглаживающий подход, обеспечивающий более гладкий и нейтральный выбор точек разделения. #### Метод Для того чтобы устранить проблему ECP, предлагается использовать сглаживающий подход, который заменяет жесткую индикаторную функцию на сглаженную сигмоидную функцию. Это позволит сгладить жесткие пороги и уменьшить влияние ECP на деревья. Архитектура решения построена на основе лог-ранг-статистики, но вместо жесткого разделения применяется гладкая функция. Такой подход позволяет устранить жесткие точки разделения и сделать дерево более стабильным и точным. Этот метод можно расширить на различные виды данных, включая survival trees. #### Результаты В экспериментах было проверено, что SSS (smooth sigmoid surrogate) позволяет значительно уменьшить ECP в survival trees. Для этого проведены эксперименты на синтетических данных и реальных данных, где показано, что SSS повышает точность и снижает влияние ECP. Был проведен анализ того, что SSS позволяет уменьшить нестабильность деревьев и улучшить логичность выбора разделяющих точек. Результаты показывают, что SSS эффективно снижает биазы, которые возникают при жестком разделении, и повышает общую точность работы модели. #### Значимость SSS может быть применен в различных областях, где используются деревья принятия решений, в том числе в survival analysis. Этот подход позволяет снизить неточности, связанные с ECP, и улучшить общую качественную оценку деревьев. Благодаря этому, модель будет работать более стабильно и интерпретируемо. Это может быть полезно в медицинских исследованиях, финансовом мониторинге и других областях, где важно максимизировать точность и логичность решений. #### Выводы В ходе исследования было показано, что SSS эффективно снимает проблему ECP в survival trees, улучшая качество и стабильность модели. Будущие исследования будут ориентированы на расширение этого подхода для различных типов деревьев и применения в различных реальных задачах. Особое внимание будет уделено улучшению сглаживающи

Abstract

The end-cut preference (ECP) problem, referring to the tendency to favor split points near the boundaries of a feature's range, is a well-known issue in CART (Breiman et al., 1984). ECP may induce highly imbalanced and biased splits, obscure weak signals, and lead to tree structures that are both unstable and difficult to interpret. For survival trees, we show that ECP also arises when using greedy search to select the optimal cutoff point by maximizing the log-rank test statistic. To address this issue, we propose a smooth sigmoid surrogate (SSS) approach, in which the hard-threshold indicator function is replaced by a smooth sigmoid function. We further demonstrate, both theoretically and through numerical illustrations, that SSS provides an effective remedy for mitigating or avoiding ECP.

Ссылки и действия