SHAPoint: Task-Agnostic, Efficient, and Interpretable Point-Based Risk Scoring via Shapley Values

2509.23756v1 cs.LG, cs.AI, I.2.6; J.3; H.4.2 2025-10-01
Авторы:

Tomer D. Meirman, Bracha Shapira, Noa Dagan, Lior S. Rokach

Резюме на русском

## Контекст В статье предлагается решение проблемы оценки риска в клинических приложениях, где необходимо легко понять и проверить точность моделей. Существующие подходы часто требуют многочисленных предварительных преобразований данных и затратного подбора моделей, что затрудняет понимание и применение результатов. Эти проблемы становятся критичными при работе с большими данными и требуют прозрачных и эффективных решений. Авторы ставят цель создать универсальный метод, который бы одновременно обеспечивал высокую точность, интерпретируемость и гибкость. ## Метод Методология SHAPoint основывается на интеграции модели градиентного бустинга на деревьях с фреймворком Shapley Values для получения интерпретаций. Она поддерживает три класса задач: классификацию, регрессию и анализ выживаемости. Архитектура SHAPoint обеспечивает две основные особенности: нативную обработку пропусков в данных и возможность контролировать монотонность в зависимости от признаков. Эти свойства позволяют модели не только делать прогнозы, но и объяснять их на основе весов признаков. Эта модель может быть применена в различных задачах без предварительной подготовки данных. ## Результаты Шесть экспериментов проводились на различных датасетах, охватывающих классификацию, регрессию и задачи выживаемости. На каждом датасете сравнивались результаты SHAPoint с другими методами, включая SHAP, LIME и стандартные модели градиентного бустинга. Результаты показали, что SHAPoint обеспечивает высокую точность с значительно более коротким временем работы. Он также демонстрирует похожие и, в некоторых случаях, лучшие результаты по интерпретируемости в сравнении с другими интерпретируемыми моделями. ## Значимость SHAPoint может применяться в клинических приложениях для риск-стратификации, мониторинга здоровья и диагностики заболеваний. Его гибкость и прозрачность делают его подходящим для решения различных задач. Он предлагает значительные преимущества по сравнению с другими интерпретируемыми моделями, включая улучшенную производительность и уменьшенную зависимость от предварительных преобразований данных. Это делает SHAPoint полезным для ситуаций, когда необходимо быстро принять решения на основе интерпретируемых результатов. ## Выводы SHAPoint представляет собой эффективный и прозрачный фреймворк для получения интерпретаций риска. Он доказал свою эффективность в различных клинических задачах с высокой точностью и быстродействием. Будущие исследования будут сфокусированы на расширении скорости работы SHAPoint и его применении к более сложным клиническим задачам с большим количеством данных.

Abstract

Interpretable risk scores play a vital role in clinical decision support, yet traditional methods for deriving such scores often rely on manual preprocessing, task-specific modeling, and simplified assumptions that limit their flexibility and predictive power. We present SHAPoint, a novel, task-agnostic framework that integrates the predictive accuracy of gradient boosted trees with the interpretability of point-based risk scores. SHAPoint supports classification, regression, and survival tasks, while also inheriting valuable properties from tree-based models, such as native handling of missing data and support for monotonic constraints. Compared to existing frameworks, SHAPoint offers superior flexibility, reduced reliance on manual preprocessing, and faster runtime performance. Empirical results show that SHAPoint produces compact and interpretable scores with predictive performance comparable to state-of-the-art methods, but at a fraction of the runtime, making it a powerful tool for transparent and scalable risk stratification.

Ссылки и действия