Interpretable Network-assisted Random Forest+

2509.15611v1 stat.ML, cs.LG, stat.ME 2025-09-23
Авторы:

Tiffany M. Tang, Elizaveta Levina, Ji Zhu

Резюме на русском

## Контекст В современной машинном обучении широко распространено предположение о независимости обучающих выборок. Однако, когда данные связаны сетью, возникают зависимости, которые могут повлиять на качество модели. Эти зависимости представляют собой как проблему, снижающую эффективность, так и возможность улучшить предсказания, используя связи между сетевыми соседями. Известны методы, которые используют такие зависимости, но многие, включая графовые нейронные сети, трудно интерпретируются, что ограничивает их применение в задачах, требующих понятных решений. Другие, такие как сетьно-помогающая регрессия, легко интерпретируются, но часто дают значительно хуже результаты. Мы предлагаем новую модель, которая объединяет высокую точность предсказания и легкость интерпретации. ## Метод Мы развиваем новую модель, основанную на универсальной разновидности случайных леса (RF+), которая может адаптироваться к зависимостям в сети. Методология включает в себя обучение классификаторов и регрессоров на основе сетевого окружения. Мы используем градиентный подъем и локальные преобразования данных для улучшения точности модели. Для улучшения интерпретируемости разработаны инструменты, позволяющие оценивать вклад сетевых соседей в предсказания и определять важность признаков. Эти инструменты работают на уровне всего набора данных (глобальные меры) и для отдельных сетевых объектов (локальные меры). ## Результаты Мы проводили эксперименты на нескольких сетевых датасетах, сравнивая RF+ с традиционными методами. Модель показала высокую точность предсказаний, при этом обеспечивая легкость интерпретации. Мы также оценили вклад сетевых соседей в качество предсказаний и определили важность признаков в различных условиях. Наши результаты показали, что RF+ не только эффективна, но и может быть легко понята и применена в практических задачах. ## Значимость Модель RF+ позволяет решать задачи предсказания в областях, где сетевые связи имеют важное значение, например, в здравоохранении, социальных сетях, финансах. Её высокая точность позволяет улучшить результаты в решении таких проблем. Интерпретируемость RF+ делает её привлекательной для задач, где понимание модели и её решений критически важно, таких как финансовый мониторинг, медицинские диагностики и управление рисками. Инструменты для оценки вклада сети и признаков обеспечивают новые возможности для понимания и контроля модели. ## Выводы Мы развили модель RF+, которая сочетает высокую точность и интерпретируемость, решая проблемы связанных с сетевыми зависи

Abstract

Machine learning algorithms often assume that training samples are independent. When data points are connected by a network, the induced dependency between samples is both a challenge, reducing effective sample size, and an opportunity to improve prediction by leveraging information from network neighbors. Multiple methods taking advantage of this opportunity are now available, but many, including graph neural networks, are not easily interpretable, limiting their usefulness for understanding how a model makes its predictions. Others, such as network-assisted linear regression, are interpretable but often yield substantially worse prediction performance. We bridge this gap by proposing a family of flexible network-assisted models built upon a generalization of random forests (RF+), which achieves highly-competitive prediction accuracy and can be interpreted through feature importance measures. In particular, we develop a suite of interpretation tools that enable practitioners to not only identify important features that drive model predictions, but also quantify the importance of the network contribution to prediction. Importantly, we provide both global and local importance measures as well as sample influence measures to assess the impact of a given observation. This suite of tools broadens the scope and applicability of network-assisted machine learning for high-impact problems where interpretability and transparency are essential.

Ссылки и действия