Interpretable Network-assisted Random Forest+
2509.15611v1
stat.ML, cs.LG, stat.ME
2025-09-23
Авторы:
Tiffany M. Tang, Elizaveta Levina, Ji Zhu
Резюме на русском
## Контекст
В современной машинном обучении широко распространено предположение о независимости обучающих выборок. Однако, когда данные связаны сетью, возникают зависимости, которые могут повлиять на качество модели. Эти зависимости представляют собой как проблему, снижающую эффективность, так и возможность улучшить предсказания, используя связи между сетевыми соседями. Известны методы, которые используют такие зависимости, но многие, включая графовые нейронные сети, трудно интерпретируются, что ограничивает их применение в задачах, требующих понятных решений. Другие, такие как сетьно-помогающая регрессия, легко интерпретируются, но часто дают значительно хуже результаты. Мы предлагаем новую модель, которая объединяет высокую точность предсказания и легкость интерпретации.
## Метод
Мы развиваем новую модель, основанную на универсальной разновидности случайных леса (RF+), которая может адаптироваться к зависимостям в сети. Методология включает в себя обучение классификаторов и регрессоров на основе сетевого окружения. Мы используем градиентный подъем и локальные преобразования данных для улучшения точности модели. Для улучшения интерпретируемости разработаны инструменты, позволяющие оценивать вклад сетевых соседей в предсказания и определять важность признаков. Эти инструменты работают на уровне всего набора данных (глобальные меры) и для отдельных сетевых объектов (локальные меры).
## Результаты
Мы проводили эксперименты на нескольких сетевых датасетах, сравнивая RF+ с традиционными методами. Модель показала высокую точность предсказаний, при этом обеспечивая легкость интерпретации. Мы также оценили вклад сетевых соседей в качество предсказаний и определили важность признаков в различных условиях. Наши результаты показали, что RF+ не только эффективна, но и может быть легко понята и применена в практических задачах.
## Значимость
Модель RF+ позволяет решать задачи предсказания в областях, где сетевые связи имеют важное значение, например, в здравоохранении, социальных сетях, финансах. Её высокая точность позволяет улучшить результаты в решении таких проблем. Интерпретируемость RF+ делает её привлекательной для задач, где понимание модели и её решений критически важно, таких как финансовый мониторинг, медицинские диагностики и управление рисками. Инструменты для оценки вклада сети и признаков обеспечивают новые возможности для понимания и контроля модели.
## Выводы
Мы развили модель RF+, которая сочетает высокую точность и интерпретируемость, решая проблемы связанных с сетевыми зависи
Abstract
Machine learning algorithms often assume that training samples are
independent. When data points are connected by a network, the induced
dependency between samples is both a challenge, reducing effective sample size,
and an opportunity to improve prediction by leveraging information from network
neighbors. Multiple methods taking advantage of this opportunity are now
available, but many, including graph neural networks, are not easily
interpretable, limiting their usefulness for understanding how a model makes
its predictions. Others, such as network-assisted linear regression, are
interpretable but often yield substantially worse prediction performance. We
bridge this gap by proposing a family of flexible network-assisted models built
upon a generalization of random forests (RF+), which achieves
highly-competitive prediction accuracy and can be interpreted through feature
importance measures. In particular, we develop a suite of interpretation tools
that enable practitioners to not only identify important features that drive
model predictions, but also quantify the importance of the network contribution
to prediction. Importantly, we provide both global and local importance
measures as well as sample influence measures to assess the impact of a given
observation. This suite of tools broadens the scope and applicability of
network-assisted machine learning for high-impact problems where
interpretability and transparency are essential.