Hierarchical Scoring for Machine Learning Classifier Error Impact Evaluation

2508.04489v1 cs.LG, cs.AI 2025-08-09
Авторы:

Erin Lanus, Daniel Wolodkin, Laura J. Freeman

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Машинное обучение (ML) широко используется для классификации объектов, в том числе в задачах детекции, которые включают локализацию объектов с помощью ограничительных рамок. Традиционно оценка точности моделей классификации основывается на простом подходе "проход/неудача", где любое несоответствие предсказанному классу и истинному является ошибкой. Такой подход не учитывает природу ошибок и их возможное вариативное значение. В реальных задачах классы часто структурированы в иерархические таксономии, отражающие отношения между классами или предпочтения пользователей по отношению к ошибкам. Например, ошибка внутри близкого подкласса может быть менее критична, чем ошибка в другой области таксономии. Несмотря на это, существующие метрики оценки не предоставляют механизмов для разграничения ошибок по степени их значимости. Эта проблема мотивирует разработку более тонких метрик, которые учитывают иерархическую структуру классов и позволяют давать "частичные баллы" за предсказания, близкие по смыслу к истинному классу. Такие метрики могут помочь лучше понять влияние ошибок и оптимизировать модели в соответствии с конкретными целями пользователей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают метод Hierarchical Scoring, основанный на использовании иерархических деревьев для кодирования отношений между классами. Деревья строятся таким образом, чтобы расстояние между предсказанным и истинным классом могло быть измерено и интерпретировано в терминах "стоимости" ошибки. Предложенные метрики варьируются по сложности и позволяют применять различные стратегии взвешивания. Например, можно настроить метрики так, чтобы они отражали большую штраф за ошибки в критичных областях таксономии. Метод включает в себя создание "скоринговых деревьев", где каждый узел представляет класс, а ребра соответствуют отношениям между классами. Эта методология предоставляет гибкость в оценке моделей, позволяя ранжировать их не только по количеству ошибок, но и по их типу и значимости. Авторы также разработали реализации метода на Python, доступные в открытом репозитории. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для демонстрации метода были проведены эксперименты на абстрактном наборе данных с различными стратегиями взвешивания. Авторы использовали иерархические деревья с тремя типами весов, чтобы оценить, как метрики влияют на поведение моделей. Результаты показали, что предложенные метрики дают более детальное представление об ошибках, позволяя выявить те, которые имеют больший вес. Настройка деревьев также показала, что модели могут быть оптимизированы для минимизации ошибок в критичных областях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в областях, где важно не только уменьшить количество ошибок, но и контролировать их вид. Например, в медицинской диагностике ошибка в классификации тяжелого заболевания может быть критичнее, чем в более низкорискованной области. Такая гранулярность оценки может повысить надежность и эффективность моделей ML в критических приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Авторы доказали, что Hierarchical Scoring позволяет оценивать модели ML с большей гранулярностью, учитывая иерархию классов. Будущие исследования могут расширить этот подход на более сложные таксономии и применить его в реальных системах, где важно контролировать не только количество, но и тип ошибок.

Abstract

A common use of machine learning (ML) models is predicting the class of a sample. Object detection is an extension of classification that includes localization of the object via a bounding box within the sample. Classification, and by extension object detection, is typically evaluated by counting a prediction as incorrect if the predicted label does not match the ground truth label. This pass/fail scoring treats all misclassifications as equivalent. In many cases, class labels can be organized into a class taxonomy with a hierarchical structure to either reflect relationships among the data or operator valuation of misclassifications. When such a hierarchical structure exists, hierarchical scoring metrics can return the model performance of a given prediction related to the distance between the prediction and the ground truth label. Such metrics can be viewed as giving partial credit to predictions instead of pass/fail, enabling a finer-grained understanding of the impact of misclassifications. This work develops hierarchical scoring metrics varying in complexity that utilize scoring trees to encode relationships between class labels and produce metrics that reflect distance in the scoring tree. The scoring metrics are demonstrated on an abstract use case with scoring trees that represent three weighting strategies and evaluated by the kind of errors discouraged. Results demonstrate that these metrics capture errors with finer granularity and the scoring trees enable tuning. This work demonstrates an approach to evaluating ML performance that ranks models not only by how many errors are made but by the kind or impact of errors. Python implementations of the scoring metrics will be available in an open-source repository at time of publication.

Ссылки и действия