Enhanced Predictive Modeling for Hazardous Near-Earth Object Detection: A Comparative Analysis of Advanced Resampling Strategies and Machine Learning Algorithms in Planetary Risk Assessment
2508.15106v1
astro-ph.EP, astro-ph.IM, cs.AI, cs.LG
2025-08-23
Авторы:
Sunkalp Chandra
Резюме на русском
#### Контекст
Обнаружение и оценка риска приближающихся к Земле объектов (NEOs) являются ключевыми задачами в планеетной науке и космической безопасности. Небезопасные подлеты могут привести к катастрофическим последствиям для земной жизни и инфраструктуры. Однако поиск и оценка риска NEOs чрезвычайно сложны из-за неполноты данных, сложности паттернов и ограниченности моделей. В этой статье рассматривается использование машинного обучения для бинарной классификации NEOs в зависимости от их опасности. Основной мотивацией является улучшение точности и надежности прогнозирования, чтобы обеспечить более эффективное раннее обнаружение опасных NEOs.
#### Метод
Для проведения исследования использовались методы машинного обучения, включающие в себя данные по приближению NEOs, трансформацию мощности и масштабирование. Шесть моделей классификации были сравнены: Random Forest Classifier (RFC), Gradient Boosting Classifier (GBC), Support Vector Classifier (SVC), Linear Discriminant Analysis (LDA), Logistic Regression (LR) и K-Nearest Neighbors (KNN). Для каждой модели был произведен подбор гиперпараметров, использование кросс-валидации и разные стратегии ресемплинга, чтобы оптимизировать производительность. Основной подход заключался в эмпирическом сравнении результатов классификации по метрикам, таким как F2-метрика, precision, recall и accuracy.
#### Результаты
Результаты экспериментов показали, что Random Forest Classifier и Gradient Boosting Classifier показали самые высокие результаты с F2-метрикой 0.987 и 0.986, соответственно. Они также показали малый дисперсионный индекс и незначительные значения false-negative и false-positive. Остальные модели (SVC, LDA, LR и KNN) также показали достойные результаты, но с меньшей точностью и надежностью. В частности, KNN работал хуже из-за его неустойчивости при обработке сложных зависимостей в данных. Акцент был сделан на том, что ensemble-методы, такие как RFC и GBC, демонстрируют более высокую точность и достоверность в прогнозировании NEOs.
#### Значимость
Найденные результаты могут быть применены в планеетной науке для повышения эффективности систем мониторинга и оценки риска. Использование ensemble-методов, таких как RFC и GBC, демонстрирует высокую точность и относительно низкую стоимость для обнаружения опасных NEOs. Эти модели могут быть использованы в системах космического мониторинга для быстрого и точного определения опасности приближающихся объектов. Будущие исследования могут сосредоточиться на дополнительном оптимизации гиперпараметров и использовании дополнительных признаков для улучшения моделей.
#### Выводы
В этом исследовании был проведен сравнительный анализ различных моделей машинного обучения для определения опасности NEOs. Наилуч
Abstract
This study evaluates the performance of several machine learning models for
predicting hazardous near-Earth objects (NEOs) through a binary classification
framework, including data scaling, power transformation, and cross-validation.
Six classifiers were compared, namely Random Forest Classifier (RFC), Gradient
Boosting Classifier (GBC), Support Vector Classifier (SVC), Linear Discriminant
Analysis (LDA), Logistic Regression (LR), and K-Nearest Neighbors (KNN). RFC
and GBC performed the best, both with an impressive F2-score of 0.987 and
0.986, respectively, with very small variability. SVC followed, with a lower
but reasonable score of 0.896. LDA and LR had a moderate performance with
scores of around 0.749 and 0.748, respectively, while KNN had a poor
performance with a score of 0.691 due to difficulty in handling complex data
patterns. RFC and GBC also presented great confusion matrices with a negligible
number of false positives and false negatives, which resulted in outstanding
accuracy rates of 99.7% and 99.6%, respectively. These findings highlight the
power of ensemble methods for high precision and recall and further point out
the importance of tailored model selection with regard to dataset
characteristics and chosen evaluation metrics. Future research could focus on
the optimization of hyperparameters with advanced features engineering to
further the accuracy and robustness of the model on NEO hazard predictions.