Identifying Key Features for Establishing Sustainable Agro-Tourism Centre: A Data Driven Approach

2509.09214v1 cs.LG, cs.CL 2025-09-13
Авторы:

Alka Gadakh, Vidya Kumbhar, Sonal Khosla, Kumar Karunendra

Резюме на русском

## Контекст Agro-tourism является стратегическим экономическим моделем, нацеленным на стимулирование развития сельских районов путем разнообразия источников дохода для местных сообществ, таких как фермеров, а также формированием привлекательного культурного наследия и сохранением традиционных сельских практик. Несмотря на бурное развитие этой сферы, существуют недостатки в понимании эффективных стратегий для развития агро-туризма. Необходимость исследования вклада индивидуальных индикаторов в процесс роста рынка агро-туризма актуальна, так как они позволяют выявить приоритетные направления для развития экономики сельских территорий. Таким образом, наша статья сфокусирована на идентификации ключевых факторов, которые могут способствовать эффективному развитию агро-туризма и улучшению его экономического потенциала. ## Метод Для достижения поставленных целей, исследование проводилось в два этапа. В первой фазе проведена комплексная литературная ревизия, чтобы выявить важные факторы, влияющие на рост агро-туризма. Во второй фазе были применены современные машинное обучение и методы выбора признаков для детального анализа. Использовались такие машинные обученные модели, как Logistic Regression (LR), Decision Trees (DT), Random Forest (RF), и Extreme Gradient Boosting (XGBOOST). Для выбора признаков применялся метод Least Absolute Shrinkage and Selection Operator (LASSO). Эти модели были использованы для определения и оценки важности факторов, которые могут положительно сказываться на росте и усовершенствовании моделей агро-туризма. ## Результаты Применение LASSO в сочетании с LR позволило достичь наивысшей точности классификации - 98% при данных в пропорции 70-30% для обучения и тестирования. Другими моделями, показавшими высокую точность, являются RF и XGBOOST, которые достигли 95% и 97% соответственно при 70-30% данных. В случае использования 80-20% данных для обучения и тестирования, точность классификации LR оставалась наивысшей - 99%, тогда как DT и XGBoost реализовали 97%. Эти результаты показывают, что LASSO с LR является наиболее эффективным подходом для выделения ключевых факторов, поддерживающих рост агро-туризма. ## Значимость Результаты исследования могут быть применены в сфере развития ритейл-бизнеса, экономики сельских территорий, а также в политических решениях, связанных с формированием стратегий для развития сельского туризма. Исследование также может вносить значительный вклад в понимание взаимосвязей между различными факторами и их влиянием на экономический рост. Это может привести к оптимизации ресурсов, увеличению доходов фермеров и повышению уровня жизни в сельских

Abstract

Agro-tourism serves as a strategic economic model designed to facilitate rural development by diversifying income streams for local communities like farmers while promoting the conservation of indigenous cultural heritage and traditional agricultural practices. As a very booming subdomain of tourism, there is a need to study the strategies for the growth of Agro-tourism in detail. The current study has identified the important indicators for the growth and enhancement of agro-tourism. The study is conducted in two phases: identification of the important indicators through a comprehensive literature review and in the second phase state-of-the-art techniques were used to identify the important indicators for the growth of agro-tourism. The indicators are also called features synonymously, the machine learning models for feature selection were applied and it was observed that the Least Absolute Shrinkage and Selection Operator (LASSO) method combined with, the machine Learning Classifiers such as Logistic Regression (LR), Decision Trees (DT), Random Forest (RF) Tree, and Extreme Gradient Boosting (XGBOOST) models were used to suggest the growth of the agro-tourism. The results show that with the LASSO method, LR model gives the highest classification accuracy of 98% in 70-30% train-test data followed by RF with 95% accuracy. Similarly, in the 80-20% train-test data LR maintains the highest accuracy at 99%, while DT and XGBoost follow with 97% accuracy.

Ссылки и действия