Leveraging Big Data Frameworks for Spam Detection in Amazon Reviews
2509.21579v1
cs.LG, cs.CL
2025-09-30
Авторы:
Mst Eshita Khatun, Halima Akter, Tasnimul Rehan, Toufiq Ahmed
Резюме на русском
#### Контекст
В современном цифровом мире, интернет-покупки стали частью повседневной жизни. Отзывы о продуктах играют ключевую роль в формировании поведения покупателей и укреплении доверия к продавцу. Однако распространение фальшивых отзывов мошеннических пользователей нарушает это доверие, приводя к негативному воздействию на потребителей и репутации продавцов. Данная работа нацелена на развитие эффективных методов обнаружения и классификации спама в онлайн-отзывах для повышения доверия потребителей и оптимизации онлайн-торговли. Исследование основывается на анализе больших данных, связанных с отзывами продуктов на Amazon, и применении машинного обучения для решения данной проблемы.
#### Метод
Для решения проблемы использовалась многоступенчатая методология, включающая сбор и обработку данных, предобработку данных, выделение признаков, построение моделей машинного обучения и оценку их точности. Для обработки и анализа данных использована библиотека Apache Spark, позволяющая обрабатывать большие объемы данных с высокой скоростью. Для выделения признаков, отражающих спам, использовались методы текстового анализа. Модели машинного обучения, включая Logistic Regression, Random Forest и Naive Bayes, были тренированы на тренировочной выборке, а последующая оценка производилась на тестовой выборке.
#### Результаты
На основе проведенных экспериментов были получены следующие результаты. Модель Logistic Regression показала наилучший результат с точностью 90.35%. Другие модели, такие как Random Forest и Naive Bayes, также демонстрировали высокую точность, но менее чем Logistic Regression. Обработка больших данных была осуществлена с помощью Apache Spark, что позволило эффективно обработать и анализировать тысячи отзывов за минимальное время. Результаты показали, что модель Logistic Regression является наиболее эффективной для обнаружения спама в конкретном наборе данных.
#### Значимость
Проблема спама в онлайн-отзывах является актуальной для многих онлайн-магазинов, так как она может повлиять на репутацию продавца и приобретение потребителем. Данная работа предоставляет эффективное решение для обнаружения и классификации спама, которое может быть применено в различных интернет-сервисах. Также, данный подход может быть использован для других задач, связанных с обнаружением мошенничества в цифровых системах. Результаты исследования могут привести к улучшению доверия потребителей и повышению продаж для продавцов.
#### Выводы
В ходе исследования были получены высокоточные модели для обнаружения спама в Amazon-отзывах, которые демонстрируют эффективность Logistic Regression. Данный подход может быть применен в других ситуациях, связанных с обнаруж
Abstract
In this digital era, online shopping is common practice in our daily lives.
Product reviews significantly influence consumer buying behavior and help
establish buyer trust. However, the prevalence of fraudulent reviews undermines
this trust by potentially misleading consumers and damaging the reputations of
the sellers. This research addresses this pressing issue by employing advanced
big data analytics and machine learning approaches on a substantial dataset of
Amazon product reviews. The primary objective is to detect and classify spam
reviews accurately so that it enhances the authenticity of the review. Using a
scalable big data framework, we efficiently process and analyze a large scale
of review data, extracting key features indicative of fraudulent behavior. Our
study illustrates the utility of various machine learning classifiers in
detecting spam reviews, with Logistic Regression achieving an accuracy of
90.35%, thus contributing to a more trustworthy and transparent online shopping
environment.
Ссылки и действия
Дополнительные ресурсы: