Leveraging Big Data Frameworks for Spam Detection in Amazon Reviews

2509.21579v1 cs.LG, cs.CL 2025-09-30

Авторы:

Mst Eshita Khatun, Halima Akter, Tasnimul Rehan, Toufiq Ahmed

Резюме на русском

#### Контекст В современном цифровом мире, интернет-покупки стали частью повседневной жизни. Отзывы о продуктах играют ключевую роль в формировании поведения покупателей и укреплении доверия к продавцу. Однако распространение фальшивых отзывов мошеннических пользователей нарушает это доверие, приводя к негативному воздействию на потребителей и репутации продавцов. Данная работа нацелена на развитие эффективных методов обнаружения и классификации спама в онлайн-отзывах для повышения доверия потребителей и оптимизации онлайн-торговли. Исследование основывается на анализе больших данных, связанных с отзывами продуктов на Amazon, и применении машинного обучения для решения данной проблемы. #### Метод Для решения проблемы использовалась многоступенчатая методология, включающая сбор и обработку данных, предобработку данных, выделение признаков, построение моделей машинного обучения и оценку их точности. Для обработки и анализа данных использована библиотека Apache Spark, позволяющая обрабатывать большие объемы данных с высокой скоростью. Для выделения признаков, отражающих спам, использовались методы текстового анализа. Модели машинного обучения, включая Logistic Regression, Random Forest и Naive Bayes, были тренированы на тренировочной выборке, а последующая оценка производилась на тестовой выборке. #### Результаты На основе проведенных экспериментов были получены следующие результаты. Модель Logistic Regression показала наилучший результат с точностью 90.35%. Другие модели, такие как Random Forest и Naive Bayes, также демонстрировали высокую точность, но менее чем Logistic Regression. Обработка больших данных была осуществлена с помощью Apache Spark, что позволило эффективно обработать и анализировать тысячи отзывов за минимальное время. Результаты показали, что модель Logistic Regression является наиболее эффективной для обнаружения спама в конкретном наборе данных. #### Значимость Проблема спама в онлайн-отзывах является актуальной для многих онлайн-магазинов, так как она может повлиять на репутацию продавца и приобретение потребителем. Данная работа предоставляет эффективное решение для обнаружения и классификации спама, которое может быть применено в различных интернет-сервисах. Также, данный подход может быть использован для других задач, связанных с обнаружением мошенничества в цифровых системах. Результаты исследования могут привести к улучшению доверия потребителей и повышению продаж для продавцов. #### Выводы В ходе исследования были получены высокоточные модели для обнаружения спама в Amazon-отзывах, которые демонстрируют эффективность Logistic Regression. Данный подход может быть применен в других ситуациях, связанных с обнаруж

Abstract

In this digital era, online shopping is common practice in our daily lives. Product reviews significantly influence consumer buying behavior and help establish buyer trust. However, the prevalence of fraudulent reviews undermines this trust by potentially misleading consumers and damaging the reputations of the sellers. This research addresses this pressing issue by employing advanced big data analytics and machine learning approaches on a substantial dataset of Amazon product reviews. The primary objective is to detect and classify spam reviews accurately so that it enhances the authenticity of the review. Using a scalable big data framework, we efficiently process and analyze a large scale of review data, extracting key features indicative of fraudulent behavior. Our study illustrates the utility of various machine learning classifiers in detecting spam reviews, with Logistic Regression achieving an accuracy of 90.35%, thus contributing to a more trustworthy and transparent online shopping environment.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Leveraging Big Data Frameworks for Spam Detection in Amazon Reviews

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space

Towards Active Synthetic Data Generation for Finetuning Language Models

AlignSAE: Concept-Aligned Sparse Autoencoders

Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financ...

BanglaSentNet: An Explainable Hybrid Deep Learning Framework for Multi-Aspect Se...

Навигация