Send to which account? Evaluation of an LLM-based Scambaiting System

2509.08493v1 cs.CR, cs.AI, K.6.5; I.2.7 2025-09-12
Авторы:

Hossein Siadati, Haadi Jafarian, Sima Jafarikhah

Резюме на русском

## Контекст Современные технологии генерируемого искусственного интеллекта (GenAI) становятся популярнее среди скамеров, увеличивая риск финансовой мошенничества и замедляя уровень доверия к деятельности в Интернете. Несмотря на существующие меры защиты, такие как детекторы мошенничества, обучение пользователей, а также реактивные меры по удалению злонамеренных действий, эффективность этих подходов часто остается недостаточной. Особенно это актуально в отношении таких составляющих мошеннической инфраструктуры, как мулевые банковские счета и криптовалютные кошельки. Чтобы устранить этот пробел, развиваются проактивные методы, которые включают взаимодействие с мошенниками при помощи ценных интеллектуальных трубопроводов (conversational honeypots). Данная работа представляет первую серьезную, реальному миру относящуюся оценку такого системы, основанной на больших языковых моделях (LLMs). ## Метод Проведенные исследования основываются на оптимизированной лингвистической модели, которая имитирует естественное общение и может обмениваться данными с мошенниками. За период пяти месяцев система провела более 2 600 взаимодействий с мошенниками, получив более 18 700 сообщений. Главной метрикой стала информационная дискриминация (IDR), выражающая возможность системы вытащить приватную финансовую информацию, такую как мулевые счета. Также важной метрикой стала людская приемлемость (HAR), отражающая соответствие генерируемых ответов желаемого уровня качества. За основу работы была взята модель GPT-4 (языковая модель OpenAI), но модель была настроена специально для этого проекта. ## Результаты В результате работы системы было получено более 32% информационной дискриминации, что демонстрирует высокую эффективность в получении финансовых данных. Более того, система достигла 70% успеха в людской приемлемости, что указывает на высокую степерь совпадения генерируемых ответов с потребностями пользователей. Однако система сталкивалась с проблемой запуска взаимодействия: только 48.7% мошенников отвечали на инициализационное сообщение. Это подчеркивает необходимость улучшения стратегий для повышения контактной стадии. ## Значимость Система может применяться в области безопасности информации, контроля финансовой мошенничества, а также в области развития интеллектуальных технологий. Она предоставляет преимущества в скорости и точности получения сведений, что может повлиять на уровень защиты от мошенничества в будущем. Данный подход может быть использован для создания более эффективных механизмов защиты от

Abstract

Scammers are increasingly harnessing generative AI(GenAI) technologies to produce convincing phishing content at scale, amplifying financial fraud and undermining public trust. While conventional defenses, such as detection algorithms, user training, and reactive takedown efforts remain important, they often fall short in dismantling the infrastructure scammers depend on, including mule bank accounts and cryptocurrency wallets. To bridge this gap, a proactive and emerging strategy involves using conversational honeypots to engage scammers and extract actionable threat intelligence. This paper presents the first large-scale, real-world evaluation of a scambaiting system powered by large language models (LLMs). Over a five-month deployment, the system initiated over 2,600 engagements with actual scammers, resulting in a dataset of more than 18,700 messages. It achieved an Information Disclosure Rate (IDR) of approximately 32%, successfully extracting sensitive financial information such as mule accounts. Additionally, the system maintained a Human Acceptance Rate (HAR) of around 70%, indicating strong alignment between LLM-generated responses and human operator preferences. Alongside these successes, our analysis reveals key operational challenges. In particular, the system struggled with engagement takeoff: only 48.7% of scammers responded to the initial seed message sent by defenders. These findings highlight the need for further refinement and provide actionable insights for advancing the design of automated scambaiting systems.

Ссылки и действия