Send to which account? Evaluation of an LLM-based Scambaiting System
2509.08493v1
cs.CR, cs.AI, K.6.5; I.2.7
2025-09-12
Авторы:
Hossein Siadati, Haadi Jafarian, Sima Jafarikhah
Резюме на русском
## Контекст
Современные технологии генерируемого искусственного интеллекта (GenAI) становятся популярнее среди скамеров, увеличивая риск финансовой мошенничества и замедляя уровень доверия к деятельности в Интернете. Несмотря на существующие меры защиты, такие как детекторы мошенничества, обучение пользователей, а также реактивные меры по удалению злонамеренных действий, эффективность этих подходов часто остается недостаточной. Особенно это актуально в отношении таких составляющих мошеннической инфраструктуры, как мулевые банковские счета и криптовалютные кошельки. Чтобы устранить этот пробел, развиваются проактивные методы, которые включают взаимодействие с мошенниками при помощи ценных интеллектуальных трубопроводов (conversational honeypots). Данная работа представляет первую серьезную, реальному миру относящуюся оценку такого системы, основанной на больших языковых моделях (LLMs).
## Метод
Проведенные исследования основываются на оптимизированной лингвистической модели, которая имитирует естественное общение и может обмениваться данными с мошенниками. За период пяти месяцев система провела более 2 600 взаимодействий с мошенниками, получив более 18 700 сообщений. Главной метрикой стала информационная дискриминация (IDR), выражающая возможность системы вытащить приватную финансовую информацию, такую как мулевые счета. Также важной метрикой стала людская приемлемость (HAR), отражающая соответствие генерируемых ответов желаемого уровня качества. За основу работы была взята модель GPT-4 (языковая модель OpenAI), но модель была настроена специально для этого проекта.
## Результаты
В результате работы системы было получено более 32% информационной дискриминации, что демонстрирует высокую эффективность в получении финансовых данных. Более того, система достигла 70% успеха в людской приемлемости, что указывает на высокую степерь совпадения генерируемых ответов с потребностями пользователей. Однако система сталкивалась с проблемой запуска взаимодействия: только 48.7% мошенников отвечали на инициализационное сообщение. Это подчеркивает необходимость улучшения стратегий для повышения контактной стадии.
## Значимость
Система может применяться в области безопасности информации, контроля финансовой мошенничества, а также в области развития интеллектуальных технологий. Она предоставляет преимущества в скорости и точности получения сведений, что может повлиять на уровень защиты от мошенничества в будущем. Данный подход может быть использован для создания более эффективных механизмов защиты от
Abstract
Scammers are increasingly harnessing generative AI(GenAI) technologies to
produce convincing phishing content at scale, amplifying financial fraud and
undermining public trust. While conventional defenses, such as detection
algorithms, user training, and reactive takedown efforts remain important, they
often fall short in dismantling the infrastructure scammers depend on,
including mule bank accounts and cryptocurrency wallets. To bridge this gap, a
proactive and emerging strategy involves using conversational honeypots to
engage scammers and extract actionable threat intelligence. This paper presents
the first large-scale, real-world evaluation of a scambaiting system powered by
large language models (LLMs). Over a five-month deployment, the system
initiated over 2,600 engagements with actual scammers, resulting in a dataset
of more than 18,700 messages. It achieved an Information Disclosure Rate (IDR)
of approximately 32%, successfully extracting sensitive financial information
such as mule accounts. Additionally, the system maintained a Human Acceptance
Rate (HAR) of around 70%, indicating strong alignment between LLM-generated
responses and human operator preferences. Alongside these successes, our
analysis reveals key operational challenges. In particular, the system
struggled with engagement takeoff: only 48.7% of scammers responded to the
initial seed message sent by defenders. These findings highlight the need for
further refinement and provide actionable insights for advancing the design of
automated scambaiting systems.