LMAE4Eth: Generalizable and Robust Ethereum Fraud Detection by Exploring Transaction Semantics and Masked Graph Embedding

2509.03939v1 cs.CR, cs.LG 2025-09-06
Авторы:

Yifan Jia, Yanbin Wang, Jianguo Sun, Ye Tian, Peng Qian

Резюме на русском

#### Контекст Транзакции в Ethereum, как и в других блокчейн-системах, могут быть использованы для незаконных целей, таких как мошенничество, денежная сбытка и другие криминальные действия. Традиционные методы обнаружения мошенничества в Ethereum основываются на анализе последовательностей транзакций, которые либо не учитывают семантические аспекты транзакций, либо недостаточно эффективны для обнаружения учетных записей, которые могут быть задействованы в мошенничестве. Более того, высокая схожесть между транзакциями порождает проблему обучения дискриминативных представлений учетных записей. Наконец, существующие самостоятельные графовые методы либо недостаточно эффективны для обнаружения учетных записей, либо сталкиваются с проблемами масштабируемости. Наша мотивация заключается в разработке универсального и прочного метода для обнаружения мошенничества в Ethereum, который учитывает семантические характеристики транзакций и масштабируется для больших данных. #### Метод Мы предлагаем LMAE4Eth, много birds-eye view фреймворк для обнаружения мошенничества в Ethereum. Он объединяет три ключевых компонента: транзакционно-токенное контрастирующее языковое моделирование (TxCLM), токен-активное контрастирующее обучение (TACL) и генеративное обучение с самостоятельным самоучителем (MAGAE). TxCLM преобразует транзакционные последовательности в собственно языковые представления, чтобы повысить логическую целостность транзакций. TACL, в свою очередь, работает на уровне токенов, чтобы учитывать семантические различия между учетными записями. Мы также предлагаем маскированный графовый автокодировщик (MAGAE), который использует самостоятельное обучение для построения вы expreesive представлений учетных записей. Также мы предлагаем новую методику сэмплирования уровней соседей (Layer-Neighbor Sampling), которая уменьшает количество узлов, необходимых для обучения, не ухудшая качество. Наконец, мы используем кросс-аттенционную сеть для объединения представлений TxCLM и MAGAE, чтобы сочетать преимущества обеих моделей. #### Результаты Мы провели эксперименты на трех различных датасетах, сравнив наш метод с 21 базовыми подходами. Наши результаты показали, что LMAE4Eth превосходит лучшую базовую модель по метрике F1-score на 10% или более в двух из трех наборов данных. Эти результаты подтвердили то, что наш подход эффективен в обнаружении мошенничества и способен удачно масштабироваться для больших датасетов. #### Значимость Метод LMAE4Eth может быть применен в различных областях, где требуется обнаружение мошенничества в транзакционных системах, таких как финансовые сист

Abstract

Current Ethereum fraud detection methods rely on context-independent, numerical transaction sequences, failing to capture semantic of account transactions. Furthermore, the pervasive homogeneity in Ethereum transaction records renders it challenging to learn discriminative account embeddings. Moreover, current self-supervised graph learning methods primarily learn node representations through graph reconstruction, resulting in suboptimal performance for node-level tasks like fraud account detection, while these methods also encounter scalability challenges. To tackle these challenges, we propose LMAE4Eth, a multi-view learning framework that fuses transaction semantics, masked graph embedding, and expert knowledge. We first propose a transaction-token contrastive language model (TxCLM) that transforms context-independent numerical transaction records into logically cohesive linguistic representations. To clearly characterize the semantic differences between accounts, we also use a token-aware contrastive learning pre-training objective together with the masked transaction model pre-training objective, learns high-expressive account representations. We then propose a masked account graph autoencoder (MAGAE) using generative self-supervised learning, which achieves superior node-level account detection by focusing on reconstructing account node features. To enable MAGAE to scale for large-scale training, we propose to integrate layer-neighbor sampling into the graph, which reduces the number of sampled vertices by several times without compromising training quality. Finally, using a cross-attention fusion network, we unify the embeddings of TxCLM and MAGAE to leverage the benefits of both. We evaluate our method against 21 baseline approaches on three datasets. Experimental results show that our method outperforms the best baseline by over 10% in F1-score on two of the datasets.

Ссылки и действия