LMAE4Eth: Generalizable and Robust Ethereum Fraud Detection by Exploring Transaction Semantics and Masked Graph Embedding
2509.03939v1
cs.CR, cs.LG
2025-09-06
Авторы:
Yifan Jia, Yanbin Wang, Jianguo Sun, Ye Tian, Peng Qian
Резюме на русском
#### Контекст
Транзакции в Ethereum, как и в других блокчейн-системах, могут быть использованы для незаконных целей, таких как мошенничество, денежная сбытка и другие криминальные действия. Традиционные методы обнаружения мошенничества в Ethereum основываются на анализе последовательностей транзакций, которые либо не учитывают семантические аспекты транзакций, либо недостаточно эффективны для обнаружения учетных записей, которые могут быть задействованы в мошенничестве. Более того, высокая схожесть между транзакциями порождает проблему обучения дискриминативных представлений учетных записей. Наконец, существующие самостоятельные графовые методы либо недостаточно эффективны для обнаружения учетных записей, либо сталкиваются с проблемами масштабируемости. Наша мотивация заключается в разработке универсального и прочного метода для обнаружения мошенничества в Ethereum, который учитывает семантические характеристики транзакций и масштабируется для больших данных.
#### Метод
Мы предлагаем LMAE4Eth, много birds-eye view фреймворк для обнаружения мошенничества в Ethereum. Он объединяет три ключевых компонента: транзакционно-токенное контрастирующее языковое моделирование (TxCLM), токен-активное контрастирующее обучение (TACL) и генеративное обучение с самостоятельным самоучителем (MAGAE). TxCLM преобразует транзакционные последовательности в собственно языковые представления, чтобы повысить логическую целостность транзакций. TACL, в свою очередь, работает на уровне токенов, чтобы учитывать семантические различия между учетными записями. Мы также предлагаем маскированный графовый автокодировщик (MAGAE), который использует самостоятельное обучение для построения вы expreesive представлений учетных записей. Также мы предлагаем новую методику сэмплирования уровней соседей (Layer-Neighbor Sampling), которая уменьшает количество узлов, необходимых для обучения, не ухудшая качество. Наконец, мы используем кросс-аттенционную сеть для объединения представлений TxCLM и MAGAE, чтобы сочетать преимущества обеих моделей.
#### Результаты
Мы провели эксперименты на трех различных датасетах, сравнив наш метод с 21 базовыми подходами. Наши результаты показали, что LMAE4Eth превосходит лучшую базовую модель по метрике F1-score на 10% или более в двух из трех наборов данных. Эти результаты подтвердили то, что наш подход эффективен в обнаружении мошенничества и способен удачно масштабироваться для больших датасетов.
#### Значимость
Метод LMAE4Eth может быть применен в различных областях, где требуется обнаружение мошенничества в транзакционных системах, таких как финансовые сист
Abstract
Current Ethereum fraud detection methods rely on context-independent,
numerical transaction sequences, failing to capture semantic of account
transactions. Furthermore, the pervasive homogeneity in Ethereum transaction
records renders it challenging to learn discriminative account embeddings.
Moreover, current self-supervised graph learning methods primarily learn node
representations through graph reconstruction, resulting in suboptimal
performance for node-level tasks like fraud account detection, while these
methods also encounter scalability challenges. To tackle these challenges, we
propose LMAE4Eth, a multi-view learning framework that fuses transaction
semantics, masked graph embedding, and expert knowledge. We first propose a
transaction-token contrastive language model (TxCLM) that transforms
context-independent numerical transaction records into logically cohesive
linguistic representations. To clearly characterize the semantic differences
between accounts, we also use a token-aware contrastive learning pre-training
objective together with the masked transaction model pre-training objective,
learns high-expressive account representations. We then propose a masked
account graph autoencoder (MAGAE) using generative self-supervised learning,
which achieves superior node-level account detection by focusing on
reconstructing account node features. To enable MAGAE to scale for large-scale
training, we propose to integrate layer-neighbor sampling into the graph, which
reduces the number of sampled vertices by several times without compromising
training quality. Finally, using a cross-attention fusion network, we unify the
embeddings of TxCLM and MAGAE to leverage the benefits of both. We evaluate our
method against 21 baseline approaches on three datasets. Experimental results
show that our method outperforms the best baseline by over 10% in F1-score on
two of the datasets.
Ссылки и действия
Дополнительные ресурсы: