Transformer-Gather, Fuzzy-Reconsider: A Scalable Hybrid Framework for Entity Resolution

2509.17470v1 cs.DB, cs.AI, cs.LG 2025-09-24
Авторы:

Mohammadreza Sharifi, Danial Ahmadzadeh

Резюме на русском

#### Контекст Entity resolution (ER) является критическим компонентом систем управления предприятиями, где поддержание точности и интегрированности данных является приоритетным. Традиционные методы часто сталкиваются с проблемами обработки шума в данных и не имеют способности к пониманию смысла. Модернизированные алгоритмы, несмотря на их высокую точность, часто сталкиваются с высокими затратами ресурсов и требуют больших вычислительных мощностей. Наша мотивация заключается в разработке метода, который бы сталкался с этими проблемами, обеспечивал высокую точность и широкий масштабируемый монтаж. Мы сосредоточились на создании распределенной системы, которая бы удачно решала эти задачи в реальном времени. #### Метод Мы предлагаем гибридную систему, объединяющую модели трансформера и методы зыбких строковых совпадений. Наша система начинает с эмбеддингов, созданных с помощью предварительно обученной модели, для представления каждого элемента данных в виде вектора смысла. Затем, мы используем техники зыбкого строкового соответствия для поиска наиболее похожих элементов в семантически относительной степени. Эта система наращивает мощность вычислений при необходимости, используя широкомасштабные семантические модели, но при этом не теряя эффективности, используя строковые методы для достижения высокой скорости. Мы также применяем техники для обеспечения надежности и уменьшения шума в процессе решения. #### Результаты Мы проводили эксперименты на реальных данных, включая записяни центрального пользовательского менеджмента и серверов-хостингов. Наши результаты показали, что система определяет точные соответствия с высокой скоростью обработки, а также обеспечивает высокую надежность в результатах. Мы сравнили нашу систему с другими методами и получили прирост в точности и уменьшение времени обработки данных без ущерба для результатов. Это подтверждает нашу гибридную модель как эффективное решение для решения задач entity resolution в больших системах. #### Значимость Наша система может быть применена в таких областях, как управление данными, банковское производство, интернет-маркетинг и т.д., где мощные решения для обработки данных являются критически важными. Наш подход выделяется своей высокой эффективностью и мощью в обработке больших объемов данных в реальном времени. Он может повысить качество данных, уменьшить вычислительные затраты и улучшить общую производительность систем управления данными. #### Выводы Мы превзошли существующие подходы в области entity resolution, получив высокую точность и мощь обработки. Наша система может быть развернута на стандартных CPU-системах, не

Abstract

Entity resolution plays a significant role in enterprise systems where data integrity must be rigorously maintained. Traditional methods often struggle with handling noisy data or semantic understanding, while modern methods suffer from computational costs or the excessive need for parallel computation. In this study, we introduce a scalable hybrid framework, which is designed to address several important problems, including scalability, noise robustness, and reliable results. We utilized a pre-trained language model to encode each structured data into corresponding semantic embedding vectors. Subsequently, after retrieving a semantically relevant subset of candidates, we apply a syntactic verification stage using fuzzy string matching techniques to refine classification on the unlabeled data. This approach was applied to a real-world entity resolution task, which exposed a linkage between a central user management database and numerous shared hosting server records. Compared to other methods, this approach exhibits an outstanding performance in terms of both processing time and robustness, making it a reliable solution for a server-side product. Crucially, this efficiency does not compromise results, as the system maintains a high retrieval recall of approximately 0.97. The scalability of the framework makes it deployable on standard CPU-based infrastructure, offering a practical and effective solution for enterprise-level data integrity auditing.

Ссылки и действия

Связанные статьи

ScaleDoc: Scaling LLM-based Predicates over Large Document Collections

#### Контекст Современные системы анализа данных сталкиваются с возрастающим объемом неструктурированных документов, ко...

2025-09-18

A Lightweight Learned Cardinality Estimation Model

## Контекст Cardinality estimation является важной задачей в системах управления базами данных, которая состоит в предск...

2025-08-15