Transformer-Gather, Fuzzy-Reconsider: A Scalable Hybrid Framework for Entity Resolution
2509.17470v1
cs.DB, cs.AI, cs.LG
2025-09-24
Авторы:
Mohammadreza Sharifi, Danial Ahmadzadeh
Резюме на русском
#### Контекст
Entity resolution (ER) является критическим компонентом систем управления предприятиями, где поддержание точности и интегрированности данных является приоритетным. Традиционные методы часто сталкиваются с проблемами обработки шума в данных и не имеют способности к пониманию смысла. Модернизированные алгоритмы, несмотря на их высокую точность, часто сталкиваются с высокими затратами ресурсов и требуют больших вычислительных мощностей. Наша мотивация заключается в разработке метода, который бы сталкался с этими проблемами, обеспечивал высокую точность и широкий масштабируемый монтаж. Мы сосредоточились на создании распределенной системы, которая бы удачно решала эти задачи в реальном времени.
#### Метод
Мы предлагаем гибридную систему, объединяющую модели трансформера и методы зыбких строковых совпадений. Наша система начинает с эмбеддингов, созданных с помощью предварительно обученной модели, для представления каждого элемента данных в виде вектора смысла. Затем, мы используем техники зыбкого строкового соответствия для поиска наиболее похожих элементов в семантически относительной степени. Эта система наращивает мощность вычислений при необходимости, используя широкомасштабные семантические модели, но при этом не теряя эффективности, используя строковые методы для достижения высокой скорости. Мы также применяем техники для обеспечения надежности и уменьшения шума в процессе решения.
#### Результаты
Мы проводили эксперименты на реальных данных, включая записяни центрального пользовательского менеджмента и серверов-хостингов. Наши результаты показали, что система определяет точные соответствия с высокой скоростью обработки, а также обеспечивает высокую надежность в результатах. Мы сравнили нашу систему с другими методами и получили прирост в точности и уменьшение времени обработки данных без ущерба для результатов. Это подтверждает нашу гибридную модель как эффективное решение для решения задач entity resolution в больших системах.
#### Значимость
Наша система может быть применена в таких областях, как управление данными, банковское производство, интернет-маркетинг и т.д., где мощные решения для обработки данных являются критически важными. Наш подход выделяется своей высокой эффективностью и мощью в обработке больших объемов данных в реальном времени. Он может повысить качество данных, уменьшить вычислительные затраты и улучшить общую производительность систем управления данными.
#### Выводы
Мы превзошли существующие подходы в области entity resolution, получив высокую точность и мощь обработки. Наша система может быть развернута на стандартных CPU-системах, не
Abstract
Entity resolution plays a significant role in enterprise systems where data
integrity must be rigorously maintained. Traditional methods often struggle
with handling noisy data or semantic understanding, while modern methods suffer
from computational costs or the excessive need for parallel computation. In
this study, we introduce a scalable hybrid framework, which is designed to
address several important problems, including scalability, noise robustness,
and reliable results. We utilized a pre-trained language model to encode each
structured data into corresponding semantic embedding vectors. Subsequently,
after retrieving a semantically relevant subset of candidates, we apply a
syntactic verification stage using fuzzy string matching techniques to refine
classification on the unlabeled data. This approach was applied to a real-world
entity resolution task, which exposed a linkage between a central user
management database and numerous shared hosting server records. Compared to
other methods, this approach exhibits an outstanding performance in terms of
both processing time and robustness, making it a reliable solution for a
server-side product. Crucially, this efficiency does not compromise results, as
the system maintains a high retrieval recall of approximately 0.97. The
scalability of the framework makes it deployable on standard CPU-based
infrastructure, offering a practical and effective solution for
enterprise-level data integrity auditing.
Ссылки и действия
Дополнительные ресурсы: