Advances in Logic-Based Entity Resolution: Enhancing ASPEN with Local Merges and Optimality Criteria

2508.10504v1 cs.DB, cs.AI 2025-08-16
Авторы:

Zhliang Xiang, Meghyn Bienvenu, Gianluca Cima, Víctor Gutiérrez-Basulto, Yazmín Ibáñez-García

Резюме на русском

## Контекст Область логического основания решения проблемы сущностного разрешения (entity resolution) широко используется в области баз данных и интеллектуального анализа данных. Одна из ключевых проблем этой области заключается в том, что многие сущности могут быть представлены в различных формах (например, "J. Lee" может означать "Joy Lee" или "Jake Lee"). Традиционное семейство методов ASPEN работает с так называемыми "глобальными мержами", в которых все вхождения совпадающих данных объединяются в одну сущность. Однако такие подходы могут некорректно работать при необходимости учета контекста. Это мотивирует развитие новых методов, которые учитывают локальные контексты и стремятся к более точным результатам. ## Метод Новый подход, ASPEN+, расширяет существующую систему ASPEN, добавляя функционал для локальных мержей и новые критерии оптимальности для выбора решений. В процессе развития была реализована новая модель решений, которая учитывает не только глобальные признаки, но и локальные, позволяя выбирать лучшие варианты на основе контекста. Также было разработано сложное алгоритмическое решение для поиска оптимальных решений, включая анализ различных критериев оптимальности, таких как минимизация нарушений правил и максимизация числа поддерживающих правила вариантов. ## Результаты В ходе экспериментов были протестированы различные сценарии, включающие реальные данные. Результаты показали, что локальные мержи позволяют повысить точность решения, особенно при работе с неоднозначными сущностями. Новые критерии оптимальности также позволяют оптимизировать выбор решений, уменьшая время работы и улучшая точность. В целом, эти дополнения демонстрируют повышение качества решений в сравнении с традиционным подходом. ## Значимость Полученные результаты могут быть применены в различных областях, включая базы данных, веб-сервисы, промышленность и даже глубокое обучение. Локальные мержи позволяют улучшить точность решений в ситуациях, когда глобальные подходы могут оказаться недостаточно точными. Это открывает широкие возможности для улучшения качества решений в сложных системах, где необходимо учесть контекстные факторы. ## Выводы В итоге, ASPEN+ представляет собой значительный шаг в практическом применении логических подходов к решению проблемы сущностного разрешения. Будущие исследования будут призваны улучшить алгоритмы, исследовать новые критерии оптимальности и расширить приложения в различных областях.

Abstract

In this paper, we present ASPEN+, which extends an existing ASP-based system, ASPEN,for collective entity resolution with two important functionalities: support for local merges and new optimality criteria for preferred solutions. Indeed, ASPEN only supports so-called global merges of entity-referring constants (e.g. author ids), in which all occurrences of matched constants are treated as equivalent and merged accordingly. However, it has been argued that when resolving data values, local merges are often more appropriate, as e.g. some instances of 'J. Lee' may refer to 'Joy Lee', while others should be matched with 'Jake Lee'. In addition to allowing such local merges, ASPEN+ offers new optimality criteria for selecting solutions, such as minimizing rule violations or maximising the number of rules supporting a merge. Our main contributions are thus (1) the formalisation and computational analysis of various notions of optimal solution, and (2) an extensive experimental evaluation on real-world datasets, demonstrating the effect of local merges and the new optimality criteria on both accuracy and runtime.

Ссылки и действия