Entity Resolution for Uncertain Data

Naser Ayat 1 Reza Akbarinia 2 Hamideh Afsarmanesh 1 Patrick Valduriez 2
2 ZENITH - Scientific Data Management
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier, CRISAM - Inria Sophia Antipolis - Méditerranée
Abstract : Entity resolution (ER), also known as duplicate detection or record matching, is the problem of identifying the tuples that represent the same real world entity. In this paper, we address the problem of ER for uncertain data, which we call ERUD. We propose two different approaches for the ERUD problem based on two classes of similarity functions, i.e. context-free and context-sensitive. We propose a PTIME algorithm for context-free similarity functions, and a Monte Carlo algorithm for context-sensitive similarity functions. Existing context-sensitive similarity functions need at least one pass over the database to compute some statistical features of data, which makes it very inefficient for our Monte Carlo algorithm. Thus, we propose a novel context-sensitive similarity function that makes our Monte Carlo algorithm more efficient. To further improve the efficiency of our proposed Monte Carlo algorithm, we propose a parallel version of it using the MapReduce framework. We validated our algorithms through experiments over both synthetic and real datasets. Our performance evaluation shows the effectiveness of our algorithms in terms of success rate and response time.
Type de document :
Communication dans un congrès
BDA: Bases de Données Avancées, 2012, Clermont-Ferrand, France. 28e journées Bases de Données Avancées, 2012
Liste complète des métadonnées

Littérature citée [33 références]  Voir  Masquer  Télécharger

https://hal-lirmm.ccsd.cnrs.fr/lirmm-00748625
Contributeur : Reza Akbarinia <>
Soumis le : lundi 5 novembre 2012 - 16:16:16
Dernière modification le : jeudi 24 mai 2018 - 15:59:21
Document(s) archivé(s) le : mercredi 6 février 2013 - 03:56:10

Fichier

BDA_2012_-_Entity_Resolution_f...
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : lirmm-00748625, version 1

Collections

Citation

Naser Ayat, Reza Akbarinia, Hamideh Afsarmanesh, Patrick Valduriez. Entity Resolution for Uncertain Data. BDA: Bases de Données Avancées, 2012, Clermont-Ferrand, France. 28e journées Bases de Données Avancées, 2012. 〈lirmm-00748625〉

Partager

Métriques

Consultations de la notice

339

Téléchargements de fichiers

427