Improving Quality and Performance of Schema Matching in Large Scale

Fabien Duchateau 1 Mathieu Roche 2 Zohra Bellahsene 3
2 TEXTE - Exploration et exploitation de données textuelles
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier
3 ZENITH - Scientific Data Management
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier, CRISAM - Inria Sophia Antipolis - Méditerranée
Abstract : Schema matching is a crucial task to gather information of the same domain. However, this process is still largely performed manually or semi-automatically, discouraging the deployment of large-scale mediation systems. Indeed, these large-scale scenarii need a solution which ensures both an acceptable matching quality and good performance. In this article, we present the BMatch approach to efficiently match a large number of schemas. The quality aspect is based on the combination of terminological and contextual methods. The performance aspect relies on a B-tree indexing structure to reduce the search space. Finally, experiments with real sets of schemas show that our approach is scalable and outperforms the most referenced matching tools both in quality of matches and performance time.
Type de document :
Article dans une revue
Revue des Sciences et Technologies de l'Information - Série ISI : Ingénierie des Systèmes d'Information, Lavoisier, 2008, 1, pp.59-82
Liste complète des métadonnées

Littérature citée [33 références]  Voir  Masquer  Télécharger

https://hal-lirmm.ccsd.cnrs.fr/lirmm-00343491
Contributeur : Fabien Duchateau <>
Soumis le : lundi 1 décembre 2008 - 16:43:17
Dernière modification le : mercredi 14 novembre 2018 - 14:56:02
Document(s) archivé(s) le : lundi 7 juin 2010 - 20:00:55

Fichier

ISI08_cameraReady2.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : lirmm-00343491, version 1

Collections

Citation

Fabien Duchateau, Mathieu Roche, Zohra Bellahsene. Improving Quality and Performance of Schema Matching in Large Scale. Revue des Sciences et Technologies de l'Information - Série ISI : Ingénierie des Systèmes d'Information, Lavoisier, 2008, 1, pp.59-82. 〈lirmm-00343491〉

Partager

Métriques

Consultations de la notice

330

Téléchargements de fichiers

286