Données semi-structurées. Découverte, maintenance et analyse de tendances

Résumé : La recherche de connaissances dans des données structurées a fait l'objet de nombreux travaux de recherche ces dernières années. Cependant, avec la popularité du Web, le nombre de documents semi structurés augmente très rapidement et il est judicieux de penser qu'une requête sur la structure des documents devient aussi importante qu'une requête sur les données elles mêmes. Dans cet article nous proposons une approche pour extraire de telles sous structures. De plus, les données évoluant sans cesse, nous étendons l'approche pour prendre en compte l'évolution de ces données sources dans le cadre d'un processus d'extraction. Enfin, nous montrons qu'il est possible d'analyser finement les tendances au cours des différentes évolutions des données sources. ABSTRACT. Mining knowledge from structured data has been extensively addressed in the few past years. However, with the growing popularity of the Web, the number of semi structured documents available is rapidly increasing and it is judicious to assume that a query on document structure is almost as important as a query on data. In this paper, we propose an approach to extract such structures. Moreover, manipulated data is constantly being updated; we extend our approach to take into account source evolutions in a knowledge extraction process. Finally, we show that it is possible to analyze trends during the different data sources evolutions. MOTS-CLÉS : données semi structurées, extraction de connaissances, évolutions des sources de données, tendances.
Type de document :
Article dans une revue
Revue des Sciences et Technologies de l'Information - Série ISI : Ingénierie des Systèmes d'Information, Lavoisier, 2003, 8 (5-6), pp.49-78. 〈10.3166/isi.8.5-6.49-78〉
Liste complète des métadonnées

https://hal-lirmm.ccsd.cnrs.fr/lirmm-00269698
Contributeur : Christine Carvalho de Matos <>
Soumis le : samedi 3 novembre 2018 - 22:50:49
Dernière modification le : samedi 3 novembre 2018 - 23:10:29

Fichier

5c34b98ccd04839fa10f47aec91a0f...
Fichiers produits par l'(les) auteur(s)

Identifiants

Collections

Citation

Pierre-Alain Laur, Maguelonne Teisseire, Pascal Poncelet. Données semi-structurées. Découverte, maintenance et analyse de tendances. Revue des Sciences et Technologies de l'Information - Série ISI : Ingénierie des Systèmes d'Information, Lavoisier, 2003, 8 (5-6), pp.49-78. 〈10.3166/isi.8.5-6.49-78〉. 〈lirmm-00269698〉

Partager

Métriques

Consultations de la notice

243

Téléchargements de fichiers

7