Données semi-structurées. Découverte, maintenance et analyse de tendances

Résumé : La recherche de connaissances dans des données structurées a fait l'objet de nombreux travaux de recherche ces dernières années. Cependant, avec la popularité du Web, le nombre de documents semi structurés augmente très rapidement et il est judicieux de penser qu'une requête sur la structure des documents devient aussi importante qu'une requête sur les données elles mêmes. Dans cet article nous proposons une approche pour extraire de telles sous structures. De plus, les données évoluant sans cesse, nous étendons l'approche pour prendre en compte l'évolution de ces données sources dans le cadre d'un processus d'extraction. Enfin, nous montrons qu'il est possible d'analyser finement les tendances au cours des différentes évolutions des données sources. ABSTRACT. Mining knowledge from structured data has been extensively addressed in the few past years. However, with the growing popularity of the Web, the number of semi structured documents available is rapidly increasing and it is judicious to assume that a query on document structure is almost as important as a query on data. In this paper, we propose an approach to extract such structures. Moreover, manipulated data is constantly being updated; we extend our approach to take into account source evolutions in a knowledge extraction process. Finally, we show that it is possible to analyze trends during the different data sources evolutions. MOTS-CLÉS : données semi structurées, extraction de connaissances, évolutions des sources de données, tendances.
Document type :
Journal articles
Complete list of metadatas

Cited literature [27 references]  Display  Hide  Download

https://hal-lirmm.ccsd.cnrs.fr/lirmm-00269698
Contributor : Christine Carvalho de Matos <>
Submitted on : Saturday, November 3, 2018 - 10:50:49 PM
Last modification on : Saturday, November 3, 2018 - 11:10:29 PM
Long-term archiving on : Monday, February 4, 2019 - 12:48:04 PM

File

5c34b98ccd04839fa10f47aec91a0f...
Files produced by the author(s)

Identifiers

Collections

Citation

Pierre-Alain Laur, Maguelonne Teisseire, Pascal Poncelet. Données semi-structurées. Découverte, maintenance et analyse de tendances. Revue des Sciences et Technologies de l'Information - Série ISI : Ingénierie des Systèmes d'Information, Lavoisier, 2003, 8 (5-6), pp.49-78. ⟨10.3166/isi.8.5-6.49-78⟩. ⟨lirmm-00269698⟩

Share

Metrics

Record views

361

Files downloads

100