Extraction et Intégration d'Informations Semi-structurées dans les pages Web - Projet Chimère - LIRMM - Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier
Book Sections Year : 2005

Extraction et Intégration d'Informations Semi-structurées dans les pages Web - Projet Chimère

Abstract

Ce papier se situe dans le cadre du projet Chimère dont objectif est de faciliter l'accès à plusieurs serveurs d'information spécifiques à un domaine donné et dont la particularité est de délivrer des informa-tions extraites de bases de données après que l'utili-sateur ait rempli des formulaires. Les pages de tels serveurs incluent ces formulaires qui se composent de zones de saisies et de données textuelles apparais-sant à proximité immédiate de ces zones. Ces types de pages sont très fréquents dans le domaine de la réservation de moyens de transport (ex. Air France, SNCF) et dans le commerce électronique. Un tel contexte pose deux problèmes à résoudre : i)l'extraction des informations de telles pages "formulaires" en combinant les données structurées et les "brèves" données textuelles, ii) l'intégration et l'exploitation des informations extraites de différents sites et répondant à un même service, sachant que les problèmes d'hétérogénéité doivent être transparents pour l'utilisateur. Pour traiter i) nous effectuons une analyse des pages "formulaires" à partir d'une ontologie du domaine et d'une analyse syntaxique et sémantique de texte. ii) est un problème de modélisation de la partie de chaque site qui relève du domaine en utilisant un vocabulaire et un langage identique pour tous les sites concernés. Nous avons retenu une approche incrémentale consistant à développer dans un premier temps un prototype minimal qui montre la faisabilité de l'approche retenue.
Fichier principal
Vignette du fichier
Extraction_et_Integration_dInformations_Semi-stru.pdf (163.46 Ko) Télécharger le fichier
Origin Files produced by the author(s)
Loading...

Dates and versions

lirmm-00090025 , version 1 (21-06-2019)

Identifiers

  • HAL Id : lirmm-00090025 , version 1

Cite

Marie-Sophie Segret, Pierre Pompidor, Danièle Hérin. Extraction et Intégration d'Informations Semi-structurées dans les pages Web - Projet Chimère. R. Teulier; J. Charlet; P. Tchounikine. Ingénierie des connaissances, L'Harmattan, 18 p., 2005, 2-7475-8240-X. ⟨lirmm-00090025⟩
80 View
40 Download

Share

More