Extraction et Intégration d'Informations Semi-structurées dans les pages Web - Projet Chimère - LIRMM - Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier Accéder directement au contenu
Chapitre D'ouvrage Année : 2005

Extraction et Intégration d'Informations Semi-structurées dans les pages Web - Projet Chimère

Résumé

Ce papier se situe dans le cadre du projet Chimère dont objectif est de faciliter l'accès à plusieurs serveurs d'information spécifiques à un domaine donné et dont la particularité est de délivrer des informa-tions extraites de bases de données après que l'utili-sateur ait rempli des formulaires. Les pages de tels serveurs incluent ces formulaires qui se composent de zones de saisies et de données textuelles apparais-sant à proximité immédiate de ces zones. Ces types de pages sont très fréquents dans le domaine de la réservation de moyens de transport (ex. Air France, SNCF) et dans le commerce électronique. Un tel contexte pose deux problèmes à résoudre : i)l'extraction des informations de telles pages "formulaires" en combinant les données structurées et les "brèves" données textuelles, ii) l'intégration et l'exploitation des informations extraites de différents sites et répondant à un même service, sachant que les problèmes d'hétérogénéité doivent être transparents pour l'utilisateur. Pour traiter i) nous effectuons une analyse des pages "formulaires" à partir d'une ontologie du domaine et d'une analyse syntaxique et sémantique de texte. ii) est un problème de modélisation de la partie de chaque site qui relève du domaine en utilisant un vocabulaire et un langage identique pour tous les sites concernés. Nous avons retenu une approche incrémentale consistant à développer dans un premier temps un prototype minimal qui montre la faisabilité de l'approche retenue.
Fichier principal
Vignette du fichier
Extraction_et_Integration_dInformations_Semi-stru.pdf (163.46 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

lirmm-00090025 , version 1 (21-06-2019)

Identifiants

  • HAL Id : lirmm-00090025 , version 1

Citer

Marie-Sophie Segret, Pierre Pompidor, Danièle Hérin. Extraction et Intégration d'Informations Semi-structurées dans les pages Web - Projet Chimère. R. Teulier; J. Charlet; P. Tchounikine. Ingénierie des connaissances, L'Harmattan, 18 p., 2005, 2-7475-8240-X. ⟨lirmm-00090025⟩
79 Consultations
38 Téléchargements

Partager

Gmail Facebook X LinkedIn More