Extraction et Intégration d'Informations Semi-structurées dans les pages Web - Projet Chimère

Résumé : Ce papier se situe dans le cadre du projet Chimère dont objectif est de faciliter l'accès à plusieurs serveurs d'information spécifiques à un domaine donné et dont la particularité est de délivrer des informa-tions extraites de bases de données après que l'utili-sateur ait rempli des formulaires. Les pages de tels serveurs incluent ces formulaires qui se composent de zones de saisies et de données textuelles apparais-sant à proximité immédiate de ces zones. Ces types de pages sont très fréquents dans le domaine de la réservation de moyens de transport (ex. Air France, SNCF) et dans le commerce électronique. Un tel contexte pose deux problèmes à résoudre : i)l'extraction des informations de telles pages "formulaires" en combinant les données structurées et les "brèves" données textuelles, ii) l'intégration et l'exploitation des informations extraites de différents sites et répondant à un même service, sachant que les problèmes d'hétérogénéité doivent être transparents pour l'utilisateur. Pour traiter i) nous effectuons une analyse des pages "formulaires" à partir d'une ontologie du domaine et d'une analyse syntaxique et sémantique de texte. ii) est un problème de modélisation de la partie de chaque site qui relève du domaine en utilisant un vocabulaire et un langage identique pour tous les sites concernés. Nous avons retenu une approche incrémentale consistant à développer dans un premier temps un prototype minimal qui montre la faisabilité de l'approche retenue.
Document type :
Book sections
Complete list of metadatas

Cited literature [25 references]  Display  Hide  Download

https://hal-lirmm.ccsd.cnrs.fr/lirmm-00090025
Contributor : Christine Carvalho de Matos <>
Submitted on : Friday, June 21, 2019 - 2:26:07 PM
Last modification on : Monday, June 24, 2019 - 8:28:31 PM

File

Extraction_et_Integration_dInf...
Files produced by the author(s)

Identifiers

  • HAL Id : lirmm-00090025, version 1

Collections

Citation

Marie-Sophie Segret, Pierre Pompidor, Danièle Hérin. Extraction et Intégration d'Informations Semi-structurées dans les pages Web - Projet Chimère. R. Teulier; J. Charlet; P. Tchounikine. Ingénierie des connaissances, L'Harmattan, 18 p., 2005, 2-7475-8240-X. ⟨lirmm-00090025⟩

Share

Metrics

Record views

91

Files downloads

6