Recherche documentaire par titrage automatique
Résumé
Nous proposons dans cet article un système facilitant la recherche d'information dans un ensemble de documents textuels, basé sur le titrage (et sous-titrage) automatique. Ce dernier peut se révéler crucial, par exemple, dans le cadre de la problématique de l'accessibilité des pages web (norme W3C). Notre processus de titrage automatique consiste à extraire des syntagmes nominaux pertinents dans les textes, pouvant constituer des titres ou sous-titres candidats. Une approche originale combinant des critères statistiques et de placement des mots dans le texte permet alors de proposer des titres et sous-titres pertinents à un utilisateur sous forme de sommaire. L'utilisateur peut donc facilement prendre connaissance de l'ensemble des sujets évoqués dans une masse de documents, et aisément retrouver le document l'intéressant le cas échéant. Une évaluation sur des données réelles montre que les solutions fournies par notre approche de titrage automatique se révèlent tout à fait pertinentes.
Domaines
Traitement du texte et du documentOrigine | Fichiers produits par l'(les) auteur(s) |
---|
Loading...