Indexation de Co-Occurrences dans des Corpus de Documents Structurés et Production de Cartes Sémantiques Interactives - LIRMM - Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier Accéder directement au contenu
Article Dans Une Revue Document numérique - Revue des sciences et technologies de l'information. Série Document numérique Année : 2009

Indexation de Co-Occurrences dans des Corpus de Documents Structurés et Production de Cartes Sémantiques Interactives

Boris Carbonneill
  • Fonction : Auteur
  • PersonId : 861155
Michel Sala
  • Fonction : Auteur
  • PersonId : 938397

Résumé

Confrontés à la problématique de l'indexation de très grands corpus documentaires d'entreprises, nous avons mis au point une méthode simple mais efficace (en temps de calcul et de volumétrie), permettant de filtrer par document les co-occurrences les plus représentatives de ceux-ci. Le choix d'un contexte de co-occurrences a deux raisons. D'une part les requêtes portant sur des corpus spécialisés et composées par des experts, s'appuient sur peu de termes précisément choisis dont l'indexation des associations permet la construction de cartes sémantiques de navigation dans les concepts du corpus. Pour cela nous prenons en compte de la structure des documents en validant les contenus des paragraphes par ceux de leurs titres. Notre méthode s'appuie sur des mesures tf.idf successives effectuées dans le contexte d'un document et non d'un corpus, sur les contenus des paragraphes auxquels sont intégrés progressivement la hiérarchie des titres les introduisant. Puis nous exploitons simultanément une ontologie de contrôle et les requêtes des utilisateurs comportant les termes précédemment discriminés pour valider par le théorème de Bayes, les associations sémantiques ainsi déterminées, qui finalement permettent la production de cartes sémantiques.
Fichier principal
Vignette du fichier
pompidor_revue_DOC_NUM.pdf (182.59 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

lirmm-00394364 , version 1 (21-10-2009)

Identifiants

Citer

Pierre Pompidor, Boris Carbonneill, Michel Sala. Indexation de Co-Occurrences dans des Corpus de Documents Structurés et Production de Cartes Sémantiques Interactives. Document numérique - Revue des sciences et technologies de l'information. Série Document numérique, 2009, 12 (1), pp.53-79. ⟨10.3166/DN.12.1.53-79⟩. ⟨lirmm-00394364⟩
81 Consultations
161 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More