Indexation de co-occurrences guidée par la structure des documents et contrôlée par une ontologie et l'exploitation du corpus

Pierre Pompidor; Boris Carbonneill; Michel Sala

Communication Dans Un Congrès Année : 2008

Indexation de co-occurrences guidée par la structure des documents et contrôlée par une ontologie et l'exploitation du corpus

(1) , (2) , (1)

1
2

Pierre Pompidor

Fonction : Auteur
PersonId : 170558
IdHAL : pierre-pompidor
ORCID : 0000-0001-5466-5137

Fouille de données environnementales

Boris Carbonneill

Fonction : Auteur

Société C6

Michel Sala

Fonction : Auteur
PersonId : 938397

Fouille de données environnementales

Résumé

Confronté à la problématique de l'indexation de très grands corpus documentaires d'entreprises, nous avons mis au point une méthode simple mais efficace (en terme de temps de calcul et de volumétrie), permettant de filtrer par document les co-occurrences les plus représentatives de ceux-ci. Nous nous plaçons dans un contexte de co-occurrences pour deux raisons. D'une part les requêtes portant sur des corpus spécialisés, et composées par des experts, s'appuient sur peu de termes précisément choisis dont nous indexons les associations, et d'autre part car cela facilitera la construction de cartes sémantiques de navigation dans les concepts du corpus. L'axe principal de ce travail est la prise en compte de la structure des documents en validant les contenus des paragraphes par ceux de leurs titres. Notre méthode s'appuie sur des mesures tf.idf successives effectuées dans le contexte d'un document et non d'un corpus, sur les contenus des paragraphes auxquels sont intégrés progressivement la hiérarchie des titres les introduisant. Puis nous exploitons simultanément une ontologie de contrôle et les requêtes des utilisateurs comportant les termes précédemment discriminés pour valider par le théorème de Bayes, les associations sémantiques ainsi déterminées.

Mots clés

Théorème de Bayes Contexte de co-occurrences Exploitation de la structure des documents Indexation incrémentale et rapide de très grands corpus

Domaines

Recherche d'information [cs.IR]

Fichier principal

Pompidor_INFORSID_2008.pdf (201.03 Ko)

Pierre Pompidor : Connectez-vous pour contacter le contributeur

https://hal-lirmm.ccsd.cnrs.fr/lirmm-00273454

Soumis le : mardi 15 avril 2008-13:28:55

Dernière modification le : vendredi 24 mars 2023-14:52:50

Archivage à long terme le : vendredi 21 mai 2010-01:45:24

Dates et versions

lirmm-00273454 , version 1 (15-04-2008)

Identifiants

HAL Id : lirmm-00273454 , version 1

Citer

Pierre Pompidor, Boris Carbonneill, Michel Sala. Indexation de co-occurrences guidée par la structure des documents et contrôlée par une ontologie et l'exploitation du corpus. INFORSID, May 2008, Fontainebleau, France. ⟨lirmm-00273454⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS LIRMM MIPS UNIV-MONTPELLIER

127 Consultations

152 Téléchargements

Indexation de co-occurrences guidée par la structure des documents et contrôlée par une ontologie et l'exploitation du corpus

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager