Spams, une nouvelle approche incrémentale pour l'extraction de motifs séquentiels fréquents dans les Data streams

Lionel Vinceslas; Jean-Émile Symphor; Alban Mancheron; Pascal Poncelet

Communication Dans Un Congrès Année : 2009

Spams, une nouvelle approche incrémentale pour l'extraction de motifs séquentiels fréquents dans les Data streams

(1) , (1) , , (2)

1
2

Lionel Vinceslas

Fonction : Auteur
PersonId : 866147

Groupe de Recherche en Informatique et Mathématiques Appliquées Antilles-Guyane

Jean-Émile Symphor

Fonction : Auteur

Groupe de Recherche en Informatique et Mathématiques Appliquées Antilles-Guyane

Alban Mancheron

Fonction : Auteur
PersonId : 6019
IdHAL : alban-mancheron
ORCID : 0000-0001-9249-7592
IdRef : 111581362

Pascal Poncelet

Fonction : Auteur
PersonId : 6247
IdHAL : pascal-poncelet
ORCID : 0000-0002-8277-3490
IdRef : 069260613

Fouille de données environnementales

Résumé

L'extraction de motifs séquentiels fréquents dans les data streams est un enjeu important traité par la communauté des chercheurs en fouille de données. Plus encore que pour les bases de données, de nombreuses contraintes supplémentaires sont à considérer de par la nature intrinsèque des streams. Dans cet article, nous proposons un nouvel algorithme en une passe : SPAMS, basé sur la construction incrémentale, avec une granularité très fine par transaction, d'un automate appelé SPA, permettant l'extraction des motifs séquentiels dans les streams. L'information du stream est apprise à la volée, au fur et à mesure de l'insertion de nouvelles transactions, sans pré-traitement a priori. Les résultats expérimentaux obtenus montrent la pertinence de la structure utilisée ainsi que l'efficience de notre algorithme appliqué à différents jeux de données.

Domaines

Base de données [cs.DB]

Fichier principal

egc09SPAMS.pdf (312.43 Ko)

Origine	Fichiers produits par l'(les) auteur(s)

Pascal Poncelet : Connectez-vous pour contacter le contributeur

https://hal-lirmm.ccsd.cnrs.fr/lirmm-00345563

Soumis le : jeudi 4 avril 2019-09:33:57

Dernière modification le : vendredi 24 mars 2023-14:53:10

Archivage à long terme le : vendredi 5 juillet 2019-12:42:24

Dates et versions

lirmm-00345563 , version 1 (04-04-2019)

Identifiants

HAL Id : lirmm-00345563 , version 1

Citer

Lionel Vinceslas, Jean-Émile Symphor, Alban Mancheron, Pascal Poncelet. Spams, une nouvelle approche incrémentale pour l'extraction de motifs séquentiels fréquents dans les Data streams. EGC: Extraction et Gestion des Connaissances, Jan 2009, Strasbourg, France. pp.205-216. ⟨lirmm-00345563⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-AG CNRS LIRMM MIPS UNIV-MONTPELLIER

313 Consultations

53 Téléchargements

Spams, une nouvelle approche incrémentale pour l'extraction de motifs séquentiels fréquents dans les Data streams

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager