S²MP : Une mesure de similarité pour les motifs séquentiels
Abstract
Dans le domaine de l'extraction de connaissances, comparer la similarité des objets est une tâche essentielle, par exemple pour identifier des régularités ou pour construire des classes d'objets homogènes. Ce problème est très important pour les données séquentielles présentes dans divers domaines d'application (e.g. séries d'achats de clients, navigations d'internautes). Il existe des mesures de similarité comme Edit distance et LCS adaptées aux séquences simples. Cependant elles ne sont pas pertinentes dans le cas des séquences complexes composées de séries d'ensembles, comme les motifs séquentiels. Dans cet article, nous proposons une nouvelle mesure de similarité (S2 MP - Similarity Measure for Sequential Patterns) prenant en compte les caractéristiques des motifs séquentiels. S2 MP est une mesure paramétrable en fonction de l'importance accordée à chaque caractéristique des motifs séquentiels selon le contexte d'application, ce qui n'est pas le cas des mesures existantes. La qualité sémantique de notre mesure ainsi que son efficacité a été validée grâce à des expérimentations sur différents jeux de données. Les expérimentations montrent que les clusters obtenus en utilisant S2MP sont plus homogènes, plus précis et plus complets que ceux obtenus avec Edit distance.
Origin | Files produced by the author(s) |
---|
Loading...