Motifs sequentiels pour la completion des valeurs manquantes
Résumé
Les bases de données issues du monde réel contiennent souvent de nombreuses informations non renseignées. Durant le processus d'extraction de connaissances dans les bases de données, une phase d'élimination des données non complètement renseignées est souvent nécessaire. Lors de cette phase, les données incomplètes peuvent être supprimées ou complétées. Ces deux solutions sont lourdes de conséquences pour la connaissance qui sera ensuite extraite. En effet, la suppression peut parfois conduire à l'élimination de plus de la moitié de la base, aussi l'information extraite n'est plus représentative. La complétion introduit un biais dans les données. Certaines méthodes permettent de choisir des valeurs afin de compléter au mieux des données incomplètes, mais elles ne conduisent pas toujours à des résultats satisfaisants. Afin de gérer cette phase de complétion, nous proposons d'améliorer une méthode de complétion basée sur les règles d'association en utilisant les motifs séquentiels, qui prennent en compte la notion d'ordre pouvant exister entre les enregistrements d'une base de données.