Compression de flux de données probabilistes attentive à l'agrégation
Résumé
Ces dernières années, la gestion de données probabilistes a connu un intérêt croissant. Ce travail concerne des séries chronologiques probabilistes où une caractéristique principale est le très grand volume de données, faisant appel à des techniques de compression efficaces . À ce jour, la plupart des travaux sur le résumé de données probabilistes concernait des synopsis qui minimisent l'erreur de représentation par rapport aux données d'origine. Cependant, dans la plupart des cas , les données compressées n'auront aucun sens pour les requêtes classiques impliquant des opérateurs d'agrégat tels que SUM ou AVG . Nous proposons PHA (Probabilistic Histogram Aggregation) , une technique de compression dont l'objectif est de minimiser l'erreur de ces requêtes sur des données probabilistes compressés. Nous incorporons l'opérateur d'agrégation donné par l'utilisateur directement dans la technique de la compression, afin d'obtenir une erreur beaucoup plus faible sur le long terme. Nous adoptons également une stratégie d'optimisation de l'erreur globale afin de gérer de grands ensembles de séries chronologiques probabiliste, où la mémoire disponible est soigneusement répartie entre les séries, en fonction de leur variabilité individuelle.