Mesurer et évaluer la Qualité des Données et des Connaissances
Résumé
Depuis plusieurs années, les ateliers QDC (Qualité des Données et des Connaissances) et EvalECD (évaluation des méthodes d'Extraction de Connaissances dans les Données) sont organisés dans le cadre de la conférence EGC (Extraction et Gestion des Connaissances). Lors de l'édition 2011, nous avons rassemblé ces ateliers autour d'un thème unique lié à la qualité des données et des connaissances et à leur évaluation. Cette problématique est devenue un des sujets d'intérêt tout à la fois émergent dans le domaine de la recherche et critique pour les entreprises. Dans le même objectif, le numéro spécial de cette revue RNTI décrit des approches d'analyse et d'évaluation de la qualité au sens large, tant en fouille de données qu'en gestion des connaissances : - préparation des données (analyse de la qualité des données, nettoyage des données, méthodologies de prétraitement, métriques d'évaluation et approches algorithmiques), - élaboration de distances et de mesures adaptées aux données réelles (données hétérogènes, gros volumes de données, asymétrie et non-normalité des distributions de données), - évaluation des modèles et des résultats en fouille de données (qualité des méthodes et algorithmes, analyse comparative, études sur les mesures d'intérêt, agrégation de préférences, post-traitement des résultats), - gestion des connaissances (qualité des ontologies, qualité des alignements, typologie des connaissances, visualisation, analyse des usages). La découverte de connaissances et la prise de décision à partir de données de qualité médiocre (c'est-à-dire contenant des erreurs, doublons, incohérences, valeurs manquantes, etc) ont des conséquences directes et significatives pour tous les utilisateurs, quel que soit le domaine d'application, gouvernemental, commercial, industriel ou scientifique. In fine, l'évaluation des résultats issus du processus de traitement des données, est généralement effectuée par un spécialiste (expert, analyste). Ce numéro spécial a également pour objectif de discuter des techniques d'évaluation qui sont utilisées dans différents domaines (fouille de données, intégration de données, ingénierie des connaissances ou encore traitement automatique des langues). Cette tâche de post-traitement est souvent cruciale et pose de nouveaux problèmes lié aux critères et métriques d'évaluation et à leur subjectivité. Dans le cadre de ce numéro spécial, treize résumés ont été soumis et finalement douze articles ont été évalués par le Comité Editorial (sept ont été acceptés avec modifications mineures et deux avec modifications majeures). Nous souhaitons remercier chaleureusement les auteurs pour leur contribution ainsi que les relecteurs qui ont permis de garantir la qualité scientifique de ce numéro spécial. Notons que les rédacteurs invités ayant soumis un article n'ont pas participé à la gestion du processus d'évaluation afin de garantir la rigueur et l'anonymat dans l'évaluation scientifique. Ce numéro spécial est composé de neuf articles qui ont été regroupés en trois thématiques : l'évaluation de la qualité des données et des connaissances, les mesures de qualité et les applications liées à l'environnement et à la santé. La première partie de cette revue présente trois articles sur l'évaluation de la qualité des données et des connaissances. L'article proposé par Mohamad El-Abed et al. développe une méthode générique pour évaluer la qualité de données biométriques fondée sur l'utilisation conjointe de la qualité brute de l'image traitée et de la qualité des paramètres extraits de l'image. Des résultats expérimentaux ont été obtenus à partir de cinq bases d'images de visages et d'empreintes digitales ayant été dégradées pour évaluer l'efficacité des critères proposés pour l'évaluation des systèmes biométriques. Après le thème traitant de l'évaluation des images, l'article suivant se focalise sur la problématique de l'évaluation en fouille de textes. Ainsi, l'article d'Estelle Delpech présente un protocole d'évaluation d'un processus de traduction de textes spécialisés -- de terminologies multilingues issues de corpus comparables. Les résultats confirment que ces terminologies multilingues apprises automatiquement à partir de corpus (représentant un sur-ensemble du type de textes dont on demande la traduction) sont souvent plus pertinentes si le domaine d'application est ciblé. La deuxième thématique de ce numéro spécial étudie de manière plus générale quelques mesures de qualité. Dans ce cadre, l'article proposé par Baptiste Hemery et al. propose une métrique et une démarche structurée d'évaluation des méthodes de reconnaissances d'images. L'approche permet de jumeler les scores d'une évaluation de localisation des contours de l'objet et de la reconnaissance du type de l'objet. Les résultats expérimentaux sur des données artificielles permettent de comprendre comment cette mesure réagit à différentes distorsions sur la reconnaissance. De légères variations dans le jeu de données peuvent impacter fortement la très bonne évaluation d'une règle d'association par une mesure de qualité. L'article de Yannick Le Bras et al. propose une définition formelle de la robustesse pour les règles d'association qui dépend de la mesure de qualité utilisée pour évaluer les règles et du seuil d'acceptation minimal. L'article proposé par Souad Bouasker et al. propose d'intégrer la mesure de corrélation bond afin de n'extraire que l'ensemble des motifs rares corrélés, et se basant sur les classes d'équivalence associées à un opérateur de fermeture dédié à la mesure bond, il propose des représentations concises exactes de ces motifs. Le choix d'une ou plusieurs mesures lors d'un processus d'extraction des connaissances est crucial pour filtrer les trop nombreuses connaissances extraites et éliminer notamment les règles d'associations valides mais non pertinentes. L'article proposé par Sylvie Guillaume et al. présente l'évaluation des propriétés de soixante-et-une mesures d'intérêt. Ces travaux ont permis de les grouper en sept classes ayant des comportements identiques et des propriétés non redondantes au moyen de la méthode de la classification ascendante hiérarchique et d'une version de la méthode de classification non-hiérarchique des k-moyennes. L'article de Marie-Jeanne Lesot et Maria Rifqi compare les mesures de similarité pour des données binaires et numériques et quantifie leur proximité et redondance par des degrés d'équivalence basés sur le coefficient de Kendall généralisé. La troisième partie de cette revue présente deux articles liés à des applications en Environnement et Santé qui sont des domaines phares actuellement développés en extraction et gestion des connaissances. L'article d'Hugo Alatrista Salas et al. détaille un processus de fouille de données hydrologiques. Cet article donne une description précise des données environnementales traitées et du processus global appliqué. La principale contribution de l'article réside dans la proposition d'une extension de la mesure appelée moindre contradiction dans le but de traiter les données spatio-temporelles. Outre les données environnementales souvent très complexes, celles liées à la santé ont également des caractéristiques spécifiques comme le décrit l'article de Pierre Naubourg et al Ce dernier présente un système d'importation des données hétérogènes de protéomique clinique qui permet de contrôler leur qualité et leur cohérence. L'approche proposée s'appuie sur l'utilisation d'ontologies spécialisées et d'un système de règles associé.