Recommandation Diversifiée et Distribuée pour les Données Scientifiques

Maximilien Servajean 1, 2
2 ZENITH - Scientific Data Management
LIRMM - Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier, CRISAM - Inria Sophia Antipolis - Méditerranée
Résumé : La recommandation est devenue un mécanisme pour populaire afin d'aider les utilisateurs à retrouver des données pertinentes à grande échelle (e.g. données scientifiques, Web). De plus, différentes techniques de diversifications ont été proposées afin d'éviter les redondances des résultats dans le processus de recommandation. Intuitivement, l'objectif de cette diversification est de retourner à l'utilisateur une liste d'éléments qui sont à la fois dissimilaires, mais également pertinents étant donnés les intérêts de l'utilisateur. Dans la première partie de cette thèse, l'objectif principal a été de définir une nouvelle solution de recherche et de recommandation diversifiée adaptée aux données scientifiques (i.e. données de phénotypage, données de botanique). Nous avons ainsi proposé, dans un premier temps, la notion de diversification des profils qui permet de résoudre le problème consistant à retourner des objets (i.e. items) trop redondants, et améliore la qualité de la diversification par rapport à l'état de l'art. Nous pensons que ce travail est le premier à aborder la diversité des profils pour éviter d'avoir des objets très pertinents mais également trop spécialisés. Au travers d'une évaluation expérimentale via deux jeux de données, nous avons montré que notre fonction de score présente le meilleur compromis entre diversité et pertinence. Afin de mettre en œuvre notre nouvelle fonction de score, nous avons proposé un algorithme Top-k basé sur un seuil qui exploite la notion de liste de candidats afin de calculer la diversification. Cependant, cet algorithme est gourmand et ne s'adapte pas bien à l'échelle. Pour cela, nous avons également proposé plusieurs techniques d'optimisation afin d'améliorer les performances. Tout d'abord, nous avons simplifié le modèle de score pour réduire sa complexité de calcul. Deuxièmement, nous avons proposé deux techniques pour réduire le nombre d'éléments dans la liste de candidats, et donc, le nombre de score diversifiés à calculer. Enfin, nous avons proposé différents scores d'indexation (i.e. le score utilisé pour trier les éléments dans les listes inversées) qui prennent en compte la diversification des objets, scores que nous avons utilisés pour développer une approche d'indexation adaptative utile afin de limiter le nombre d'accès dans les index et basée sur l'ensemble des requêtes soumises au système (i.e. queries workload). Nous avons évalué la performance de nos techniques de manière expérimentale. Les résultats montrent que nos optimisations peuvent réduire le temps de réponse jusqu'à un facteur 12 par rapport à un algorithme de diversification basique. Dans la deuxième partie de la thèse, nous avons abordé le problème de la recommandation distribuée et diversifiée (P2P et multi-site) qui s'adapte très bien à nos différents scénarios d'application. Nous avons proposé une nouvelle fonction de score (usefulness ou utilité) permettant de regrouper les utilisateurs pertinents présents dans le recouvrement distribué. Nous avons analysé le nouvel algorithme de regroupement correspondant en détail, et nous avons étudié son comportement avec une évaluation expérimentale utilisant différents jeux de données. Par rapport à l'état des solutions de l'art, nous obtenons des gains importants en termes de rappel (ordre de 3 fois).
Type de document :
Thèse
Recherche d'information [cs.IR]. Université Montpellier 2, 2014. Français
Liste complète des métadonnées

Littérature citée [94 références]  Voir  Masquer  Télécharger

https://hal-lirmm.ccsd.cnrs.fr/tel-01098191
Contributeur : Maximilien Servajean <>
Soumis le : mardi 23 décembre 2014 - 11:32:30
Dernière modification le : jeudi 11 janvier 2018 - 16:19:55
Document(s) archivé(s) le : mardi 24 mars 2015 - 10:16:07

Identifiants

  • HAL Id : tel-01098191, version 1

Citation

Maximilien Servajean. Recommandation Diversifiée et Distribuée pour les Données Scientifiques. Recherche d'information [cs.IR]. Université Montpellier 2, 2014. Français. 〈tel-01098191〉

Partager

Métriques

Consultations de la notice

843

Téléchargements de fichiers

676