Acquisition de vocabulaire Patient/Médecin

Yassine Motie

Résumé

Introduction et motivations
Le foisonnement de l'information médicale dû à l'informatisation croissante des professionnels de santé à l'hôpital et hors de l'hôpital ainsi que le déploiement d'Internet, nous pousse à réfléchir sur une manière d'exploiter cette importante masse d'informations, notamment celle produite en parallèle des sites institutionnels comme celui de l'assurance maladie http://www.ameli.fr/ ou de la Haute Autorité de Santé (HAS) http://www.has-sante.fr/. En effet, nous assistons à une explosion du "web de la santé". Des centaines de sites proposent des informations médicales, plus ou moins objectives et bien référencées. Elles ne sont pas toujours authentifiées par des médecins qualifiés et pour certaines peu mises à jour. Même lorsque les sites et les articles sont de qualité, les outils communautaires intégrés dans ces sites (tweet, facebook, commentaires en ligne...) permettent aux internautes de partager des commentaires appropriés ou non. Dans le cadre de ce master, nous allons nous focaliser sur un type particulier de sites web médicaux, les forums de santé.
Ces forums de santé contiennent des informations hétérogènes qui posent un réel problème, lié à la difficulté de les indexer automatiquement ou semi-automatiquement. En effet, les méthodes de traitement automatique du langage naturel (TALN) et celles de fouille de textes (FT) qui sont généralement appliquées pour l'indexation reposent sur l'utilisation de ressources de type dictionnaires, thésaurus ou ontologies. Il en existe de très nombreuses dans le domaine de la santé, qui réunissent des ensembles de concepts médicaux, généralement sélectionnés par des experts du domaine. Ces ressources sont mises à jour régulièrement. On peut citer par exemple l'UMLS qui est un meta- thésaurus constitué d'un ensemble de concepts biomédicaux, ainsi que de leurs informations sémantiques. Ces informations sémantiques sont elles-mêmes hiérarchisées dans un réseau sémantique, qui permet d'organiser les types et les catégories sémantiques des concepts. De plus, l'UMLS (Unified Medical Language System) http://www.nlm.nih.gov/research/umls/ contient un lexique spécialisé qui décrit les informations syntaxiques des termes utilisés Mc Cray [1993]. On peut citer égale- ment le MeSH (Medical Subject Headings Lipscomb [2000]) http://www.ncbi.nlm.nih.gov/mesh/ édité par United.States.National Library of Medicine (NLM), dont le but premier était d'indexer les références bibliographiques biomédicales Lindberg and Schoolman [1986]. Ce thésaurus a été traduit en français par l'INSERM (Institut National de la Santé et de la Recherche Médicale http://www.inserm.fr/) et dispose de la plupart des concepts de l'UMLS.
Si les ressources précédentes sont efficaces pour indexer les textes écrits par les professionnels de la santé, elles montrent leurs limites dans le cas des forums de santé. Dans ces derniers, les messages sont généralement écrits par des patients ou leur proches. Ils sont peu rigoureux, avec des fautes d'orthographe, des abréviations, des mots d'argot, etc. Or, à notre connaissance, il n'existe pas de thesaurus disponibles contenant le vocabulaire de ces patients en français, ce qui nous incite à en construire un en se basant sur un corpus de textes. Par exemple, les patients utilisent souvent le terme onco lorsqu'ils parlent de leur oncologue. Comme onco n'existe pas dans les ressources médicales, si l'on cherche à indexer automatiquement tous les messages contenant une référence à l'oncologue, on oubliera ceux contenant onco. L'originalité de l'approche présentée dans ce travail de master est non seulement d'identifier les termes réellement utilisés par les patients mais également de les mettre en correspondance avec les termes utilisés par les professionnels de santé et qui sont déjà "codés" dans les dictionnaires, thésaurus ou ontologies médicaux.
Proposer une nouvelle méthode pour acquérir un vocabulaire patient/médecin représente un véritable défi. Nous avons utilisé comme corpus une collection de paires de question/réponse disponibles en ligne sur le site http://masantenet.com/. Ce site offre la possibilité à des patients de poser des questions, via leurs cellulaires ou un site Web et d'obtenir des réponses de médecins. Le langage utilisé par les patients est très familier contrairement à celui des médecins. Lorsque le médecin répond, il commence parfois par reformuler la question. On peut donc trouver onco dans la question du patient et oncologue dans la réponse du médecin. L'objectif consiste alors à rapprocher ces deux termes. Dans un premier temps, nous avons appliqué des méthodes statistiques, linguistiques ou mixtes pour extraire des candidats termes patient, qui après avoir été validés constitueront les entrées du thesaurus. Nous rapprocherons dans un second temps ces termes candidats de concepts médicaux connus. Par exemple, le terme onco correspondra au terme oncologue que l'on retrouve dans le MeSH.
Ce manuscrit sera organisé comme suit. Dans la section 1, nous présenterons un état de l'art en deux parties. La première concerne l'extraction de termes candidats et la deuxième concerne la mise en relation de ces termes candidats par des mesures de similarité. Dans la section 2, nous présenterons notre méthodologie. Dans la section 3, nous décrirons les expérimentations réalisées sur un jeu de données réelles et finalement nous conclurons et donnerons des perspectives dans la section 4.

Acquisition de vocabulaire Patient/Médecin

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager