Acquisition du vocabulaire patient/médecin présent dans les forums de santé dédiés au cancer du sein
Abstract
Introduction
De nos jours, les forums de santé sont de plus en plus utilisés par les patients, notamment lorsqu’ils souffrent de maladies chroniques. En maintenant l’anonymat, ces forums leur permettent de discuter librement avec d’autres patients et parfois avec des professionnels de santé de leurs résultats médicaux, de leurs options de traitement mais également de recevoir un soutien moral. Dans des travaux précédents, nous nous sommes intéressés à l’étude de la qualité de vie des patientes atteintes d’un cancer du sein à partir des forums de santé. Nous avons cherché à capturer et à quantifier ce que les patientes expriment dans les forums afin de comparer les thèmes directement issus de leurs préoccupations à ceux étudiés dans les autoquestionnaires EORTC-QLQC30 et EORTC-BR23. Une importante limitation à ces travaux vient du type de textes traités. En effet, la plupart des patients sont des profanes dans le domaine médical. Lors de leurs échanges, ils utilisent de l’argot, des abréviations et un vocabulaire spécifique construit par la communauté en ligne à la place des termes médicaux que l’on retrouve dans les ressources terminologiques utilisées par les professionnels de santé (ex. MeSH, UMLS, SNOMED, CISMeF). Or, ces terminologies de référence sont centrales à l’application des méthodes d’extraction de connaissances. Notre objectif dans ce travail est de construire une ressource lexicale qui aligne le vocabulaire des patients à celui des professionnels de santé. Ce type de ressource sera utilisé pour améliorer la recherche d’information dans les forums (ex. expansion de requêtes basées sur le vocabulaire des patients) et faciliter à terme l’élaboration d’études statistiques basées sur les informations extraites de ces forums. D’autres utilisations peuvent être envisagées comme l’écriture des brochures à destination des patients qui intègrent des éléments de ce vocabulaire.
Méthodes
Dans un premier temps, nous avons récolté des messages à partir de forums recommandés aux patientes par la Ligue contre le cancer « www.cancerdusein.org », l’INCa « www.lesimpatientes.com » et de groupes Facebook d’échanges sur le cancer du sein. Ensuite, nous avons construit une ressource selon la chaîne de traitement suivante :
– extraction des termes candidats basée sur des mesures fréquentielles ;
– appariement des termes candidats patient/médecin sémantiquement similaire en utilisant une adaptation de la mesure de Levenshtein pour capturer les fautes d’orthographe fréquentes, l’inclusion pour les abréviations et l’alignement basé sur Wikipédia pour retrouver les termes co-occurrents.
Résultats
Quelques exemples d’associations détectées sur les données du site « www.cancerdusein.org » sont : correction orthographique : cirose - cirrhose, abcé - abcès ; inclusion : chimio - chimiothérapie, onco - oncologue ; termes co-occurrents : crabe - cancer, bouton - acné. Pour valider nos résultats, nous allons procéder, d’une part, à une validation automatique partielle en utilisant une ressource lexicale appariant des termes utilisés par le grand public, donc non spécialisé en santé, et d’autre part, à une validation manuelle qui sera faite par des oncologues spécialistes du cancer du sein.
Conclusion
Nous avons proposé une approche permettant de relier les termes utilisés par les patients aux termes utilisés par les professionnels de santé. Cette ressource est une brique essentielle pour exploiter automatiquement le contenu des forums de santé.
De nos jours, les forums de santé sont de plus en plus utilisés par les patients, notamment lorsqu’ils souffrent de maladies chroniques. En maintenant l’anonymat, ces forums leur permettent de discuter librement avec d’autres patients et parfois avec des professionnels de santé de leurs résultats médicaux, de leurs options de traitement mais également de recevoir un soutien moral. Dans des travaux précédents, nous nous sommes intéressés à l’étude de la qualité de vie des patientes atteintes d’un cancer du sein à partir des forums de santé. Nous avons cherché à capturer et à quantifier ce que les patientes expriment dans les forums afin de comparer les thèmes directement issus de leurs préoccupations à ceux étudiés dans les autoquestionnaires EORTC-QLQC30 et EORTC-BR23. Une importante limitation à ces travaux vient du type de textes traités. En effet, la plupart des patients sont des profanes dans le domaine médical. Lors de leurs échanges, ils utilisent de l’argot, des abréviations et un vocabulaire spécifique construit par la communauté en ligne à la place des termes médicaux que l’on retrouve dans les ressources terminologiques utilisées par les professionnels de santé (ex. MeSH, UMLS, SNOMED, CISMeF). Or, ces terminologies de référence sont centrales à l’application des méthodes d’extraction de connaissances. Notre objectif dans ce travail est de construire une ressource lexicale qui aligne le vocabulaire des patients à celui des professionnels de santé. Ce type de ressource sera utilisé pour améliorer la recherche d’information dans les forums (ex. expansion de requêtes basées sur le vocabulaire des patients) et faciliter à terme l’élaboration d’études statistiques basées sur les informations extraites de ces forums. D’autres utilisations peuvent être envisagées comme l’écriture des brochures à destination des patients qui intègrent des éléments de ce vocabulaire.
Méthodes
Dans un premier temps, nous avons récolté des messages à partir de forums recommandés aux patientes par la Ligue contre le cancer « www.cancerdusein.org », l’INCa « www.lesimpatientes.com » et de groupes Facebook d’échanges sur le cancer du sein. Ensuite, nous avons construit une ressource selon la chaîne de traitement suivante :
– extraction des termes candidats basée sur des mesures fréquentielles ;
– appariement des termes candidats patient/médecin sémantiquement similaire en utilisant une adaptation de la mesure de Levenshtein pour capturer les fautes d’orthographe fréquentes, l’inclusion pour les abréviations et l’alignement basé sur Wikipédia pour retrouver les termes co-occurrents.
Résultats
Quelques exemples d’associations détectées sur les données du site « www.cancerdusein.org » sont : correction orthographique : cirose - cirrhose, abcé - abcès ; inclusion : chimio - chimiothérapie, onco - oncologue ; termes co-occurrents : crabe - cancer, bouton - acné. Pour valider nos résultats, nous allons procéder, d’une part, à une validation automatique partielle en utilisant une ressource lexicale appariant des termes utilisés par le grand public, donc non spécialisé en santé, et d’autre part, à une validation manuelle qui sera faite par des oncologues spécialistes du cancer du sein.
Conclusion
Nous avons proposé une approche permettant de relier les termes utilisés par les patients aux termes utilisés par les professionnels de santé. Cette ressource est une brique essentielle pour exploiter automatiquement le contenu des forums de santé.