Résumé 352D7
Le big data et l'analyse automatique de texte au service du traitement du cancer du sein
An innovative solution for breast cancer textual big data analysis
N Thiebaut (2), A Simoulin (2), K Neuberger (2), I Ibnoushein (2), N Reix (2), C Youssef-Akaladios (1), C Mathelin (1)
(1) Hôpital de Hautepierre, 1 Avenue Molière, 67000, Strasbourg, France
(2) Quantmetry, 128 rue du Faubourg Saint-Honoré, 75008, Paris, France
(1) Hôpital de Hautepierre, 1 Avenue Molière, 67000, Strasbourg, France
(2) Quantmetry, 128 rue du Faubourg Saint-Honoré, 75008, Paris, France
Cancer du sein, Text mining, Traitement automatique du langage, Big data
Breast cancer, Text mining, Natural language processing, Big data
Gynécologie
Autres
Contexte
Les hôpitaux recueillent en permanence d’énormes quantités de données textuelles archivées dans des dossiers de santé électroniques (lettres de sorties, fiches de RCP, comptes rendus anatomo-pathologiques ou opératoires…). Ce stockage sous format informatique permet leur exploitation. Néanmoins le format brut de ces dossiers textuels se prête mal à la recherche et à l’analyse manuelle. Ces dernières années, différentes études ont expérimenté l'utilisation d'outils de traitement automatique du langage pour structurer et exploiter les informations contenues dans ces dossiers de santé électroniques. Cependant les principales difficultés avec ce type d'approche est la nécessité d'utiliser des dictionnaires d’ontologie, qui sont pour la plupart disponibles en anglais et s'adaptent parfois mal aux particularités de certains professionnels de santé.
Méthodes
Nous avons développé un outil de traitement automatique du langage pour structurer et analyser 10 000 dossiers de santé électroniques concernant des patientes traitées pour un cancer du sein entre 2000 et 2016 (ClinicalTrials.gov NCT02810093). L’outil repose à la fois sur les techniques standard de traitement du texte et sur une nouvelle méthode de détection de synonymes (1). Il permet l'extraction de multiples indicateurs à la fois diagnostiques (2), anatomo-pathologiques (3), thérapeutiques et pronostiques (4).
Résultats
À l’aide d'archives structurées fournies par les Hôpitaux Universitaires de Strasbourg, nous avons pu estimer la performance de notre modèle pour de nombreux indicateurs (simples comme le nombre de ganglions envahis ou la valeur du Ki 67 par exemple, plus complexes comme l’appréciation de la multifocalité vs la multicentricité et enfin subtils comme l’influence de certains traitements. Notre méthode de structuration a atteint une précision d’extraction qui varie selon la complexité des indicateurs de 70 à 96,8%. Contrairement à des méthodes existantes, notre technique de structuration du texte est indépendante de la langue et ne nécessite pas l'utilisation d'un corpus annoté.
Discussion
Notre processus de structuration offre la possibilité d’étudier a posteriori et de manière rapide des sujets variés, allant de l’analyse de facteurs de risque potentiels, à celle des particularités de certaines sous-populations ou bien encore l’impact pronostique de certains traitements. Cet outil pourrait être appliqué à toute pathologie avec le même processus à partir de dossiers de santé électroniques.
Conclusion
Ce travail transdisciplinaire et l'utilisation de plusieurs techniques de traitement automatique du langage ont prouvé leur efficacité pour automatiser l’extraction de l’information médicale de texte libre. Ce travail devrait aboutir dans un proche avenir à la création d’un moteur de recherche qui pourra être interrogé instantanément par le personnel médical pour éviter de fastidieuses recherches manuelles et faciliter leur analyse.
References
1. Mikolov T. Efficient Estimation of Word Representation in Vector Space. 2013.
2. Jain NL, Friedman C. Identification of findings suspicious for breast cancer based on natural language processing of mammogram reports. Proc AMIA Annu Fall Symp. 1997:829-33.
3. Buckley JM, Coopey SB, Sharko J, Polubriaginof F, Drohan B, Belli AK, et al. The feasibility of using natural language processing to extract clinical information from breast pathology reports. J Pathol Inform. 2012;3:23.
4. Carrell DS, Halgrim S, Tran DT, Buist DS, Chubak J, Chapman WW, et al. Using natural language processing to improve efficiency of manual chart abstraction in research: the case of breast cancer recurrence. Am J Epidemiol. 2014 Mar 15;179(6):749-58.
Les hôpitaux recueillent en permanence d’énormes quantités de données textuelles archivées dans des dossiers de santé électroniques (lettres de sorties, fiches de RCP, comptes rendus anatomo-pathologiques ou opératoires…). Ce stockage sous format informatique permet leur exploitation. Néanmoins le format brut de ces dossiers textuels se prête mal à la recherche et à l’analyse manuelle. Ces dernières années, différentes études ont expérimenté l'utilisation d'outils de traitement automatique du langage pour structurer et exploiter les informations contenues dans ces dossiers de santé électroniques. Cependant les principales difficultés avec ce type d'approche est la nécessité d'utiliser des dictionnaires d’ontologie, qui sont pour la plupart disponibles en anglais et s'adaptent parfois mal aux particularités de certains professionnels de santé.
Méthodes
Nous avons développé un outil de traitement automatique du langage pour structurer et analyser 10 000 dossiers de santé électroniques concernant des patientes traitées pour un cancer du sein entre 2000 et 2016 (ClinicalTrials.gov NCT02810093). L’outil repose à la fois sur les techniques standard de traitement du texte et sur une nouvelle méthode de détection de synonymes (1). Il permet l'extraction de multiples indicateurs à la fois diagnostiques (2), anatomo-pathologiques (3), thérapeutiques et pronostiques (4).
Résultats
À l’aide d'archives structurées fournies par les Hôpitaux Universitaires de Strasbourg, nous avons pu estimer la performance de notre modèle pour de nombreux indicateurs (simples comme le nombre de ganglions envahis ou la valeur du Ki 67 par exemple, plus complexes comme l’appréciation de la multifocalité vs la multicentricité et enfin subtils comme l’influence de certains traitements. Notre méthode de structuration a atteint une précision d’extraction qui varie selon la complexité des indicateurs de 70 à 96,8%. Contrairement à des méthodes existantes, notre technique de structuration du texte est indépendante de la langue et ne nécessite pas l'utilisation d'un corpus annoté.
Discussion
Notre processus de structuration offre la possibilité d’étudier a posteriori et de manière rapide des sujets variés, allant de l’analyse de facteurs de risque potentiels, à celle des particularités de certaines sous-populations ou bien encore l’impact pronostique de certains traitements. Cet outil pourrait être appliqué à toute pathologie avec le même processus à partir de dossiers de santé électroniques.
Conclusion
Ce travail transdisciplinaire et l'utilisation de plusieurs techniques de traitement automatique du langage ont prouvé leur efficacité pour automatiser l’extraction de l’information médicale de texte libre. Ce travail devrait aboutir dans un proche avenir à la création d’un moteur de recherche qui pourra être interrogé instantanément par le personnel médical pour éviter de fastidieuses recherches manuelles et faciliter leur analyse.
References
1. Mikolov T. Efficient Estimation of Word Representation in Vector Space. 2013.
2. Jain NL, Friedman C. Identification of findings suspicious for breast cancer based on natural language processing of mammogram reports. Proc AMIA Annu Fall Symp. 1997:829-33.
3. Buckley JM, Coopey SB, Sharko J, Polubriaginof F, Drohan B, Belli AK, et al. The feasibility of using natural language processing to extract clinical information from breast pathology reports. J Pathol Inform. 2012;3:23.
4. Carrell DS, Halgrim S, Tran DT, Buist DS, Chubak J, Chapman WW, et al. Using natural language processing to improve efficiency of manual chart abstraction in research: the case of breast cancer recurrence. Am J Epidemiol. 2014 Mar 15;179(6):749-58.
Recherche
Saissisez le ou les termes de votre recherche
RCP
Films
Les Mercredis de la SFSPM