MEDINA Medical Information Anonymization
→ English
Table des matières
Présentation
MEDINA (Medical Information Anonymization) est un outil du Traitement Automatique des Langues (TAL) conçu pour anonymiser les données personnelles contenues dans des documents cliniques rédigés en français, au format texte brut. L'outil a été développé au LIMSI-CNRS (UPR 3251) dans le cadre du projet Akenaton Automated Knowledge Extraction from medical records iN Association with a Telecardiology Observation Network (ANR-07-TecSan-001).
L'outil repose sur des règles (patrons syntaxiques implémentés sous la forme d'expressions régulières) et des lexiques (noms, prénoms, villes, etc.). La version actuellement distribuée de l'outil contient des lexiques librement utilisables (issus du site abu.cnam.fr/DICO/ ou spécifiquement constituées pour l'outil), et un ensemble de règles qui ont été définies pour traiter un corpus de 27.900 comptes-rendus hospitaliers en cardiologie.
Dans sa version actuelle, MEDINA traite les informations relevant des catégories suivantes (un fichier de configuration permet de spécifier les catégories à traiter) :
- noms et prénoms (sans distinction entre patient, membre de la famille, ou membre de l'équipe médicale) ;
- adresses, codes-postaux, villes et noms d'hôpitaux ;
- âges, dates, numéros de téléphone, de sécurité sociale, de série ;
- informations sur les appareillages en cardiologie (marques et modèles de pacemakers).
Il est important de garder à l'esprit que cet outil est une aide à l'anonymisation et qu'il reste des informations en clair à l'issue du processus (nos dernières expériences ont démontré que 83% des informations sont traitées). Un humain devra obligatoirement vérifier les résultats produits et réaliser les anonymisations manquantes.
Contact :
Utilisation
MEDINA se compose de plusieurs scripts écrits en langage PERL (Practical Extraction and Report Language) et fonctionne en lignes de commande (testé avec succès sur des machines tournant sous Mac OS X et Unix). Il effectue une anonymisation de documents en deux étapes principales :
- repérage des informations relevant de chaque catégorie et ajout de balises autour des informations identifiées ;
- anonymisation des données balisées :
soit en masquant les données au moyen d'une balise SGML informative (hyperonyme) : « M. <prenom /> <nom /> est revenu dans le service ce <date /> pour un suivi... » ;
soit en remplaçant tous les noms et prénoms par des pseudonymes (parmi les noms et prénoms les plus portés en France) et en antidatant toutes les dates d'un document (on retranche le même nombre de jours à toutes les dates du document, nombre tiré aléatoirement et différent pour tous les documents). Ces traitements complémentaires permettent de conserver une apparence vraisemblable tout en garantissant l'anonymat des patients.
Documentation
- Guide d'annotation : anonymisation de corpus (guide suivi par les annotateurs humains pour réaliser le corpus de référence), mise-à-jour 24 septembre 2013 ;
- Manuel d'utilisation : MEDINA (prise en main rapide de l'outil d'anonymisation), mise-à-jour 11 janvier 2014.
Téléchargement
MEDINA est disponible gratuitement après signature d'une licence d'utilisation. La procédure passe par les étapes suivantes : prendre contact avec nous pour obtenir une version à remplir de la licence, nous la transmettons à notre SPV qui valide, puis vous mettez la licence en signature.
Exemple
Nous mettons en rouge les modifications apportées à chaque étape.
- Texte d'origine
- Repérage des informations (commande : perl 1k_balisage.pl -r dossier/ -e txt)
- Antidatation (commande : perl 2_antidatation.pl -r dossier/ -n 941 ; retranche 941 jours sur chaque date)
- Pseudonymisation (commande : perl 4_pseudonymes.pl -r dossier/ -e dat)
- Hyperonymisation (commande : perl 5_hyperonymes.pl -r dossier/ -e pse)
Cher confrère, merci de nous avoir adressé Madame Dupont Marie né(e) le 19/01/1981 à Paris pour réalisation d'une scintigraphie myocardique au Mibi, examen le 5 janvier 2003.
Cher confrère, merci de nous avoir adressé Madame <nom>Dupont</nom> <prenom>Marie</prenom> né(e) le <date>19/01/1981</date> à <ville>Paris</ville> pour réalisation d'une scintigraphie myocardique au Mibi, examen le <date>5 janvier 2003</date>.
Cher confrère, merci de nous avoir adressé Madame <nom>Dupont</nom> <prenom>Marie</prenom> né(e) le <date>23/06/1978</date> à <ville>Paris</ville> pour réalisation d'une scintigraphie myocardique au Mibi, examen le <date>8 juin 2000</date>.
Cher confrère, merci de nous avoir adressé Madame Bernard Camille né(e) le <date>23/06/1978</date> à <ville>Paris</ville> pour réalisation d'une scintigraphie myocardique au Mibi, examen le <date>8 juin 2000</date>.
Cher confrère, merci de nous avoir adressé Madame Bernard Camille né(e) le 23/06/1978 à <ville /> pour réalisation d'une scintigraphie myocardique au Mibi, examen le 8 juin 2000.
Évaluation
Nous reproduisons ci-dessous les résultats obtenus par l'outil MEDINA sur un corpus de 62 comptes-rendus hospitaliers en cardiologie.
Le premier tableau renseigne des résultats globaux. L'intervalle de confiance a été calculé pour la F-mesure au moyen d'une simulation de Monte-Carlo et permet d'apprécier quels seraient les résultats de l'outil s'il était appliqué non plus sur un corpus de 62 documents mais sur dix millions de documents (en supposant une distribution similaire des propriétés lors du passage à l'échelle).
Vrais positifs | Faux positifs | Faux négatifs | Rappel | Précision | F-mesure | Intervalle de confiance |
548 | 87 | 110 | 0,8328 | 0,8630 | 0,8476 | [0,8266;0,8687] |
Le tableau suivant renseigne des résultats obtenus par catégorie. Il est cependant difficile d'accorder du sens aux résultats obtenus sur les catégories faiblement représentées.
Catégorie | Vrais positifs | Faux positifs | Faux négatifs | Rappel | Précision | F-mesure |
Dates | 213 | 13 | 29 | 0,880 | 0,942 | 0,910 |
Noms | 186 | 20 | 19 | 0,907 | 0,903 | 0,905 |
Prénoms | 101 | 29 | 8 | 0,927 | 0,777 | 0,845 |
Hôpitaux | 16 | 16 | 27 | 0,372 | 0,500 | 0,427 |
Villes | 11 | 5 | 11 | 0,500 | 0,688 | 0,579 |
Codes postaux | 8 | 0 | 0 | 1,000 | 1,000 | 1,000 |
Adresses | 1 | 2 | 7 | 0,125 | 0,333 | 0,182 |
Téléphones | 8 | 0 | 0 | 1,000 | 1,000 | 1,000 |
Appareillage | 3 | 2 | 7 | 0,300 | 0,600 | 0,400 |
Numéro de série | 1 | 0 | 2 | 0,333 | 1,000 | 0,500 |
Références
Pour citer l'outil :
- Grouin C. Anonymisation de documents cliniques : performances et limites des méthodes symboliques et par apprentissage statistique. Thèse de Doctorat de l'Université Pierre et Marie Curie (Paris VI), spécialité « informatique biomédicale ». oai:tel.archives-ouvertes.fr:tel-00848672
→ ce travail de thèse présente différentes expériences d'anonymisation (système à base de règles et de lexiques, apprentissage statistique, combinaison des deux) réalisées pour le français, sur des corpus de comptes-rendus hospitaliers en cardiologie. Voir en particulier le chapitre 5 pour la description du fonctionnement de MEDINA (pp. 14652), l'annexe B (pp. 21317) pour le manuel d'utilisation de MEDINA et l'annexe A (pp. 20711) pour les principes d'annotation et la définition des catégories utilisées.
@PHDTHESIS{grouin2013phd,
author = {Cyril Grouin},
title = {Anonymisation de documents cliniques~: performances et limites des m\'ethodes symboliques et par apprentissage statistique},
school = {Universit\'e Pierre et Marie Curie},
year = {2013},
type = {Th\`ese de Doctorat},
address = {Paris, France},
month = {Juin},
url = {http://tel.archives-ouvertes.fr/tel-00848672}
}
Pour aller plus loin :
- 2009
- Grouin C, Rosier A, Dameron O, Zweigenbaum P. Testing tactics to localize de-identification. Stud Health Technol Inform Proc of MIE. 2009;150:7359. Sarajevo, Bosnia and Herzegovina. doi: 10.3233/978-1-60750-044-5-735. PubMed ID: 19745408.
→ cet article présente les premières expériences (2009) réalisées à partir de la version à base de règles et de lexiques pour anonymiser des comptes-rendus hospitaliers en cardiologie : (1) appariement à l'identique du contenu des documents cliniques avec les données du système d'information patient (SIP) et (2) application de MEDINA. - Grouin C, Rosier A, Dameron O, Zweigenbaum P. Une procédure d'anonymisation a deux niveaux pour créer un corpus de comptes rendus hospitaliers. In: Fieschi M, Staccini P, Bouhaddou O, Lovis C (éditeurs). Risques, technologies de l'information pour les pratiques médicales Actes des JFIM. vol. XVII. Springler-Verlag ; 2009. Nice, France. doi: 10.1007/978-2-287-99305-3_3.
→ cet article, rédigé en français et présenté en congrès à la même période, est similaire au précédent. - 2011
- Grouin C, Zweigenbaum P. Une approche à plusieurs étapes pour anonymiser des documents médicaux. In: RSTI-RIA, Intelligence Artificielle et santé "Vers quelles applications en médecine ?". 25(4):52549. 2011. Hermès-Lavoisier. doi: 10.3166/RIA.25.525-549.
→ cet article présente de manière détaillée les démarches d'anonymisation réalisées en deux étapes (appariement avec le SIP puis application de MEDINA). - 2013
- Grouin C. Guide d'annotation. Anonymisation de comptes rendus cliniques. Notes et documents internes LIMSI no 2013-16. Septembre 2013. 8 pages. téléchargement
→ ce guide d'annotation présente le protocole d'annotation que nous avons suivi pour constituer nos corpus de référence afin d'évaluer les sorties des systèmes d'anonymisation. - Grouin C. Perspectives de diffusion et de valorisation d'un logiciel d'anonymisation automatique de documents cliniques. Mémoire de recherche pour l'obtention du Diplôme Universitaire de « Génie Biologique et Médical » de l'Université Pierre et Marie Curie (Paris VI), spécialité "Valorisation de la Recherche Appliquée et de l'Innovation Biomédicale".
→ ce mémoire de recherche présente les démarches de valorisation que nous avons menées pour distribuer l'outil MEDINA auprès de la communauté scientifique. - Grouin C, Zweigenbaum P. Automatic De-Identification of French Clinical Records: Comparison of Rule-Based and Machine-Learning Approaches. Stud Health Technol Inform Proc of MEDINFO, 2013;192(Part 1):47680. Copenhagen, Denmark. IMIA and IOS Press. doi: 10.3233/978-1-61499-289-9-476.
→ cet article présente une comparaison de deux versions de MEDINA, la première à base de règles et de lexiques (version distribuée), la deuxième par apprentissage statistique (CRF). Cette comparaison est effectuée sur deux corpus : un corpus de comptes-rendus hospitaliers en cardiologie (pour lequel a été conçu l'outil) et un petit corpus de dossiers patients numérisés (par reconnaissance optique de caractères) en foetopathologie. - Névéol A, Grouin C, Darmoni S, Zweigenbaum P. Désidentification d'un corpus clinique pour le traitement automatique du français. In: Session francophone de MedInfo, 2013. Copenhagen, Denmark (20/08/2013).
→ cet article présente les expériences d'anonymisation menées en utilisant MEDINA sur un nouveau corpus de comptes-rendus hospitaliers (plusieurs hôpitaux et disciplines médicales). - 2014
- Grouin C, Névéol A. De-identification of clinical notes in French: Towards a protocol for reference corpus development. J Biomed Inform, 2014. Sous presse. doi: 10.1016/j.jbi.2013.12.014. PubMed ID: 24380818
→ cet article présente les différentes expériences que nous avons menées pour définir un protocole méthodologique pour l'anonymisation de corpus de comptes-rendus hospitaliers en français.
Last modified: Fri Oct 6 17:40:00 CEST 2017 http://medina.limsi.fr/