MEDINA – Medical Information Anonymization

 

English

Table des matières

 

 Présentation

MEDINA (Medical Information Anonymization) est un outil du Traitement Automatique des Langues (TAL) conçu pour anonymiser les données personnelles contenues dans des documents cliniques rédigés en français, au format texte brut. L'outil a été développé au LIMSI-CNRS (UPR 3251) dans le cadre du projet Akenaton – Automated Knowledge Extraction from medical records iN Association with a Telecardiology Observation Network (ANR-07-TecSan-001).

L'outil repose sur des règles (patrons syntaxiques implémentés sous la forme d'expressions régulières) et des lexiques (noms, prénoms, villes, etc.). La version actuellement distribuée de l'outil contient des lexiques librement utilisables (issus du site abu.cnam.fr/DICO/ ou spécifiquement constituées pour l'outil), et un ensemble de règles qui ont été définies pour traiter un corpus de 27.900 comptes-rendus hospitaliers en cardiologie.

Dans sa version actuelle, MEDINA traite les informations relevant des catégories suivantes (un fichier de configuration permet de spécifier les catégories à traiter) :

Il est important de garder à l'esprit que cet outil est une aide à l'anonymisation et qu'il reste des informations en clair à l'issue du processus (nos dernières expériences ont démontré que 83% des informations sont traitées). Un humain devra obligatoirement vérifier les résultats produits et réaliser les anonymisations manquantes.

Contact :

 

 Utilisation

MEDINA se compose de plusieurs scripts écrits en langage PERL (Practical Extraction and Report Language) et fonctionne en lignes de commande (testé avec succès sur des machines tournant sous Mac OS X et Unix). Il effectue une anonymisation de documents en deux étapes principales :

 

 Documentation

 

 Téléchargement

MEDINA est disponible gratuitement après signature d'une licence d'utilisation. La procédure passe par les étapes suivantes : prendre contact avec nous pour obtenir une version à remplir de la licence, nous la transmettons à notre SPV qui valide, puis vous mettez la licence en signature.

 

 Exemple

Nous mettons en rouge les modifications apportées à chaque étape.

 

 Évaluation

Nous reproduisons ci-dessous les résultats obtenus par l'outil MEDINA sur un corpus de 62 comptes-rendus hospitaliers en cardiologie.

Le premier tableau renseigne des résultats globaux. L'intervalle de confiance a été calculé pour la F-mesure au moyen d'une simulation de Monte-Carlo et permet d'apprécier quels seraient les résultats de l'outil s'il était appliqué non plus sur un corpus de 62 documents mais sur dix millions de documents (en supposant une distribution similaire des propriétés lors du passage à l'échelle).

Vrais positifsFaux positifsFaux négatifsRappelPrécisionF-mesureIntervalle de confiance
548871100,83280,86300,8476[0,8266;0,8687]

Le tableau suivant renseigne des résultats obtenus par catégorie. Il est cependant difficile d'accorder du sens aux résultats obtenus sur les catégories faiblement représentées.

CatégorieVrais positifsFaux positifsFaux négatifsRappelPrécisionF-mesure
Dates21313290,8800,9420,910
Noms18620190,9070,9030,905
Prénoms1012980,9270,7770,845
Hôpitaux1616270,3720,5000,427
Villes115110,5000,6880,579
Codes postaux8001,0001,0001,000
Adresses1270,1250,3330,182
Téléphones8001,0001,0001,000
Appareillage3270,3000,6000,400
Numéro de série1020,3331,0000,500

 

 Références

 Pour citer l'outil :

 Pour aller plus loin :


Last modified: Fri Oct 6 17:40:00 CEST 2017 http://medina.limsi.fr/