Classification automatisée de résumés médicaux – Belgique 2015

Université de Liège – Faculté des Sciences Appliquées

Multi-Label Text Classification of Medical Abstracts

Sébastien Rigaux               Année académique 2014 – 2015

Promoteur : Ittoo Ashwin

Jury : Ittoo A., Geurts P., Wolper P., Jamoulle M.

 

Résumé

L’objectif de ce travail est de trouver une méthode automatisée capable d’analyser le contenu d’articles traitants de médecine générale non clinique et de prédire les catégories 3CGP/FM correspondantes. Les principales difficultés proviennent de la faible quantité de données d’exemples disponibles, du nombre important de catégories à identifier, et de la forte spécificité du champ d’application de 3CGP/FM rendant les  catégories  difficiles  à  discerner.

La première étape a été de comparer l’efficacité des méthodes de vecto- risation et normalisation (Bag-Of-Words, Term Frequency , Term Frequency- Inverse Document Frequency …) en les combinant à celles de traitement automatique du langage naturel (racinisation, lemmatisation et lemmatisa- tion filtrée selon la nature des mots du corpus) et, avec celles de Feature Selection et Feature Extraction (Chi-Squared , Bi-Normal Separation, Mutual Information, Cube Mutual Information, Singular Value Decomposition). Cette étape a montré que la lemmatisation filtrée, TF-IDF et SVD apportent de réels gains de précision aux classificateurs.

La deuxième étape a été d’analyser l’efficacité de ces diverses techniques, en fonction des algorithmes de Machine Learning utilisés afin de voir si des méthodes comme Bernoulli Naïve Bayes, Multinomial Naïve Bayes ou Stochastic Gradient Descent peuvent améliorer les performances de classification obtenues à l’aide de Support Vector Machine. Il en ressort que seul SGD éga- lise et surpasse même SVM.

La troisième étape a été de comparer les résultats précédents, obtenus à partir du corpus francophone, avec des classificateurs similaires appliqués à un corpus anglophone. Ceci a permis de vérifier que l’efficacité des différentes techniques étudiées est globalement indépendante du langage utilisé. Cependant, les gains de précisions diffèrent quelque peu pour certaines techniques comme SVD, TF-IDF. De même, il a été possible de remarquer que le corpus anglais est moins sensible aux méthodes de traitement automatique du langage  naturel.

Une fois l’ensemble de ces analyses et comparaisons faites, deux classificateurs 3CGP/FM ont pu être proposés. Le premier, pour le corpus franco- phone, utilise SVD tandis que le deuxième utilise SVM, TF-IDF et SVD. Les deux classificateurs utilisent aussi la lemmatisation filtrée, et obtiennent un F1-score modeste de respectivement 0,452 et 0,344.

Travail complet disponible sur ; http://docpatient.net/tfe/Rigaux%20_2015.pdf