Réduction de l'incertitude par méthodes d'ensemble
Réduction de l'incertitude en segmentation médicale par méthodes d'ensemble
AUTEUR
Rémy SIAHAAN--GENSOLLEN
PUBLIÉ LE
7 septembre 2025
Ce projet est basé sur un travail académique réalisé à l'ENSAE avec mes camarades Lucas Cumunel, Tara Leroux et Léo Leroy, et supervisé par
La segmentation automatique des organes, bien que très utile en imagerie médicale, reste sujette à une forte incertitude, notamment lorsqu'elle repose sur des annotations manuelles (subjectives). Ce projet évalue l'utilisation d'une méthode d'ensemble pour réduire cette incertitude, en entraînant et combinant plusieurs U-Nets sur différents scans tomodensitométriques annotés par divers experts. Il évaluons la précision des prédictions, ainsi que leur incertitude aléatoire et épistémique. Les résultats indiquent que cette méthode simple réduit significativement les incertitudes des prédictions.
Contexte et projet
Introduction
Depuis plusieurs années, l'intelligence artificielle révolutionne la pratique médicale, en soutenant les médecins dans leurs diagnostics et leurs prises de décisions. L'imagerie médicale, en particulier, joue un rôle central dans l'évaluation de l'état de santé des patients et l'orientation de leur prise en charge [Li, 2023]
Medical image analysis using deep learning algorithms
Li, Mengfang and Jiang, Yuanyuan and Zhang, Yanzhou and Zhu, Haisheng (2023)
. La segmentation automatique — c'est-à-dire la délimitation précise des organes et des structures par des algorithmes — facilite le diagnostic, la planification du traitement et le suivi clinique. On retrouve parmi ces algorithmes les réseaux de neurones convolutifs (Convolutional Neural Network, ou CNN), puissant outil d'apprentissage profond (deep learning) ayant surpassé les experts humains dans de nombreuses tâches de compréhension d'images [D. R. Sarvamangala, 2022]
Convolutional neural networks in medical image understanding: a survey
D. R. Sarvamangala and Raghavendra V. Kulkarni (2022)
Segmentation 3D du pancréas, des reins et du foie d'un patient, ainsi qu'une coupe du scanner abdominal utilisée pour les délimiter.
Segmentation 3D du pancréas, des reins et du foie d'un patient, ainsi qu'une coupe du scanner abdominal utilisée pour les délimiter.
Cependant, beaucoup des structures et anomalies analysées (organes, vaisseaux sanguins, tumeurs, etc.) sont particulièrement complexes et variables, conduisant à une certaine incertitude dans leur délimitation. Cette incertitude est accentuée par la variabilité inter-experts : différents spécialistes médicaux peuvent avoir des opinions divergentes sur l'emplacement précis des limites des entités segmentées. Elle s'accroît d'autant plus lorsque plusieurs structures sont prédites simultanément. Les réseaux de neurones doivent composer avec ces divergences, conduisant parfois à des incohérences dans les résultats de segmentation.
Quantifier ces incertitudes permet de générer des cartes d'incertitude sur les images médicales, afin d'isoler les zones où les médecins doivent redoubler d'attention, fournir aux cliniciens des prédictions mieux calibrées et intégrer des mesures de confiance dans l'analyse des images médicales et la prise de décision qui en découle [Kim-Celine Kahl, 2024]
ValUES: A Framework for Systematic Validation of Uncertainty Estimation in Semantic Segmentation
Kim-Celine Kahl and Carsten T. Lüth and Maximilian Zenk and Klaus Maier-Hein and Paul F. Jaeger (2024)
. Cela améliore non seulement la sécurité des diagnostics assistés par IA, mais rend également les algorithmes plus transparents et fiables pour les applications médicales. Les méthodes d'ensemble, consistant à combiner plusieurs modèles individuels ou leurs prédictions, sont un choix courant pour améliorer la performance des modèles d'intelligence artificielle [Ganaie, 2022]
Ensemble deep learning: A review
Ganaie, M.A. and Hu, Minghui and Malik, A.K. and Tanveer, M. and Suganthan, P.N. (2022)
Engineering Applications of Artificial Intelligence, vol. 115, pp. 105151.
Les modèles d'apprentissage machine n'indiquent pas toujours clairement leur niveau de confiance dans les prédictions qu'ils produisent : c'est le problème de l'incertitude dans les prédictions algorithmiques. Par ailleurs, les experts médicaux peuvent annoter une même image différemment en raison de l'ambiguïté de certaines structures anatomiques. Ces désaccords réduisent la qualité des annotations utilisées pour entraîner les modèles et compliquent l'évaluation de leurs performances. Dans la figure à gauche ci-dessous, trois coupes du scan tomodensitométrique (ou scan abdominal / CT scan) du premier patient du jeu de données fourni pour le challenge CURVAS (plus de détails plus bas), ainsi que les trois annotations du pancréas, du rein et du foie. La figure de droite met en évidence les zones de désaccord.
Contours réalisés par trois médecins pour différents organes sur trois coupes de CT scan d'un même patient
Contours réalisés par trois médecins pour différents organes sur trois coupes de CT scan d'un même patient
Zones de dissensus mises en évidence en jaune
Zones de dissensus mises en évidence en jaune
Théoriquement, on distingue deux types d'incertitude, qui, une fois combinées donnent l'incertitude prédictive (Predictive Uncertainty) PU :
L'incertitude aléatoire (Aleatoric Uncertainty) AU qui provient des données elles-mêmes. Elle est liée aux ambiguïtés intrinsèques à l'image. On peut citer comme cause d'incertitude aléatoire les artefacts, les erreurs de numérisation, etc… Parmi ces causes, on peut notamment citer les désaccords entre annotateurs, comme illustré précédemment.
L'incertitude épistémique (Epistemic Uncertainty) EU, qui provient du modèle d'apprentissage lui-même. On peut citer comme cause d'incertitude épistémique un manque de connaissances (pas assez de données diversifiées observées durant l'entraînement), une architecture ne permettant pas de bien les « apprendre », etc…
L'approche la plus notable pour capturer ces incertitudes a été introduite par [Alex Kendall, 2017]
What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision?
suppose que l'incertitude épistémique est représentée par l'entropie prédictive (Predictive Entropy) PE, qui est la somme de l'information mutuelle (Mutual Information) MI et de l'entropie attendue (Expected Entropy) EE, représentant respectivement l'incertitude épistémique et l'incertitude aléatoire. En notant H l'entropie de Shannon, on a :
PU=PEH(Y∣x)=EU=MIMI(Y,Ω∣x)+AU=EE(pour x i.i.d.)Eω∼Ω[H(Y∣ω,x)]
La figure interactive ci-dessous, basée sur la thèse de [Lambert, 2024]
Quantification et caractérisation de l'incertitude de segmentation d'images médicales par des réseaux profonds
, illustre les deux types d'incertitudes pour une régression unidimensionnelle. Vous pouvez passer votre souris sur les régions colorées pour voir le détail, changer leurs tailles ou la forme de la fonction.
g(x)
x
g(x)=
Un autre concept très important est celui de calibration. Les réseaux de neurones produisent des distributions de probabilités sur les étiquettes de classe possibles, ce qui constitue une mesure naturelle de l'incertitude. Idéalement, un modèle bien calibré devrait avoir une confiance élevée pour les prédictions correctes et une faible confiance pour les prédictions incorrectes. Cependant, les architectures modernes échouent souvent à atteindre cette calibration idéale. Pour évaluer la calibration, on utilise des diagrammes de fiabilité (ou graphiques de calibration), qui comparent la confiance prédite à la précision réelle, mettant ainsi en évidence les écarts — appelés écarts de calibration.
Mathématiquement, un modèle parfaitement calibré satisfait :
∀p∈[0,1],P(Y^=YP^=p)=p
Autrement, cela signifie que si le modèle attribue une probabilité de 80 % à une prédiction, il devrait avoir raison 80 % du temps.
Expérience
Données et modèle
Tenu de mai à octobre 2024, le challenge CURVAS (Calibration and Uncertainty for Multi-Rater Volume Assessment in Multiorgan Segmentation) mettait les équipes au défi de produire un modèle de segmentation précis, capable de déterminer la meilleure calibration et quantification de la variabilité inter-expert. Nous utilisons pour ce projet le jeu de données mis à disposition à l'occasion de ce challenge, contenant au total 90 CT scans de patients, chacun annoté par 3 experts différents pour délimiter le pancréas, les reins et le foie de chaque patient. Les figures précédentes ont été réalisées à partir des données du premier patient de la cohorte. Ces scans tomodensitométriques ont été recueillis à l'University Hospital Erlangen entre août et octobre 2023. 20 CT scans ont été fournis pour l'entraînement (groupe A), 5 pour la validation (groupe A), et 65 pour le test (20 en groupe A, 22 en groupe B et 23 en groupe C) [Riera-Marín, 2024]
CURVAS dataset
Riera-Marín, Meritxell and
Kleiß, Joy-Marie and
Aubanell, Anton and
Antolín, Andreu (2024)
Pour les entraînements, nous avons utilisé le framework nnU-Net (no-new-UNet) [Fabian Isensee, 2018]
nnU-Net: Self-adapting Framework for U-Net-Based Medical Image Segmentation
Fabian Isensee and Jens Petersen and Andre Klein and David Zimmerer and Paul F. Jaeger and Simon Kohl and Jakob Wasserthal and Gregor Koehler and Tobias Norajitra and Sebastian Wirkert and Klaus H. Maier-Hein (2018)
pour la segmentation, conçue spécifiquement pour la segmentation automatisée d'images biomédicales. nnU-Net configure automatiquement de nombreux paramètres en fonction des caractéristiques de l'ensemble de données. Ces configurations sont indispensables car, dans les hôpitaux, les images médicales sont produites avec différents instruments, ne respectent pas les mêmes conventions et ont des formats différents (2D, 3D), des saturations et des dimensions variables, … Toutefois, ces architectures présentent l'inconvénient d'être très coûteux en calcul et nécessite des GPU performants.
Nous avons d'abord entraîné 9 modèles différents sur le jeu de données d'entraînement (20 patients) : pour chaque annotateur, nous avons entraîné trois modèles avec des initialisations différentes des poids, afin d'explorer différentes trajectoires dans le loss landscape. Ensuite, nous avons inféré chacun de ces modèles sur le jeu de données de test (65 patients). Systématiquement, nous avons généré les probabilités (sorties softmax du modèle) pour chacun des modèles et des patients, que nous avons ensuite utilisées pour produire 4 ensembles (en les moyennant) : un pour chaque triplet de modèles pour un même annotateur, et un général sur l'ensemble des 9 modèles. Enfin, nous avons exécuté, pour chacun des patients et les 13 modèles différents, des calculs évaluant la précision des prédictions ainsi que les incertitudes aléatoires et épistémiques. Ces calculs et leurs résultats sont présentés dans les sections suivantes.
Outils et ressources
Tout d'abord, nous avons modifié la bibliothèque nnU-Net pour y intégrer une fonctionalité d'arrêt anticipé/précoce (early stopping) des entraînements, car ceux-ci pouvaient prendre plusieurs jours à finir même sans progrès notable. Les entraînements des modèles U-Net sur les scans tomodensitométriques en trois dimensions sont conséquents, même avec la fonctionnalité d'arrêt anticipé. Ils nécessitent par ailleurs des cartes graphiques de calcul (GPU). Nous avons donc utilisé des instances disponibles sur les services Onyxia de l'Insee et du Groupe Genes auxquels nous avons eu accès. Même avec cela, les entraînements prenaient près d'une journée pour chacun des modèles. Par ailleurs, plusieurs difficultés sont survenues pour l'inférence, la méthode d'ensemble et l'évaluation. En effet, les volumes de données transférés à chaque fois étaient particulièrement importants, et chaque instance étant limitée à 100 Go, nous avons dû traiter individuellement chaque tâche et chaque patient (parfois même chaque modèle) sur des instances différentes.
Du fait de cette décomposition importante de chaque tâche, nous avons dû faire très attention à la reproductibilité. Pour le stockage, l'Insee nous a généreusement mis à disposition un espace de stockage compatible avec le standard S3 d'Amazon pour le transfert de fichiers, sur lequel nous avons pu laisser plusieurs To d'artefacts résultant de l'entraînement et de l'inférence des modèles. Nous avons alors développé une CLI (interface en ligne de commande) avec Typer, pour interagir avec le stockage distant et lancer les différentes tâches propres aux modèles.
La CLI permet d'exécuter des tâches avec une importante granularité (par exemple: inférence sur le patient 80 du troisième modèle de l'annotateur 2). La figure ci-dessous présente un aperçu liste des commandes disponibles. Le code de cet outil est disponible sur le dépôt GitHub.