1. Contexte et objectifs¶
Le projet SigBERT propose une nouvelle approche de modélisation du risque patient en transformant des séries temporelles d’embeddings de textes cliniques (OncoBERT) en signatures mathématiques. L’objectif de cette étude est de coupler cette représentation riche des données à des méthodes de prédiction conforme. Il s’agit de dépasser la simple estimation ponctuelle du risque fournie par les modèles de survie classiques pour offrir des intervalles de prédiction valides avec des garanties statistiques de couverture, un prérequis essentiel pour l’aide à la décision clinique.
2 Description des données¶
Les données sont issues des fichiers df_study_L18_w6.csv et df_study_L36_w6.csv disponibles dans le dossier Atelier_SigBERT du dépot GitHub MINCHELLA
Structure et Notation
Soit un jeu de données où chaque patient est défini par :
Covariables () : Les coefficients issus des signatures de chemins. Ces vecteurs de haute dimension capturent les interactions non-linéaires et l’ordre séquentiel des événements cliniques.
Temps observé () : , où est le temps réel jusqu’au décès et le temps de censure.
Indicateur de censure () : .
: Décès observé (événement).
: Censure (perdu de vue ou fin d’étude).
Prétraitement
Données manquantes : les jeux de données n’ont pas de données manquantes, aucune imputation n’est nécessaire.
Standardisation : Centrage et réduction (-score) appliqués aux covariables .
Réduction de dimension : Application de l’ACP pour réduire la dimensionnalité des signatures tout en conservant 90% de la variance.
Partitionnement : Division en ensemble d’entraînement, de test et de calibration pour la prédiction conforme.
3. Approche méthodologique¶
On propose d’entraîner une variété de modèle de survie adapté aux données censurées et de haute dimension. On conformalise ensuite les prédictions réalisées par le meilleur modèle selon les critères de performance classiques (C-index, Brier score).
Voici les modèles implémentés et comparés :
Modèle de Cox (L1, L2, ElasticNet, et en testant différent coefficients de régularisation)
Random Survival Forest
Gradient Boosting Survival Analysis
Survival SVM
XGBoost AFT
4. Prédiction conforme¶
La prédiction conforme standard (Split Conformal Prediction) repose sur l’hypothèse que les données sont échangeables. Cependant, l’analyse de survie introduit une complexité majeure : la censure à droite.
4.1 Le défi de la censure¶
Dans notre jeu de données, pour un patient censuré (), le temps réel de survie est inconnu (nous savons seulement que ). Calculer un score de non-conformité classique (ex: résidu absolu) est donc impossible pour ces individus. Exclure simplement les patients censurés de l’ensemble de calibration introduirait un biais de sélection massif : les patients dont l’événement est observé ont tendance à avoir des survies plus courtes que ceux qui sont censurés.
4.2 Méthodologie : Weighted Split Conformal Prediction (WSCP)¶
Pour pallier ce problème, nous avons implémenté une approche de Weighted Split Conformal Prediction basée sur la pondération par l’inverse de la probabilité de censure (IPCW - Inverse Probability of Censoring Weighting). Cette méthode permet d’utiliser les données observées tout en corrigeant leur représentativité statistique par rapport à la population globale.
Nous appliquons cette procédure au modèle XGBoost AFT (Accelerated Failure Time), sélectionné à l’étape précédente, car il modélise directement le logarithme du temps de survie ((), facilitant le calcul des résidus.
4.3 Algorithme implémenté¶
La procédure se déroule en six étapes clés :
Partitionnement (Splitting) : Le jeu d’entraînement initial est divisé en un ensemble d’Entraînement Propre (80%) pour ajuster le modèle XGBoost, et un ensemble de Calibration (20%) réservé au calcul des seuils de conformité.
Estimation de la censure : Nous estimons la distribution de la censure sur l’ensemble de calibration à l’aide de l’estimateur de Kaplan-Meier, en inversant l’indicateur d’événement (considérant la censure comme l’événement d’intérêt).
Calcul des scores de non-conformité : Pour chaque patient non-censuré de l’ensemble de calibration, nous calculons le résidu absolu standardisé sur l’échelle logarithmique :
où est le temps observé et la prédiction du modèle.
Pondération (IPCW) : Afin de compenser la sous-représentation des temps longs due à la censure, chaque score se voit attribuer un poids :
Les patients ayant subi un événement à un temps où la censure est forte (i.e., est faible) reçoivent un poids plus important.
Calcul du quantile pondéré : Nous déterminons le quantile pondéré de la distribution des scores , noté . Ce seuil garantit que la somme des poids des scores inférieurs à représente une fraction de la masse totale des poids.
Construction des intervalles : Pour un nouveau patient du jeu de test, l’intervalle de prédiction à est donné par :
L’utilisation de l’exponentielle permet de projeter l’intervalle calculé sur l’échelle log-normale vers l’échelle temporelle réelle (en jours).
5. Critères d’évaluation¶
La performance sera jugée sur deux axes :
Discrimination et calibration (modèle de base) : C-index, AUC dépendante du temps, IBS et Score de Brier à horizon de survie médian.
Qualité des intervalles (prédiction conforme) :
Couverture Marginale : Doit être statistiquement proche de .
Taille moyenne des ensembles de prédictions : plus les ensembles sont petits, plus ils sont informatifs.