La soudaineté de la pandémie a obligé les épidémiologistes à travailler dans l’urgence, parfois au prix d’un manque de prise de recul. Il est désormais possible de s’intéresser à posteriori à la qualité des modèles, et de s'apercevoir que les modèles compartimentaux - très utilisés faute de mieux en début de pandémie - sont soumis a un véritable risque de modèle qui peut en partie expliquer les errements des politiques publiques en 2020.
I) Deux grandes classes de modèles épidémiologiques
Deux classes de modèles sont généralement utilisées pour modéliser le risque pandémique.
Il existe d’abord les modèles compartimentaux, que vous aviez pu découvrir sur le blog Périclès dans l’article « Quelle modélisation pour le risque pandémie » . Ils répartissent la population au sein de compartiments, choisis pour leur pertinence médicale. Le modèle compartimental le plus simple est le SIR (Susceptible – Infecté – Retiré).
Dans ce modèle, au début de la pandémie, seul un petit groupe d’individusà (une dizaine généralement) est considéré comme infecté, le reste de la population étant supposé susceptible. Au cours du temps, les individus infectés vont contaminer des individus sains qui vont devenir eux aussi infectés. En revanche, certains vont guérir de la maladie ou décéder et être considérés comme retirés.
Ces modèles sont basés sur une approche globale de la pandémie. Le passage d’un compartiment à l’autre est déterministe, suivant des équations différentielles données par les paramètres du modèle (tel que le temps moyen dans le compartiment ou le nombre moyen d’individus infectés par quelqu'un de contagieux avant guérison). Ces modèles ont pour eux l’avantage de la simplicité : ils sont faciles à comprendre, à adapter et à mettre en place, et rapides à exécuter. C’est pourquoi ils ont constitué la grande majorité des modèles utilisés au début de la pandémie, et seront ceux dont nous parlerons par la suite.
S’y opposent les modèles agents, basés sur une logique individuelle : chaque individu est modélisé indépendamment. La modélisation peut être plus ou moins fine, certains allant jusqu’à modéliser une ville entière, ou chaque habitant a une routine quotidienne et une probabilité de rencontrer d’autres agents lors de ses trajets ou de ses activités. Ces modèles sont stochastiques : les périodes infectieuses, les infections ou les contacts journaliers sont aléatoires. Conséquemment, le grand nombre de simulations empêche la modélisation d’une population trop nombreuse. Ces modèles feront l’objet d’une communication future.
II) La stratification par âge
Un certain nombre de paramètres, comme la probabilité de décéder ou les temps moyens passés en hospitalisation, peuvent varier en fonction de l’âge. Pour prendre en compte ceci, il est standard de diviser les modèles en sous-modèles qui fonctionnent en parallèle. Les 0-20 ans seront dans un circuit différent des 20-40 ans et des 40-60 ans.
Il est impossible de considérer ces sous-modèles comme indépendants. Un enfant peut par exemple contaminer ses parents. Il est donc nécessaire d’introduire un paramètre mélangeant les classes d’âge – c’est la matrice de contact.
Cette matrice renseigne un paramètre fondamental : combien de contacts prolongés un être humain a chaque jour ? Les matrices de contacts sont généralement ventilées par âge, ce qui permet de mélanger les sous modèles : on connait par exemple le nombre de contacts journaliers qu’un enfant a avec des gens de 40-50 ans. Ces matrices sont généralement séparées en catégorie de contact : nombre de contacts au travail, dans les transports, à l’école.
Mais il ne faut pas crier victoire trop vite. Ces matrices de contacts sont mises à disposition par des chercheurs qui les déterminent à un instant donné. Ceci a deux limitations. D’une part, elles supposent que le nombre de contacts est le même, quel que soit le jour de la semaine et la période de l’année. C’est réducteur, mais l’hypothèse reste acceptable. En revanche, elles ne prennent pas en compte les événements exceptionnels, que ce soit par exemple des élections… Ou un confinement !
Pour pouvoir modéliser la baisse du nombre de contacts pendant le confinement, les épidémiologistes ont dû introduire des paramètres de réduction du nombre de contacts. Seulement, ces paramètres n’étaient disponibles nulle part… Comment contourner le problème ? En choisissant les valeurs qui nous arrangent, pardi !
III) La calibration des modèles, plaisir coupable
En début de crise, le manque de recul peut faire qu’il est impossible de choisir une valeur fiable pour certains paramètres. La calibration du modèle permet de contourner le problème. Le principe est simple : pour un jeu de données étudié, on va fixer a posteriori un certain nombre de paramètres de manière à ce que le modèle arrive à reproduire ces données.
La pratique est courante, notamment en datascience où le grid search est très répandu. Seul problème, lors de la calibration du modèle, certains paramètres calibrés jouent le rôle de cale. Si on ne prend pas de précaution, les paramètres s’ajustent de manière à corriger les erreurs de modèle et d’estimation des autres paramètres. On entre dans une situation proche de l’overfitting. Ceci est particulièrement à double tranchant pour les modèles compartimentaux : ceux-ci sont en effet si souples que dans la majorité des cas, ils sont capables de corriger des erreurs très importantes en ajustant peu de paramètres.
Dans l’urgence du début de crise, nombre d’épidémiologistes ont joué à ce jeu dangereux. Ils se sont servis de la calibration des modèles compartimentaux pour estimer un autre paramètre inconnu : celui de contagiosité de la maladie, le R0. Mais la valeur du R0 ainsi estimé absorbait la totalité des erreurs de mesure des paramètres, et de choix de modèle. En a résulté une estimation du R0 dans la littérature variant de 1,4 à 6,68 [1].
Outre l’effet du confinement sur les contacts et le R0, un 3ème paramètre est estimé, ajoutant à la souplesse des modèles : un paramètre d’initialisation. Celui-ci peut prendre deux formes : soit la date de début de l’épidémie (à quel moment les premiers cas de Covid sont apparus en France ?) ; ou, à une date donnée marquant le début de la modélisation, le nombre de personnes en incubation ou infectieuses. Cela explique pourquoi on a entendu de nombreuses dates d’arrivée du patient 0 en Europe !
IV) Illustration du risque de modèle par la comparaison de deux modèles
La phase de calibration est dangereuse, car elle influe fortement sur les prédictions futures.
Au sein du groupe de travail CovDyn, nous avons comparé trois modèles, dont deux seront présentés en détail ici : le modèle SEIRAH de l’université de Bordeaux et un modèle proposé par l’EHESP. Un troisième modèle, proposé par l’INSERM, a aussi été étudié mais ne sera pas développé, nous invitons le lecteur à lire les communications de recherche [2] pour plus de détails (les graphes présentés sont issus de cette note). Les paramètres initiaux, les données et les paramètres calibrés ont été harmonisés pour que seuls changent les compartiments des modèles, ainsi que l’absence de distinction d’âge dans le modèle SEIRAH. Les deux modèles présentés ont fait l’objet d’un article de recherche [3].
a) Le SEIRAH
Au début de la pandémie, la majeure partie de la population est dans le compartiment S (Susceptible). À un taux α_t, qui dépend du nombre de personnes infectieuses à la date t, mais aussi du nombre de contacts journaliers et du nombre de personnes immunisées, une partie de la population est transférée dans le compartiment E (Incubation).
Ce compartiment E est supposé non contagieux, ce qui constitue une approximation : la phase d’incubation de la souche d’origine est en fait composée de deux phases : une phase non infectieuse (3 jours environ) et une phase infectieuse (2 jours environ). Dans ce modèle, les individus sont supposés rester un temps moyen t_i dans ce compartiment. Avec probabilité p_A, ces individus deviennent asymptomatiques et sont transférés dans le compartiment A. Sinon, ils sont transférés dans le compartiment I (Infectieux).
En absence d’hospitalisation, les individus restent infectieux un temps moyen t_s. Cependant, avec probabilité p_H, les individus peuvent être hospitalisés (compartiment H), ce qui arrive après un temps moyen t_bh. Les individus concernés restent à l’hôpital un temps moyen t_h, avant d’être transférés dans le compartiment R, suite à leur rétablissement ou leur décès. La période d’immunité suite à une contamination était inconnue au début de l’épidémie, il était donc systématiquement supposé que la réinfection était impossible.
Du fait des précautions des soignants et du faible nombre de contacts à l’hôpital, les individus dans le compartiment H sont supposés non contagieux. Ce compartiment H a une réalité médicale, mais il est aussi ajouté pour des raisons pratiques. En effet, les données remontées par les hôpitaux sont plus fiables et bien documentées. Elles constituent une donnée de meilleure qualité que le nombre de personnes infectieuses, biaisé par le nombre de tests journaliers réalisés. Pour cette raison, de nombreux modèles épidémiologiques ont fait le choix de se baser sur les données d’hospitalisation [4].
b) le modèle EHESP
Le modèle proposé par l’EHESP possède une structure similaire au SEIRAH, auquel il rajoute deux compartiments. Tout d’abord, ce modèle scinde la phase d’incubation en deux compartiments : une phase d’incubation non infectieuse (compartiment E), de durée moyenne t_i-t_p, et une phase d’incubation infectieuse I_p de durée moyenne t_p.
Il ajoute aussi un compartiment I_nh, qui regroupe les individus encore infectieux dont on sait qu’ils n’iront pas à l’hôpital. Intuitivement, on peut penser que I (SEIRAH) = I (EHESP) + I_nh. Contrairement au SEIRAH, ce modèle est stratifié par âge.
c) Comparaison des modèles
Les modèles ont d’abord été comparés sur leur capacité à se caler sur des données : sont-ils assez souples pour reproduire les données d’entrainement ? La réponse est oui pour tous les modèles comparés, que l’on prenne un long ou un court historique de données.
Ce graphique compare les hospitalisations observées France entière (points bleus) avec celles reproduites par les modèles (courbes). Les traits en pointillés sont les dates de début et de fin de confinement.
Le graphique suivant compare les hospitalisations observées France entière (points bleus) avec celles reproduites par les modèles (courbes). Les traits en pointillés sont les dates de début et de fin de confinement.
Cette capacité à reproduire les données rend ces modèles dangereux : ils sont si souples qu’ils reproduiront les données sur lesquels ils sont entrainés, même s’ils sont peu appropriés.
Les conséquences sont illustrées par les graphiques suivants. Cette fois-ci, les modèles ne sont entrainés que sur les données issues du début du confinement. Nous regardons les prédictions des modèles sur la fin du confinement, et les comparons à ce qui s’est passé dans la réalité. Les pointillés bleus marquent le début de la prédiction. Le premier graphique reprend des données France entière, le second pour la région Grand Est.
La qualité de prédiction des modèles varie énormément !
On peut aussi comparer les modèles sur le nombre d’infectés (compartiment I pour le SEIRAH, I + I_nh pour l’EHESP) prédit au cours du temps (France entière). Ces compartiments ne sont pas utilisés pour calibrer le modèle, il s’agit donc entièrement de données simulées par les modèles. Du fait d’un trop faible nombre de tests en début de pandémie, le nombre réel d’infectés journalier pendant le confinement n’est pas connu. Il n’est donc pas possible de comparer les modèles à la réalité, contrairement aux hospitalisations.
Ce graphique représente le nombre d'infectés donné par chaque modèle au cours du temp. On voit que le modèle SEIRAH prédit nettement moins d’infectés que les deux autres modèles. La différence entre le SEIRAH et le modèle de l’EHESP s’explique par deux raisons. D’une part, la stratification par âge : les hospitalisations étant principalement composées de personnes âgées, les données utilisées pour entrainer le SEIRAH sont non représentatives de la population générale. En conséquence, le SEIRAH voit donc l’estimation de ses indicateurs globaux biaisés par ce biais démographique. Cela explique pour moitié l’écart.
La raison du reste de l’écart découle directement de la structure des modèles. On pourrait penser que cela vient de la décomposition en deux compartiments de la phase d’incubation dans le modèle de l’EHESP, mais ceci ne joue qu’à la marge. En réalité, C’est l’ajout pourtant anodin en apparence du compartiment I_nh qui explique l’autre moitié de l’écart. En effet, le nombre de personnes entrant dans le compartiment H dépend uniquement du compartiment I, et non du compartiment I_nh. Le compartiment I_nh regroupe ainsi un stock d’infectés qui n’est pas présent dans le modèle SEIRAH. Les temps moyens choisis pour chacun des modèles ont été ajustés pour être cohérents avec le changement de structure du modèle, mais cela ne suffit pas à corriger cette différence.
Conclusion :
Comme tous les modèles, les modèles épidémiologiques sont d’abord entrainés sur des données puis utilisés pour prédire. Or, la structure de ces modèles fait qu’ils sont capables d’extrêmement bien s’adapter aux données d’entraînement grâce à la phase de calibrage / apprentissage. La qualité de reproduction des données n’est donc pas un bon critère de comparaison des modèles. Similairement aux bonnes pratiques issues de la data-science, il est impératif de tester les modèles sur leur capacité à prédire, et non à reproduire des données. Cette phase de validation prédictive a été que trop rarement effectuée en début de la pandémie. Ceci a mené à l’utilisation de modèles aux prédictions divergentes.
Ce manque de comparaison des modèles sur leur capacité à prédire a eu des implications importantes sur la politique du gouvernement. Celle-ci a en effet été très influencée par les résultats des modèles épidémiologiques, notamment pour estimer les dates futures des « vagues », ainsi que décider des confinements et autres mesures sanitaires.
[1]Viceconte, G., & Petrosillo, N. (2020). COVID-19 R0: Magic number or conundrum?. Infectious disease reports, 12(1), 1-2.
[2]Gauchon, R., Ponthus, N., Pothier, C., Rigotti, C., Volpert, V., Derrode, S., ... & Roy, P. (2021). Lessons learnt from the use of compartmental models over the COVID-19 induced lockdown in France (Doctoral dissertation, Université Lyon 1; Ecole Centrale de Lyon; INSA Lyon).
[3]Prague, M., Wittkop, L., Clairon, Q., Dutartre, D., Thiébaut, R., & Hejblum, B. P. (2020). Population modeling of early COVID-19 epidemic dynamics in French regions and estimation of the lockdown impact on infection rate.
Roux, J., Massonnaud, C., & Crépey, P. (2020). COVID-19: One-month impact of the French lockdown on the epidemic burden. MedRxiv.
[4] Ce n’était pas le cas du modèle SEIRAH d’origine, mais cela a été modifié afin d’harmoniser les modèles avant comparaison.
Comments