Les données, résumant l’information, constituent la matière première principale de l’actuariat et de la data science. Les modèles prédictifs ou prescriptifs permettent de promettre monts et merveilles, à une seule condition : une quantité conséquente de données. Or dans la pratique, que cela soit pour des raisons de manque d'historique, ou de qualité, les données exploitables ne sont pas en quantité suffisante.
C'est pourquoi nous développons ici une comparaison de méthodes destinées à composer avec un manque de données.
Il est à noter que densité d’informations et quantité d’observations sont deux choses différentes. Une base de données peut être constituée de beaucoup d’observations sans pour autant avoir une densité d’information suffisante (exemple d’un portefeuille avec un assuré dans chaque ville, une seule classe SRA, que des assurés entre 35 et 40 ans, etc…). L’inférence statistique est scindée selon deux approches diamétralement opposées, le fréquentisme et le bayésianisme. Le risque principal lorsqu’une modélisation est réalisée sur une base contenant peu d’information est le sur-apprentissage. Nous allons voir qu’en approche bayésienne celui-ci reste limité contrairement à l’approche fréquentiste.
Le sur-apprentissage est un défaut des modèles qui accordent trop d’importance à l’observation. Ceux-ci ne parviennent pas à généraliser l’information contenue dans les données. L’approche classique consiste alors à scinder ses données en deux afin de construire une base d’apprentissage et une base de test (ou apprentissage, validation et test). Si le score observé sur les deux bases est équivalent alors il n’y a pas de signe de sur-apprentissage. Il existe de nombreuses méthodes afin de se prémunir du sur-apprentissage telles que la cross-validation (leave-one-out ou k-fold) ou la repeated cross-validation. Toutes ces méthodes sont des processus de validation indépendants de l’approche utilisée. Bien que très utile pour résoudre le problème de sur-apprentissage nous ne détaillerons pas ces méthodes ici au profit de la comparaison de l’inférence fréquentiste et l’inférence bayésienne.
Tous les modèles, qu’ils soient de machine learning, statistiques ou de deep learning peuvent s’écrire de cette façon :
où Y est la variable à expliquer. µ est la partie déterministe, c’est-à-dire celle que le modèle parvient à expliquer. Cette partie est une fonction des autres variables. Elle est notée 𝕏𝜷 dans les modèles linéaires. 𝛆 définit l’erreur du modèle, la partie que le modèle ne parvient pas à expliquer, la partie aléatoire. Nous pouvons ainsi différencier les problématiques « déterministes », où l’essentiel de l’information est porté par µ, des problématiques « aléatoires » où l’essentiel de l’information est porté par 𝛆. Les problématiques déterministes sont moins sensibles au manque d’information que les problématiques aléatoires. Dans cet article nous allons prendre le scénario le moins avantageux en essayant de répondre à une problématique aléatoire avec seulement 500 observations.
« Quelle est la probabilité de vendre un bien ? »
La vente d’un bien est un phénomène aléatoire. En effet, il est impossible d’affirmer avec un niveau de confiance élevé qu’un bien se vendra au cours de la 4ème semaine : le délai de vente ne se prédit pas. Pour cet exemple nous utilisons une base limitée de données contenant 500 biens immobiliers. Opposons maintenant l'inférence bayésienne à l'inférence fréquentiste.
L’approche fréquentiste est l’approche la plus commune car la plus intuitive. Elle consiste notamment à faire une hypothèse de modélisation puis d’évaluer la vraisemblance des données dans le cadre de cette hypothèse. Cette hypothèse est généralement faite d’après la distribution de la variable cible. Revenons donc à notre exemple et observons la variable cible, à savoir la densité des délais de vente. L'objectif consiste à proposer une hypothèse de modélisation cohérente.
Un œil averti reconnaitra ici la densité de la loi binomiale négative. Rien de surprenant puisque les variables aléatoires issues de cette loi représentent le nombre d’échecs x obtenus selon une loi binomiale p avant d’obtenir n succès. Dans notre cas, une semaine sans vendre est un échec. Il y a x échecs avant d’avoir une réussite, la vente du bien. L’hypothèse réalisée dans le cadre de cette approche est :
« Le délai de vente suit une loi binomiale négative de paramètre (1,p) »
C'est sur la base de cette hypothèse et de l'étude de la vraisemblance que nous pourrons comparer les deux approches.
L’approche bayésienne diffère de la précédente dans le sens où un niveau de crédibilité est accordé à chacune d’entre elles. L’hypothèse précédente implique que le paramètre p soit identique pour tous les individus. Dans le cadre bayésien, l’utilisation d’un hyper paramètre permet de réaliser une hypothèse en amont de cette dernière, il s’agit de l’a priori du modèle. En approche bayésienne, l'hypothèse devient :
« Le délai de vente suit une loi binomiale négative de paramètre (1,p) avec p qui suit une loi L de paramètre lambda. »
Réalisons désormais la comparaison des deux approches, par l'application d'un même modèle linéaire généralisé (GLM), permettant d'étudier la vraisemblance, avec l'indicateur d'écart : RMSE (erreur quadratique moyenne).
Bien que les valeurs pour l’approche fréquentiste soient plus faible, le fort écart en train et test révèle un fort sur-apprentissage alors qu’il est bien moindre pour l’approche bayésienne.
La base des 500 observations a été scindée en deux grâce à un échantillonnage stratifié à 80% d'après le modèle GLM. Ainsi la base d'apprentissage compte 400 observations et la base de test compte 100 observations.
Un autre moyen, plus subtile, pour se rendre compte du sur-apprentissage est de réaliser des simulations de ventes.
Prenons la base de test qui est composée de 100 biens et réalisons 1000 simulations de ventes (tirage des délai de vente) pour chaque bien d'après chaque approche. Traçons ensuite la densité des délais de ventes simulés pour chaque ensemble. Afin de simplifier la lecture, seule 3 densités sont représentées. Nous observons alors que l'approche bayésienne arrive à mieux reproduire la distribution de la réalité. Il est à noter qu'ici l’approche bayésienne a un regard légèrement plus prudent que la réalité contrairement au regard largement optimiste de la modélisation fréquentiste.
Bien qu'un manque d'information conduise au sur-apprentissage, il est possible de construire des modèles efficaces qui ont acquis une connaissance bien plus globale du phénomène observé. En l'occurrence, l'inférence bayésienne semble adaptée à la situation. Il est ensuite conseillé d'utiliser des méthodes de validation (cross-validation, K-fold, LOO, etc...) afin d'améliorer le modèle et le rendre encore plus robuste.
Dans le cadre de cet exemple, nous avons pris le parti d'opposer l'approche fréquentiste et l'approche bayésienne sur un modèle GLM en famille binomiale négative. Cette loi n'est d'ailleurs pas sans rappeler la méthodologie d'analyse de la fréquence des sinistres en assurance.
A l'heure où le "BIG data" est sur toutes les lèvres, il faut être conscient qu'assez peu d'entreprises peuvent prétendre en faire. Dans l'immense majorité des cas, la quantité de données ou bien la densité d'informations disponibles bride la performance des modèles. C'est alors notre mission chez Périclès Actuarial de vous accompagner dans votre digitalisation, en proposant des méthodologies performantes, avant tout adaptées à votre problématique.
Cette problématique aléatoire des délais de vente aurait pu être abordée sous une autre approche que sont les modèles de durée avec les régressions de Cox ou leur version bayésienne. Cependant, ceux-ci feront l'objet d'un prochain article sur l'analyse de la résiliation (CHURN) et la durée de vie des contrats.
Commentaires