Machine Learning et modélisation statistique : comment éviter les erreurs pour obtenir les meilleures prévisions possibles ?

Par Thomas Khieu, le 20 novembre 2017

 

De l’importance d’être précautionneux dans l’usage des données : exemple des enquêtes d’opinion lors des dernières primaires de la droite en France

L’objectif d’un sondage ou d’une enquête de nature statistique est de connaître la proportion de la population étudiée qui choisira d’effectuer une action prédéfinie. Pour ce faire, et parce qu’il est souvent impossible de sonder une population tout entière, on interroge une petite portion de cette dernière. Le but recherché dans ce cas est d’extrapoler à l’échelle de la population tout entière des résultats qui n’auront été obtenus que relativement au petit nombre d’individus effectivement interrogés.

Ce procédé s’illustre de façon bien connue dans les sondages d’opinion qui précèdent les élections. Or, il arrive que les modèles employés lors de ces enquêtes présentent des résultats éloignés de la réalité, à l’image de la plupart des prévisions parues en France avant les primaires de la droite et du centre organisées en novembre 2016, qui donnaient Alain Juppé gagnant devant Nicolas Sarkozy, et loin devant François Fillon, alors que ce fut finalement François Fillon qui l’emporta le 20 novembre avec un très net avantage.

Le sondage ci-dessous, publié par Le Monde le 17 novembre 2016 (soit 3 jours avant le premier tour de la primaire), est un clair exemple de ces prévisions inexaucées, les résultats de Nicolas Sarkozy, notamment, ayant été largement inférieurs à leur estimation basse.
 

 

La méthode la plus utilisée pour les enquêtes d’opinion est celle des sondages par quotas (ou stratification), qui présume que deux sondés ayant assez de caractéristiques en commun peuvent être échangés.

Le sondeur fait alors une hypothèse sur le nombre total d’individus appartenant à chaque classe de la population, puis sonde un certain nombre de ces personnes avant de généraliser le résultat à toute la classe et de lui appliquer une pondération proportionnelle au nombre total d’individus de la classe.

C’est à raison de cette hypothèse que le Los Angeles Times avait considéré contre toute évidence que l’intégralité des hommes afro-américains de 18 à 21 ans voterait pour Donald Trump, car tel fut effectivement le cas du seul sondé de cette classe.

La principale cause de ces écarts se trouve dans le modèle statistique utilisé, et, donc, dans le choix des individus interrogés et de la pondération qui leur est associée. En effet, le nombre de sondés présents dans l’échantillon étant généralement restreint, quelques erreurs de répartition dans les quotas peuvent entraîner de très grandes différences dans les estimations. Il est donc nécessaire d’être très précautionneux lors du choix des classes et des individus à sonder.

 

Modélisation statistique et Machine Learning

 

L’analyse de données se scinde généralement en deux grandes familles de méthodes :

1.  La statistique, qui a pour but de faire correspondre les données avec un modèle prédéfini dont les paramètres peuvent varier. La démarche consiste généralement à faire l’hypothèse que les observations suivent une distribution connue puis à tester cette hypothèse afin de la confirmer ou de l’infirmer.
Si on désire modéliser les résultats de lancers d’un dé à 6 faces, la démarche consistera généralement à faire l’hypothèse que le dé est équilibré (chaque face a une chance sur six d’apparaître à chaque lancer), puis à lancer le dé un certain nombre de fois afin de pouvoir vérifier cette hypothèse. Si le modèle est validé, cela signifie que la probabilité que l’hypothèse soit fausse est suffisamment faible au vu des résultats obtenus. En revanche, si la probabilité que l’hypothèse soit fausse est trop élevée (résultats des lancers incohérents avec l’hypothèse), on considèrera un autre modèle que l’on testera à son tour.

2.  Le Machine Learning, qui est une méthode d’auto-apprentissage, c’est-à-dire une intelligence artificielle permettant à la machine de produire des estimations ou des prévisions dont la performance dépendra des données rencontrées. Plus l’algorithme rencontre d’observations, plus il s’améliorera et gagnera en précision.
Si l’on reprend l’exemple du dé à 6 faces, la démarche consistera cette fois à lancer le dé un certain nombre de fois, puis à calculer une probabilité empirique (c'est-à-dire expérimentale) pour chaque résultat. Plus le nombre de lancers de la phase d’apprentissage sera élevé, meilleurs seront les résultats.

 

Application aux enquêtes d’opinion

 

Les enquêtes d’opinion recourent à des modèles statistiques afin d’établir des plans de sondage permettant ensuite d’obtenir les meilleures prévisions à partir des réponses des personnes interrogées.

Les moins rigoureuses, comme par exemple bon nombre d’enquêtes en ligne, n’utilisent aucune méthode pour s’assurer que les individus sondés soient effectivement représentatifs de la population d’intérêt. Il est donc facile de se rendre compte que leur résultat sera biaisé. Par exemple, si un site fréquenté majoritairement par des personnes de moins de 50 ans lance une enquête, les jeunes auront toutes les chances d’être surreprésentés par rapport aux seniors.

Les instituts de sondage, quant à eux, font généralement appel à des tirages stratifiés afin d’obtenir des enquêtes tenant équitablement compte de toute la population, mais surtout d’éviter de trop grosses dépenses car cette méthode permet de réduire le nombre d’individus à sonder. L’inconvénient de cette démarche est que l’hypothèse principale porte alors sur la répartition par classes et qu’une erreur dans cette classification, ou une réponse aberrante parmi les sondés, peut avoir de grosses conséquences sur les résultats de l’enquête.

Un modèle qui permettrait d’éviter ces écueils serait un sondage aléatoire simple. C'est-à-dire une enquête où tous les individus de la population auraient les mêmes chances d’être interrogés. Cette méthode se rapproche ainsi du Machine Learning mais présente elle aussi certains inconvénients. Elle nécessite notamment d’interroger un plus grand nombre de personnes, ce qui coûte donc plus cher, et elle permet moins facilement de dégager des tendances entre les différentes classes de la population.

 

Modélisation ou apprentissage : comment choisir sa méthode ?

 

Face à de grands volumes de données, il est fréquent de ne pas savoir quelle est la meilleure méthode à employer. A l’image des méthodes présentées, la modélisation et l’apprentissage présentent tous deux des avantages et des inconvénients. L’utilisation de modèles statistiques permet en effet une très bonne compréhension des relations entre les individus et les variables, tandis que le Machine Learning permet d’optimiser l’utilisation qui est faite des données afin d’en extraire le maximum d’information dans une démarche prédictive.

Le choix de la méthode doit donc être fait en fonction des résultats désirés ainsi que de la complétude des données, mais il est aussi possible d’utiliser les deux démarches afin de comprendre les dépendances entre les observations et de les modéliser tout en obtenant les meilleures prédictions, et en exploitant au mieux ses données.
 

Les opportunités offertes par ces méthodes

 

Si elles sont utilisées à bon escient, ces méthodes d’estimation permettent une très nette amélioration de la performance de l’entreprise. Elles ont en effet des applications très variées et sont même indispensables dans certains secteurs. Les domaines qui utilisent le plus ces algorithmes sont notamment :

 

  1. L’assurance et l’actuariat, dans le but d’estimer le coût d’un assuré et de décider du prix optimal à fixer pour son contrat ;
  2. Les banques, pour prédire les risques de non remboursement associés aux prêts de certains clients ;
  3. L’industrie, pour estimer l’évolution de ses stocks ou de ses ventes et anticiper au mieux ;
  4. Le marketing, dans le but de calculer l’impact d’une campagne de promotion, de communication, etc.

 

La modélisation statistique et le Machine Learning ne remplacent pas l’approche métier et doivent être utilisés avec attention, mais ce sont de véritables leviers de performance et faire appel à ces méthodes peut permettre à la fois une meilleure compréhension de la situation de son entreprise et une exploitation optimale de ses données.

A propos de Cyril Jacquet
Directeur PwC, Data & Analytics

01 56 57 81 48

Pour aller plus loin