Blogs français de Parkopedia

Vos pronostics sont-ils bons?

Rédigé par Dr Sander van Dijk, Head of Data Science | Jul 21, 2020 9:47:00 PM

Dans quelle mesure faites-vous confiance aux prévisions météorologiques ?

Peut-être vous ne leur faites pas du tout confiance, ou vous avez peut-être une préférence pour une source, qui est généralement plus juste que les autres. Mais pouvez-vous faire une déclaration objective sur la qualité de ses prévisions ?

Chez Parkopedia, nous prévoyons la disponibilité des places de stationnement, tout au long de l’année, pour des centaines de milliers d’endroits dans le monde. Nous nous posons la même question, et nos clients ainsi que nos partenaires nous posent naturellement la même question : « Comment pouvons-nous démontrer de manière mesurable et objective la qualité de ces prévisions « ?

Les statistiques et l’apprentissage automatique sont aujourd’hui largement utilisés pour tenter de prédire l’avenir. Les prévisions à valeur unique tentent de prédire des résultats exacts, comme la valeur anticipée de la livre sterling par rapport au dollar américain le lendemain, ou la température qu’il fera sur le lieu de vos vacances le week-end prochain. La qualité de ce genre de prévisions est relativement simple à évaluer : vous notez la valeur prédite, attendez jusqu’au moment où la prévision devrait se réaliser, enregistrez la valeur réelle que vous observez et, enfin, vous examinez la différence des deux valeurs pour déterminer la qualité de la prévision. Par exemple, si deux météorologues prévoient que la température demain à midi sera respectivement 18 et 22 degrés, et que le lendemain vous enregistrez une température réelle de 21 degrés, le deuxième météorologue a évidemment été plus efficace que le premier avec une erreur de prévision de seulement 1 degré contre 3 degrés.

Pour une autre catégorie de prévisions, c’est un peu plus compliqué d’obtenir une mesure de performance précise, à savoir celles qui prédisent la probabilité qu’un événement se produise. Un exemple dans les prévisions météorologiques est la probabilité qu’il pleuve ou non à un certain moment. L’exemple le plus pertinent pour nous est la probabilité qu’une place de stationnement soit disponible à votre destination au moment prévu de votre arrivée. Les humains sont notoirement mauvais dans la gestion des incertitudes et des probabilités, le langage qui les entoure pouvant également être ambigu ajoute à la difficulté. Comme l’indique la Harvard Business Review, il n’y a pas de véritable consensus sur la probabilité que quelquechose se produise quand on dit que cela se produira « probablement », ou sur la probabilité que ces événements soient plus susceptibles de se produire que ceux qui se produiront « peut-être ».

Probabilités en chiffres concrets

Il est important de parler d’abord des probabilités en termes de chiffres concrets. Elles sont généralement exprimées sous la forme d’un chiffre compris entre 0 et 1, 0 signifiant alors que l’événement prévu ne se produira certainement pas, 1 signifiant que l’événement est garanti de se produire, et 0,5 signifiant que l’événement a une chance sur deux de se produire. De manière équivalente, nous pouvons également exprimer cela en pourcentages, de sorte que les probabilités varient entre 0 % et 100 % et lorsque l’événement a une chance sur deux de se produire alors, le pourcentage s’élève à 50 %. La question se pose maintenant à savoir si avec une prévision de X % de chance qu’un événement se produise, j’attends et j’observe ce qui se passe réellement, quel est le résultat binaire exprimant le fait que l’événement prévu se produise ou non, puis-je faire preuve de discernement quant à la qualité de la prévision ?

Le principal problème est qu’une probabilité n’est jamais une garantie (à moins que la prévision ait réellement une probabilité de 0 % ou de 100 % de se produire). S’il y a uniquement 10 % de chance qu’il pleuve et que sur cette base vous êtes sorti sans parapluie, mais vous avez néanmoins été trempé par une énorme averse, alors évidemment vous ne serez pas très content du météorologue qui aura fourni ces prévisions, mais ce dernier pourrait toujours dire que vous avez juste été malchanceux ; sa prévision laissait supposer qu’il y aurait une chance sur dix (1/10) que cela se produise. D’après ce simple exemple, un météorologue qui aurait fourni une prévision de 90 % de chance de pluie pourrait sembler meilleur, mais il se pourrait que les 9 prochaines fois que les mêmes prévisions seront faites, il ne pleuvra pas du tout, ce qui aurait justifié la prévision du premier météorologue. Cela donne une première idée de la capacité à tester la qualité des prévisions d’un météorologue probabiliste : il faut recueillir une plus grande quantité d’exemples pour savoir si les probabilités prévues reflètent correctement les fréquences globales de la survenue de l’événement, contrairement à nos tous premiers exemples de température et de prix où une seule observation offre déjà une certaine mesure de précision.

La signification exacte des probabilités peut être relativement philosophique, mais à partir de l’intuition initiale ci-dessus, de nombreuses personnes arrivent à la conclusion suivante lorsqu’il s’agit d’essayer de mettre des mots sur les conditions qui constituent de « bonnes » prévisions probabilistes :

Dans tous les cas de figure, on prévoit qu’un événement se produira avec une probabilité de X %, cet événement devrait se produire dans X % de tous ces cas de figure.

Donc, si vous prenez tous les jours pour lesquels quelqu’un a prédit qu’il y avait 30 % de probabilité qu’il pleuve, par exemple sur une année entière, alors l’attente est qu’il a effectivement plu en moyenne 3 jours sur 10 pendant cette période. Si cette moyenne est supérieure ou inférieure, alors nous savons que les prévisions sont sous-optimales au moins dans un certain sens. Ce concept s’appelle le calibrage, et un météorologue pour lequel les probabilités et les fréquences réelles observées correspondent est qualifié de « correctement calibré ».

Il sera utile de visualiser ce concept. Tout d’abord, supposons que nous prédisons uniquement un chiffre exact de différentes valeurs de probabilité de 0 à 1, par exemple jusqu’à une décimale : 0,0 ; 0,1 ; …; 1,0 ; ce qui nous donne 11 valeurs. Ensuite, nous ferons un certain nombre de prévisions et d’observations correspondantes par rapport aux résultats réels. Chaque fois que nous faisons une observation positive (en effet, il a plu, ou nous avons pu trouver une place de stationnement), nous prenons une balle verte et nous la déposons dans une corbeille correspondant à la probabilité prévue pour cet événement. Pour une observation négative, nous prenons une balle bleu foncé. 


Voici quelques exemples possibles de résultats de deux météorologues :

Les résultats du premier météorologue semblent très aléatoires : peu importe ses prévisions, le résultat semble avoisiner les 50 % tout le temps. Le second météorologue est bien mieux calibré : plus la probabilité qu’il a fournie est élevée, plus l’événement s’est en fait produit.

Nous pouvons rendre cela concret et mesurable avec un peu de mathématiques. Tout d’abord, supposons que nous prédisons uniquement K différentes valeurs de probabilité de 0 à 1, par exemple jusqu’à une décimale : 0,0 ; 0,1 ;…; 1,0 ; pour K = 11. Ensuite, nous ferons N prévisions et des observations correspondantes des résultats réels. Nous les groupons selon les K différentes valeurs de prévision, que nous indiquerons par fk où f0 = 0,0 et fK = f10 = 1.0, puis nous déterminerons dans ces groupes le ratio du nombre de fois où l’événement prévu s’est réellement produit, que nous indiquerons par ōk pour le groupe k correspondant à la valeur de prévision fk. Avec tout cela en place, nous pouvons énoncer le concept de calibrage un peu plus officiellement : nous nous attendons à ce que le ratio ōk observé soit aussi proche que possible de la probabilité/ratio fk prévu(e) pour chaque groupe k. Nous pouvons utiliser la différence entre les deux pour mesurer ceci, calculer le carré de sorte que nous traitons les surestimations et les sous-estimons de la même manière, l’ajouter à tous les groupes (pondérée en fonction du nombre de prévisions faites dans ce groupe, nk, pour mettre davantage l’accent sur les plus grands groupes) et, enfin, la moyenne de toutes les N observations pour arriver à une mesure objective finale de la notion de « calibrage » :

C’est ce que l’on appelle une perte, ce qui signifie que les valeurs les plus élevées sont plus mauvaises, et qu’un score de 0 indique un calibrage parfait.

Nous pouvons étendre un peu nos chiffres précédents pour rendre visibles les parties de cette perte. Ci-dessous, nous dessinons en bleu clair la ligne de calibrage parfait, où le taux prévu fk est exactement égal au taux observé ōk, et en gris foncé les taux réels observés. Les longueurs des lignes verticales qui les relient sont alors égales à la différence fk - ōk dans l’équation ci-dessus.

Les différences pour le premier météorologue avec des prévisions plus aléatoires, sont beaucoup plus importantes et, en effet, cela se traduit par un score de calibrage plus mauvais (plus élevé).

Des prévisions mal calibrées sont d’aucune utilité, mais il est important de noter que des prévisions bien calibrées ne garantissent pas des prévisions utiles. Pour le vérifier, examinons Bergen, en Norvège, où il pleut en moyenne 239 jours sur 365 jours par an(!), soit environ 65 % des jours. Sur cette base, un météorologue pourrait décider de prévoir une probabilité de pluie de 65 % pour chaque jour de l’année. Il n’aurait qu’un seul groupe de prévisions avec fk = 0,65 ; avec un taux observé sur l’année de ōk = 0,65 ; résultant en un score de calibrage de 0. Le météorologue pourrait alors se vanter d’être parfaitement calibré, mais bien sûr cela n’aurait aucune utilité pour personne. De même, prédire une chance fixe de 5 % de pouvoir trouver une place de stationnement à Rome n’importe où et à tout moment peut être correct, mais cela ne vous permet pas de décider où chercher réellement une place de stationnement.

La première image ci-dessous illustre cela avec un exemple où la prévision s’élève toujours à 0,5 pour une situation où en fait, la probabilité générale d’un événement positif est de 50 % : le point bleu unique est placé exactement sur la ligne de calibrage parfaite, et la perte de calibrage est 0, mais les prévisions sont sans valeur. Une autre valeur extrême possible, illustrée dans la deuxième image, est un météorologue qui prédit toujours 0 ou 1, il est ainsi toujours sûr à 100 %, même si dans ce cas il peut avoir tort environ une fois sur cinq. Sa perte de calibrage n’est pas nulle, mais ses prévisions sont sans doute beaucoup plus utiles.

Ceci démontre que vous voulez non seulement que les prévisions de votre météorologue soient calibrées, mais aussi que ce dernier fournisse des prévisions variables, qui tendent idéalement plus vers les valeurs extrêmes de 0 % et 100 %. Ce concept est également appelé « résolution ». Le meilleur météorologue pourrait obtenir une résolution parfaite en donnant uniquement des probabilités de 0 % ou 100 %, tout en restant parfaitement calibré, ce qui signifie que les taux d’observation s’élèvent exactement à 0,0 et 1,0 respectivement.

Une façon de définir la résolution est que nous voulons que le taux observé pour chaque corbeille, ōk, soit différent du taux observé en général pour tous les exemples, ō. Cela nous amène à utiliser la différence entre les deux, additionnée et pondérée sur toutes les corbeilles comme nous l’avons fait pour le calibrage, et d’arriver à une équation très similaire pour ce score :

Contrairement au calibrage, un résultat plus élevé est préférable pour ce score. Pour obtenir un seul score, il suffit de soustraire la résolution du calibrage : CAL - RES, qui est encore une perte lorsque la valeur plus basse est meilleure. Voici l’illustration combinée de nos deux derniers exemples ci-dessus :

La ligne horizontale bleu foncé indique le taux moyen observé sur tous les échantillons, soit 0,5 dans les deux cas, et les lignes verticales entre cette ligne et le taux d’observation gris par corbeille indiquent la contribution au score de résolution de cette corbeille. Cela montre que le premier météorologue n’a pas de résolution, alors que les lignes de résolution du second météorologue, qui a plus d’assurance, l’emportent sur les pertes de calibrage. Cela signifie que le score combiné du second est inférieur à celui du premier (−0,0419 par rapport à 0,0), et nous arrivons à une mesure quantitative et objective validant notre intuition que le second météorologue est meilleur que le premier.

En conclusion, il s’avère que la combinaison de CAL et RES, avec un petit terme supplémentaire, se traduit par une autre formulation simple et élégante :

Le terme d’incertitude supplémentaire (UNC) est défini comme ō(1 - ō), ce qui est essentiellement une perte de base qui est maximale lorsque le taux global observé est de 50 %, et intègre explicitement qu’il est plus difficile d’obtenir un bon score lorsqu’il y a beaucoup d’incertitude autour de l’événement que vous souhaitez prévoir.

Cette dernière équation, communément appelée « le score de Brier », est simplement basée sur la différence par échantillon entre la probabilité fi prévue et l’observation oi 0 ou 1 correspondante. Le score de Brier est une mesure populaire dans le domaine de la prévision probabiliste en raison de sa simplicité, mais également en raison de certaines de ses propriétés formelles qui ne permettent pas au météorologue de « tricher » et de couvrir ses paris, sans risquer un pire score. Le score de Brier n’a pas d’unité, et avec le coût d’incertitude intégré, il n’est pas vraiment possible de dire ce qui fait un bon score de Brier dans toutes les situations ; ses points forts résident plutôt dans le fait qu’il nous permet de comparer objectivement deux météorologues.

Parkopedia applique le score de Brier comme principal IPC pour juger de la qualité de ses prévisions de disponibilité : « nous l’utilisons pour comparer les performances de nouvelles itérations de nos modèles d’apprentissage automatique à celles en cours de production afin de nous assurer qu’ils améliorent davantage notre produit, ou nous l’utilisons pour comparer les performances à différents endroits et à différents moments, en utilisant la répartition du score en parties comme décrit ci-dessus, afin de comprendre ces différences plus en détail et guider la recherche pour améliorer davantage nos modèles. »

Donc, la prochaine fois que vous voudrez décider à du météorologue auquel vous pourrez faire confiance, assurez-vous de comparer leurs scores de Brier !