Chocolat, prix Nobel et conclusions erronées

Les algorithmes intelligents permettent d’obtenir des renseignements précieux à partir de différents ensembles de données. Par exemple, de savoir pourquoi il y a autant de lauréats du prix Nobel dans notre pays. Étonnamment, cela s’expliquerait par le fait qu'en Suisse, la consommation de chocolat par habitant est plus élevée qu’ailleurs. C’est en tout cas que ce semble prouver l'illustration ci-dessous. Ou serait-ce totalement faux?

Nombre de prix nobel en fonction de la consomation de chocolat

Collage d'images: chocolat (adapté) cristi180884/CanStockPhoto, médaille du Nobel de la Paix Wikimedia Commons, domaine public

Prenons un autre exemple: en Suisse, depuis la Seconde Guerre mondiale, aussi bien le nombre de cigognes que le nombre de bébés par famille ont diminué. Cela prouve-t-il que les cigognes amènent les bébés, comme on le croyait autrefois? Bien sûr que non. Le fait que les cigognes désertent nos toits aujourd’hui est certes malheureux, mais n’explique en rien la diminution du nombre de naissances.

L’étudiant de Harvard, Tyler Vigen, a relevé toute une série de corrélations trompeuses. Bon nombre d’entre elles sont très drôles. Mais elles posent un problème bien connu des statisticiens: «La corrélation n’implique pas de causalité». La relation entre deux éléments ne signifie pas forcément que l’un influence l’autre.

Il existe une jolie expression en informatique, «Garbage in, garbage out», qui signifie grosso modo «A données inexactes, résultats erronés». En termes de Big Data, cela signifie que la pertinence d’un résultat fourni par un algorithme ne dépend pas seulement des données qui l’alimentent, mais également de la manière dont il est programmé pour calculer les bons paramètres.

 

Source: Technoscope 1/20: Big Data. Technoscope est le magazine technologique de la SATW pour les jeunes

Évaluation moyenne:
  •  
(0 Évaluations)

Qu'en dis-tu?

Cet article n'a pas encore reçu de commentaires.