Le paradoxe de Simpson

Selon moi, l’utilisation des statistiques lorsque l’on fait des paris et que l’on souhaite mettre toutes les chances de son côté pour être gagnant sur le long terme est indispensable, cependant l’utilisation seule des statistiques sans une parfaite connaissance et maitrise du sport sur lequel vous pariez ne vous permettra pas d’être forcement gagnant ou dans une moindre mesure de faire les bénéfices espérés. Nous allons voir dans cette article le paradoxe de Simpson, décrit par le statisticien Edward Simpson (et non Homer) en 1951. Ce Paradoxe est particulièrement intéressant par son aspect extrêmement contre intuitif, et permettra de mettre en lumière à quel point il est indispensable de maitriser sur le bout des doigts son sujet pour arriver à tirer des informations pertinentes des statistiques que vous étudiez.

  • On va supposer qu’un joueur de tennis A va disputer plusieurs matchs au cours de l’année 2019 et qu’il a un taux de victoires de 66.7 %.
  • Le joueur B au cours de cette même année va avoir quant à lui un taux de victoires de 85 %.
  • Au cours de l’année 2020 le joueur A va être moins performant et va gagner seulement 30 % de ses matchs.
  • Le joueur B va lui aussi être moins performant et va gagner 35 % de ses matchs durant l’année 2020.

Chacune des 2 saisons le Joueurs B à été plus performant. Pourtant si on compare le total global de victoires des 2 joueurs au cours des 2 années c’est le joueur A qui l’emporte avec 55.4 % de victoire contre   51.6 % pour le Joueur B.

A première vue, ça n’a pas de sens, le Joueur B à des % de victoires sur les 2 saisons bien plus élevés que le joueur A et pourtant, si l’on regarde le détail des performances :

  • L’année 2019, le joueur A a joué 90 matchs et il en a gagné 60
  • L’année 2020, le joueur A a joué 40 matchs et il en a gagné 12

Au total le joueur A a joué 130 matchs et il en a gagné 72, il a donc 55.4 % de victoires

 

  • L’année 2019, le joueur B a joué 20 matchs et il en a gagné 17
  • L’année 2020, le joueur B a joué 40 matchs et il en a gagné 14

Au total le joueur B a joué 60 matchs et il en a gagné 31, il a donc 51.6 % de victoires

On est donc ici en présence d’un paradoxe de Simpson, c’est-à-dire qu’une corrélation peut disparaître ou même s’inverser selon que l’on considère les statistiques dans leur globalité ou en les segmentant. On voit donc bien ici le piège que peuvent représenter les statistiques, car si je décidais de simplement vous présenter le nombre de victoires globale, il serait logique de penser que le joueur A est meilleure que le joueur B, alors que si je décidais de vous présentez les résultats sur chacune des années, le joueurs B apparaitrait comme le joueur le plus performant, et pour un non initié au tennis qui déciderais de ce lancer dans les paris sportifs en n’ayant aucune connaissance dans ce sport, comment savoir laquelle de ces deux statistiques est la plus pertinente. Le joueur B à t-il eu 85 % de victoire en ne jouant que des challengers, auquel cas sont % de victoires n’est peut-être pas si extraordinaire, ou alors n’a-t-il joué que des tournois du grand chelem et de se cas ces résultats seraient excellents, etc.., (toutes ces variables qui influent sur le résultat final et qui ne sont pas forcément explicites sont ce qu’on appelle des facteurs de confusion). ON peut évidement trouver énormément de scénario pour expliquer ces résultats, d’où l’importance d’être un « expert » dans son domaine pour être pertinent dans l’interprétation et l’utilisation des statistiques, car au final qui est le meilleur, le joueur A ou le joueur B ?