[04] Collège électoral et nombre de voix du vainqueur

Il y a quelques jours, la directrice de campagne de Donald Trump s’est fait remarquer avec un tweet dans lequel elle affirmait que la victoire de Trump avec 306 voix au collège électoral était “historiquement large”. Aujourd’hui on vérifie cette affirmation en graphant le nombre de voix remportées au collège électoral pour le vainqueur de chaque présidentielle depuis 1964 (date à laquelle le collège électoral est passé à 538 voix) :

usa_electoral_plot

Clairement la victoire de Trump semble plutôt faire partie des marges de victoire plutôt faibles. Je croyais également me souvenir d’une victoire d’Obama assez large en 2008, mais visiblement ce n’est rien à côté des deux victoires de Reagan en 1980 et 1984 !

On peut même s’amuser à superposer le nombre de grands électeurs du vainqueur des présidentielles françaises si on supposait que la France votait comme les Etats-Unis (voir notre article de la fin du mois de novembre à ce sujet) :

france_usa_electoral_plot

A part Giscard en 1974, aucun des présidents français n’aurait gagné avec une marge inférieure à celle de Trump cette année.

[03] La date de Pâques

“Tiens, Pâques est tard l’année prochaine”. Vous avez peut-être aussi déjà entendu cette phrase à propos de Pâques 2017 ? Il est vrai que l’année prochaine, le dimanche pascal aura lieu le 16 avril, soit 20 jours plus tard qu’en 2016 (27 mars). Je me suis demandé quelle était la distribution des dates de Pâques, et quand on pouvait considérer que “Pâques tombe tôt/tard cette année”

Wikipedia nous informe que “Pâques est le dimanche qui suit le 14e jour de la Lune qui atteint cet âge le 21 mars ou immédiatement après” … ce qui ne nous avance pas beaucoup ! Heureusement, le fameux mathématicien Gauss a établi un algorithme permettant de calculer cette fameuse date avec une suite d’opérations plutôt simples. On obtient alors la fréquence de chaque date, résumée dans ce petit graphe:

Fréquence des dates de Pâques de l'année 1600 à l'année 100000
Fréquence des dates de Pâques de l’année 1600 à l’année 100000

Les résultats, en vrac :

  • Pâques ne peut avoir lieu qu’entre le 22 mars et le 25 avril
  • La date “moyenne” de Pâques est le 8 avril
  • 10% des dimanches de Pâques ont lieu avant le 27 mars (donc on pouvait bien dire qu’en 2016, Pâques tombait tôt !) et 10% après le 20 avril (la prochaine fois, ce sera en 2019, le 21 avril)
  • La date du 19 avril est légèrement plus fréquente que les autres (prochain Pâques à cette date en 2071)
  • Pâques a légèrement plus de chances de tomber un jour impair qu’un jour pair (52% contre 48%)

La distribution est résumée de façon plus imagée dans ce petit calendrier :

Distribution de la date de Pâques dans le calendrier. Plus la teinte est rouge, plus la date est fréquente
Distribution de la date de Pâques dans le calendrier. Plus la teinte est rouge, plus la date est fréquente

A demain pour un autre petit article du calendrier de l’avent !

[02] Et si l’Europe votait comme les États-Unis ?

Nous avons décidé de réaliser notre propre calendrier de l’avent ! Aujourd’hui, nous reparlons de l’élection américaine.

Aux détours des Internets, je suis tombé sur un article de blog qui suivait un peu la même idée que celle que nous avions développé dans notre dernier article long : comment adapter le système de vote américain, avec ses états et ses grands électeurs, à un autre pays ou à une autre zone géographique ? Son idée est d’utiliser les votes des élections européennes et chacun des pays de l’union européenne comme état. L’article est très intéressant, et vous le trouverez à cette adresse (en anglais) !

[01] Sondage sur 3 personnes

Nous avons décidé de réaliser notre propre calendrier de l’avent ! Tous les jours, vous trouverez un petit article ou une reprise d’un jeu de données, d’une publication ou d’un post d’un autre blog que nous avons trouvé particulièrement intéressant. Aujourd’hui, nous allons parler de sondages, et en particulier de sondages pour instituts en manque de moyens.

Supposons que l’on réalise un vote auprès d’un grand nombre d’électeurs, disons un million. Notre institut de sondages, l’IPFRES, souhaiterait savoir lequel des deux candidats, M.J ou M.F va sortir vainqueur du vote. Or, nous n’avons plus beaucoup d’argent. Nous ne pouvons donc interroger que très peu de personnes. Une première idée serait alors : si l’on interroge une seule personne complètement au hasard et qu’on lui demande pour qui elle va voter, est-ce que ça peut suffire pour deviner qui va être vainqueur ? Eh bien, oui. Mais cela dépend fortement d’avec combien d’écart cette victoire se fait ! Si M.F gagne avec 52% contre 48%, on a 52% de chances de tomber sur un de ses électeurs, et donc 52% d’avoir prédit le bon vainqueur – on en déduit qu’on a 48% de chances de s’être trompé… En revanche si la victoire est à 90% contre 10%, nous n’avions que 10% de chances de nous tromper.

Enfin, nous ne sommes pas si pauvres que ça, et nous prenons la difficile décision d’augmenter drastiquement nos charges et d’interroger non pas une mais trois personnes ! Pourquoi trois et pas deux ? Pour être sûr qu’il y ait un vainqueur dans notre échantillon, il vaut mieux que le nombre de personnes interrogées soit impair. Est-ce que cela augmente nos chances de bien prédire le vainqueur ? Le tableau ci-dessous résume nos chances d’avoir bien prédit avec notre échantillon selon le score réalisé :

Vote final On a bien prédit
55 % 58 %
65 % 72 %
75 % 84 %
85 % 94 %

On voit bien que plus le score est serré, moins on gagne à interroger trois personnes… espérons qu’il ne le soit pas pour notre réputation de sondeurs !