Le 30 novembre dernier a eu lieu le dernier séminaire de méthodologie statistique (SMS) de l’INSEE. Il portait sur le Big Data et la statistique publique, en mettant l’accès sur les méthodes utilisées : logiciels spécifiques, machine learning, étude des réseaux, étude textuelle… Les résumés des présentations sont disponibles ici.
Cela a été l’occasion de diffuser le blog statoscope (très bon jeu de mot). Il possède plusieurs articles expliquant certaines techniques utilisées dans le cadre du traitement de données massives, et du machine learning en général.
Le graphe en haut de cet article est issu de l’article suivant, qui traite de la visualisation avec Gephi de données de transport de marchandises par la route. Bonne lecture !
La question du report des voix entre les deux tours des élections est souvent primordiale pour les politologues et les journalistes politiques, afin de mieux comprendre les rapports de force entre les candidats. En effet, les candidats non qualifiés donnent ou non des consignes de vote, ou ont des proximités politiques plus ou moins claires avec un des candidats qualifiés pour le second tour. Nous allons essayer d’aborder cette question en regardant les deux tours de l’élection présidentielle française de 2012.
Beaucoup des analyses de “report de voix” utilisent des données des enquêtes réalisées à la sortie des urnes (donc construites par sondage, voir par exemple cet article de Slate). Ces enquêtes peuvent présenter certains inconvénients, et nous allons choisir ici une approche un peu différente, en analysant le vote pour chacune des villes et en établissant un modèle d’apprentissage très simple. Les données relatives au vote pour chacune des villes sont disponibles sur data.gouv, le site d’Open Data du gouvernement.
Le principe du modèle est d’essayer de prédire, ou d’expliquer, le vote au deuxième tour à partir des pourcentages de votes exprimés au premier tour. Ici, nous allons tout simplement faire tourner un modèle linéaire sur ces variables ville par ville afin de voir quelles tendances de report émergent. On utilise pour cela la fonction lm, classique en R. Les résultats sont les suivants :
Hollande
Sarkozy
Joly
72 %
22 %
Le Pen
18 %
6 %
Sarkozy
< 1 %
115 %
Melenchon
94 %
< 1 %
Poutou
78 %
3 %
Artaud
74 %
4 %
Cheminade
32 %
53 %
Bayrou
28 %
59 %
Dupont-Aignan
20 %
62 %
Hollande
114 %
< 1 %
Les résultats sont plus lisibles si on s’aide d’un petit graphique :
Gardons à l’esprit qu’il s’agit seulement d’un modèle (fruste, qui plus est), donc cela ne veut pas dire que 4% des électeurs d’Artaud ont voté pour Sarkozy au deuxième tour (qui sait ?). L’analyse reste intéressante. Quelques premières remarques qui me viennent à la lecture :
La somme des pourcentages donne une idée des électeurs qui n’ont pas souhaité participer au second tour. C’est particulièrement marqué pour les électeurs de Le Pen ;
Il semblerait que le choix de Bayrou en 2012 de soutenir le candidat Hollande n’ait pas eu un impact si important que ça sur son électorat ;
Le vote Mélenchon n’est pas si éloigné que ça du vote Hollande, en tout cas en termes de choix au second tour.
On peut aussi considérer ces données en nombre absolu de votes :
Sur ce graphique, on voit mieux que Hollande possédait plus de réserves de voix en 2012 que Sarkozy.
N’hésitez pas à nous donner vos autres interprétations sur Twitter !
Un peu plus tôt dans la semaine est paru un excellent article indiquant que le pic de naissance de chaque pays dépend de sa position géographique. Aujourd’hui, on va se concentrer sur la France et visualiser la fréquence des naissances réparties par signe astrologique :
La différence se voit encore mieux si on se concentre sur l’écart à la moyenne :
Voilà c’est tout pour aujourd’hui ! S’il y a des passionnés d’astrologie qui veulent m’expliquer ce qu’implique ce déficit de Capricorne et cet excédent de Cancer, je prends 😉
Données : naissances en France par jour entre 1968 et 2005.
Les données INSEE issues du recensement de la population, qui a lieu tous les ans (enfin, on ne peut pas être recensé tous les ans, car il s’agit d’un cycle sur cinq ans) permettent de récupérer beaucoup d’informations “basiques” sur les populations et les logements. Nous allons nous intéresser ici à une question : combien de personnes vivent en moyenne dans une pièce d’un logement ? C’est à dire que l’on calcule pour chaque commune française le nombre total de pièces dans tous les logements, et on divise la population de la commune par ce nombre. Les résultats obtenus sont les suivants :
Si on se retreint à la petite couronne, on trouve des nombres d’occupants par pièce qui varient globalement entre 0.5 et 1. La carte ci-dessous donne les résultats pour chaque commune :
On ne se lancera pas dans de grandes analyses sociologiques, mais on peut imaginer que cette variable soit liée dans un certain sens avec la pauvreté, et avec le taux de logement collectif. Si vous souhaitez aller plus loin, les données complètes sont disponibles ici !
Aujourd’hui, c’est homicide ! Je suis tombé sur une datavisualisation de StatCanada sur les homicides au Canada. Si ça vous intéresse, cliquez sur l’image ci-dessous :
En France, ces données sont centralisées par l’Observatoire national de la délinquance et des réponses pénales (ONDRP), qui publie ses données sur data.gouv. Leur dernier rapport est disponible ici.
Le mois dernier, nous avions étudié la probabilité que deux candidats à une élection obtiennent le même nombre de voix étant donné leurs intentions de votes (article ici, en anglais). Peut-on appliquer la formule pour deviner le nombre de bureaux avec des égalités parfaites pour l’élection présidentielle de 2012 ?
On peut faire des hypothèses simples pour se ramener à la formule de l’article précédent : supposer que tous les bureaux ont la taille moyenne (512 électeurs par bureau), et que les intentions de vote dans chaque bureau sont les intentions de vote au niveau national c’est à dire environ 52% Hollande et 48% Sarkozy. En pratique, cette dernière hypothèse est très fausse, il suffit de regarder la carte des résultats par département pour s’en convaincre :
Avec ces hypothèses, on devrait obtenir environ 2% des bureaux avec des égalités parfaites. Attention, ce n’est qu’un ordre de grandeur (à la hausse a priori), nos hypothèses sont très simplificatrices !
Les données par bureau pour l’élection présidentielle de 2012 sont disponibles sur data.gouv. Il y a 392 bureaux avec le même nombre de voix pour Sarkozy et Hollande, soit environ 0.6% du total. Notre ordre de grandeur n’est pas si mal 😉
Il y a quelques jours, la directrice de campagne de Donald Trump s’est fait remarquer avec un tweet dans lequel elle affirmait que la victoire de Trump avec 306 voix au collège électoral était “historiquement large”. Aujourd’hui on vérifie cette affirmation en graphant le nombre de voix remportées au collège électoral pour le vainqueur de chaque présidentielle depuis 1964 (date à laquelle le collège électoral est passé à 538 voix) :
Clairement la victoire de Trump semble plutôt faire partie des marges de victoire plutôt faibles. Je croyais également me souvenir d’une victoire d’Obama assez large en 2008, mais visiblement ce n’est rien à côté des deux victoires de Reagan en 1980 et 1984 !
“Tiens, Pâques est tard l’année prochaine”. Vous avez peut-être aussi déjà entendu cette phrase à propos de Pâques 2017 ? Il est vrai que l’année prochaine, le dimanche pascal aura lieu le 16 avril, soit 20 jours plus tard qu’en 2016 (27 mars). Je me suis demandé quelle était la distribution des dates de Pâques, et quand on pouvait considérer que “Pâques tombe tôt/tard cette année”
Wikipedia nous informe que “Pâques est le dimanche qui suit le 14e jour de la Lune qui atteint cet âge le 21 mars ou immédiatement après” … ce qui ne nous avance pas beaucoup ! Heureusement, le fameux mathématicien Gauss a établi un algorithme permettant de calculer cette fameuse date avec une suite d’opérations plutôt simples. On obtient alors la fréquence de chaque date, résumée dans ce petit graphe:
Les résultats, en vrac :
Pâques ne peut avoir lieu qu’entre le 22 mars et le 25 avril
La date “moyenne” de Pâques est le 8 avril
10% des dimanches de Pâques ont lieu avant le 27 mars (donc on pouvait bien dire qu’en 2016, Pâques tombait tôt !) et 10% après le 20 avril (la prochaine fois, ce sera en 2019, le 21 avril)
La date du 19 avril est légèrement plus fréquente que les autres (prochain Pâques à cette date en 2071)
Pâques a légèrement plus de chances de tomber un jour impair qu’un jour pair (52% contre 48%)
La distribution est résumée de façon plus imagée dans ce petit calendrier :
A demain pour un autre petit article du calendrier de l’avent !
Nous avons décidé de réaliser notre propre calendrier de l’avent ! Aujourd’hui, nous reparlons de l’élection américaine.
Aux détours des Internets, je suis tombé sur un article de blog qui suivait un peu la même idée que celle que nous avions développé dans notre dernier article long : comment adapter le système de vote américain, avec ses états et ses grands électeurs, à un autre pays ou à une autre zone géographique ? Son idée est d’utiliser les votes des élections européennes et chacun des pays de l’union européenne comme état. L’article est très intéressant, et vous le trouverez à cette adresse (en anglais) !
Nous avons décidé de réaliser notre propre calendrier de l’avent ! Tous les jours, vous trouverez un petit article ou une reprise d’un jeu de données, d’une publication ou d’un post d’un autre blog que nous avons trouvé particulièrement intéressant. Aujourd’hui, nous allons parler de sondages, et en particulier de sondages pour instituts en manque de moyens.
Supposons que l’on réalise un vote auprès d’un grand nombre d’électeurs, disons un million. Notre institut de sondages, l’IPFRES, souhaiterait savoir lequel des deux candidats, M.J ou M.F va sortir vainqueur du vote. Or, nous n’avons plus beaucoup d’argent. Nous ne pouvons donc interroger que très peu de personnes. Une première idée serait alors : si l’on interroge une seule personne complètement au hasard et qu’on lui demande pour qui elle va voter, est-ce que ça peut suffire pour deviner qui va être vainqueur ? Eh bien, oui. Mais cela dépend fortement d’avec combien d’écart cette victoire se fait ! Si M.F gagne avec 52% contre 48%, on a 52% de chances de tomber sur un de ses électeurs, et donc 52% d’avoir prédit le bon vainqueur – on en déduit qu’on a 48% de chances de s’être trompé… En revanche si la victoire est à 90% contre 10%, nous n’avions que 10% de chances de nous tromper.
Enfin, nous ne sommes pas si pauvres que ça, et nous prenons la difficile décision d’augmenter drastiquement nos charges et d’interroger non pas une mais trois personnes ! Pourquoi trois et pas deux ? Pour être sûr qu’il y ait un vainqueur dans notre échantillon, il vaut mieux que le nombre de personnes interrogées soit impair. Est-ce que cela augmente nos chances de bien prédire le vainqueur ? Le tableau ci-dessous résume nos chances d’avoir bien prédit avec notre échantillon selon le score réalisé :
Vote final
On a bien prédit
55 %
58 %
65 %
72 %
75 %
84 %
85 %
94 %
On voit bien que plus le score est serré, moins on gagne à interroger trois personnes… espérons qu’il ne le soit pas pour notre réputation de sondeurs !