[14] Noms de rues et personnalités

Nous avions étudié il y a quelques temps les relations entre les différents noms de rue et la couleur politique de la ville dans un article. L’application que nous avions mise en place pour tester la couleur politique de la rue où vous habitez ou travaillez est toujours accessible ici. Pour ce petit article, nous allons nous limiter aux personnalités publiques : lesquelles sont les plus fréquentes dans les villes ? Cette question est assez classique (voir ici par exemple, sur Slate), mais nous allons coupler cette analyse avec la couleur politique de la ville pour voir si les mêmes personnalités ressortent. Nos résultats sont les suivants :

Extrême Gauche Gauche Droite
1 Victor Hugo De Gaulle De Gaulle
2 De Gaulle Pasteur Pasteur
3 Pasteur Victor Hugo Victor Hugo
4 Voltaire Jean Jaurès Jean Moulin
5 Jean Jaurès Jean Moulin Jean Mermoz

On ne retrouve bien pas les mêmes résultats selon la couleur politique ! Si De Gaulle, Pasteur et Victor Hugo sont globalement présents partout, Voltaire et Jean Jaurès sont très marqués à gauche. Cela se vérifie à l’aide de notre application :

Pour les villes de droite, les marqueurs de personnalités sont plus rares : la plupart des rues portent des noms plus traditionnels, comme la rue de l’Église, ou des Lilas.

[13] Prénoms : part du top 10 et diversification

Avec chaque nouvelle année vient sa liste des prénoms tendance. Je suis toujours étonné de constater que beaucoup d’enfants possèdent des prénoms peu portés. Je me suis demandé si mon ressenti était exact, et le cas échéant si la tendance était récente. J’ai utilisé pour cela le fichier des prénoms de l’INSEE de 1946 à 2006, et fait un graphe de la part dans le total des 10 prénoms les plus populaires de chaque année :

Part du total pour les 10 prénoms les plus populaires donnés par année
Part du total pour les 10 prénoms les plus populaires donnés par année. Lecture : en 1960, les 10 prénoms les plus populaires représentaient 40% du total des naissances

Mis à part une hausse de la courbe (donc une baisse de la diversité) des prénoms féminins dans les années soixante, la tendance est bien à la baisse. La loi de 1993 qui libéralise le choix des prénoms ne semble d’ailleurs pas avoir eu d’effet sur cette tendance. En conséquence, j’imagine qu’il y a bien moins de doublons dans les classes qu’il ne pouvait y en avoir il y a quelques années.

[12] Le paradoxe d’Alexander

Il paraît que tout mathématicien apprécie un bon paradoxe. Et il semblerait aussi qu’il n’y ait pas de bon blog de maths sans paradoxe, comme nous le prouvent par exemple Freakonometrics, Science étonnante ou encore la chaîne youtube Science4All ! Donc aujourd’hui on inaugure la section paradoxe de ce blog avec un petit problème dû à Alexander (1989).

Imaginez une tombola où il y a n = 3 prix distribués. Une même personne ne pourra recevoir qu’un seul prix, mais il n’y a pas de limite dans le nombre de tickets que chacun peut acheter pour maximiser ses chances de remporter un lot. Le tirage se déroule comme suit : on met tous les tickets dans l’urne et on tire le gagnant du premier lot. Si la personne tirée possédait plusieurs tickets, on les retire tous de l’urne, et on recommence jusqu’à ce que les trois prix aient été attribués.

Obtenir un de ces prix vous tient très à cœur et vous achetez 225 000 tickets de loterie ! Votre éternel rival (noté R) lui aussi veut un de ces lots à tout prix et achète également 225 000 tickets. 50 000 autres personnes ont joué à la loterie, mais elles n’ont acheté qu’un seul ticket chacune.

Vous manquez malheureusement le tirage mais vous croisez votre rival qui en sort, tout dépité. Logiquement, vous devriez vous réjouir, non ? Le fait qu’il n’ait pas gagné malgré ses 225 000 tickets devrait vous donner mécaniquement plus de chances. En termes plus mathématiques, on devrait donc avoir :

\(\Pr(vous~perdez~|~R~a~perdu) \leq \Pr(vous~perdez) \)

 

On peut très simplement faire des simulations de cette loterie en R (et avec l’aide du package foreach, que j’apprécie beaucoup). On va faire 100000 simulations parce que la différence entre les deux probabilités n’est pas très élevée :

library(foreach)


N <- 500000
multiTickets <- 225000

id_self <- 1
id_rival <- 2
pop <- c(rep(1,multiTickets),rep(2,multiTickets),3:(N-2*multiTickets))

n <- 3

nSim <- 100000

successive_sample <- function(pop, n) {
 
 sample_set <- rep(0,n)
 popTemp <- pop
 k <- 1 ## temp size of sample
 
 cont <- TRUE
 
 while(cont) {
 
 drawn_unit <- sample(popTemp,1)
 sample_set[k] <- drawn_unit
 k <- k+1
 popTemp <- popTemp[popTemp != drawn_unit]
 
 if( k > n ) {
 cont <- FALSE
 }
 
 }
 
 return(sample_set)
}

sim_lottery <- foreach(k = 1:nSim, .combine=rbind) %do% {
 successive_sample(pop, n)
}


p_lost <- sum(as.numeric(
 apply(sim_lottery,1, function(x) { return(!(id_self %in% x)) } )
)) / nSim

sim_rival_lost <- sim_lottery[apply(sim_lottery,1,function(x) { return(!(id_rival %in% x)) }),]
p_lost_conditional <- sum(as.numeric(
 apply(sim_rival_lost,1,
 function(x) { return(!(id_self %in% x)) })
)) / nrow(sim_rival_lost)

Et on observe :

> p_lost
[1] 0.02871
> p_lost_conditional
[1] 0.03449465

C’est-à-dire :

\(\Pr(vous~perdez~|~R~a~perdu) > \Pr(vous~perdez) \)

 

Donc contrairement à notre intuition, le fait de savoir que notre rival a perdu ne doit pas nous réjouir, car nous avons maintenant moins de chances de gagner que sans cette information !

Plutôt rigolo, non ? Vous pouvez essayer de faire tourner le code précédent avec des allocations en tickets un peu moins “bizarres”. Vous observerez par exemple que pour 1000 tickets distribués parmi 1000 joueurs différents, la condition “intuitive” est bien vérifiée. Le “paradoxe d’Alexander” a en fait des applications en statistique théorique et en sondages.

 

Image de couverture © The Pokémon Company

[11] Nombre de naissances et astrologie chinoise

Dans l’article de jeudi, on s’est limité à regarder ce qui se passait pour notre zodiaque “occidental”. Mais il existe un autre jeu de signes astrologiques qui est utilisé à travers le monde : il s’agit du zodiaque chinois. Ici, ce qui détermine le signe n’est pas le mois de naissance mais l’année (selon le calendrier de type lunaire, qui est également ce qui conduit la date de Pâques à varier selon les années). On va ici faire l’approximation année calendaire = année chinoise, ce qui revient à mal spécifier les signes astrologiques des naissances en janvier. Cela permet en revanche d’utiliser directement une information de type pyramide des âges.

En effet, à partir du jeu de données des répartitions par âge, on peut en déduire le nombre de personnes possédant chacun des signes astrologiques. À partir de là, on peut calculer l’écart au nombre moyen dans la population française fin 2015 :

Il manque donc des Singes, des Coqs et des Chiens. Que dire alors des Singes capricornes ?

[10] Big data et statistique publique

Le 30 novembre dernier a eu lieu le dernier séminaire de méthodologie statistique (SMS) de l’INSEE. Il portait sur le Big Data et la statistique publique, en mettant l’accès sur les méthodes utilisées : logiciels spécifiques, machine learning, étude des réseaux, étude textuelle… Les résumés des présentations sont disponibles ici.

Cela a été l’occasion de diffuser le blog statoscope (très bon jeu de mot). Il possède plusieurs articles expliquant certaines techniques utilisées dans le cadre du traitement de données massives, et du machine learning en général.

Le graphe en haut de cet article est issu de l’article suivant, qui traite de la visualisation avec Gephi de données de transport de marchandises par la route. Bonne lecture !

[09] Reports de voix à la présidentielle 2012

La question du report des voix entre les deux tours des élections est souvent primordiale pour les politologues et les journalistes politiques, afin de mieux comprendre les rapports de force entre les candidats. En effet, les candidats non qualifiés donnent ou non des consignes de vote, ou ont des proximités politiques plus ou moins claires avec un des candidats qualifiés pour le second tour. Nous allons essayer d’aborder cette question en regardant les deux tours de l’élection présidentielle française de 2012.

Beaucoup des analyses de “report de voix” utilisent des données des enquêtes réalisées à la sortie des urnes (donc construites par sondage, voir par exemple cet article de Slate). Ces enquêtes peuvent présenter certains inconvénients, et nous allons choisir ici une approche un peu différente, en analysant le vote pour chacune des villes et en établissant un modèle d’apprentissage très simple. Les données relatives au vote pour chacune des villes sont disponibles sur data.gouv, le site d’Open Data du gouvernement.

Le principe du modèle est d’essayer de prédire, ou d’expliquer, le vote au deuxième tour à partir des pourcentages de votes exprimés au premier tour. Ici, nous allons tout simplement faire tourner un modèle linéaire sur ces variables ville par ville afin de voir quelles tendances de report émergent. On utilise pour cela la fonction lm, classique en R. Les résultats sont les suivants :

Hollande Sarkozy
Joly 72 % 22 %
Le Pen 18 % 6 %
Sarkozy < 1 % 115 %
Melenchon 94 % < 1 %
Poutou 78 % 3 %
Artaud 74 % 4 %
Cheminade 32 % 53 %
Bayrou 28 % 59 %
Dupont-Aignan 20 % 62 %
Hollande 114 % < 1 %

Les résultats sont plus lisibles si on s’aide d’un petit graphique :

Report des voix (relatif) pour l'élection présidentielle 2012
Report des voix (relatif) pour l’élection présidentielle 2012

Gardons à l’esprit qu’il s’agit seulement d’un modèle (fruste, qui plus est), donc cela ne veut pas dire que 4% des électeurs d’Artaud ont voté pour Sarkozy au deuxième tour (qui sait ?). L’analyse reste intéressante. Quelques premières remarques qui me viennent à la lecture :

  • La somme des pourcentages donne une idée des électeurs qui n’ont pas souhaité participer au second tour. C’est particulièrement marqué pour les électeurs de Le Pen ;
  • Il semblerait que le choix de Bayrou en 2012 de soutenir le candidat Hollande n’ait pas eu un impact si important que ça sur son électorat ;
  • Le vote Mélenchon n’est pas si éloigné que ça du vote Hollande, en tout cas en termes de choix au second tour.

On peut aussi considérer ces données en nombre absolu de votes :

Report de voix (en nombre de votes) élection présidentielle 2012
Report de voix (en nombre de votes) élection présidentielle 2012

Sur ce graphique, on voit mieux que Hollande possédait plus de réserves de voix en 2012 que Sarkozy.

N’hésitez pas à nous donner vos autres interprétations sur Twitter !

[08] Nombre de naissances et astrologie

Un peu plus tôt dans la semaine est paru un excellent article indiquant que le pic de naissance de chaque pays dépend de sa position géographique. Aujourd’hui, on va se concentrer sur la France et visualiser la fréquence des naissances réparties par signe astrologique :

Nombre de naissances en France par signe astrologique (entre 1968 et 2005). Symboles par Par Astro_signs.svg: Tavmjongderivative work: Trex (talk) — Astro_signs.svg, CC BY 3.0, Lien
Nombre de naissances en France par signe astrologique (entre 1968 et 2005).
Symboles par Tavmjong

La différence se voit encore mieux si on se concentre sur l’écart à la moyenne :

astro_bar_ecart

Voilà c’est tout pour aujourd’hui ! S’il y a des passionnés d’astrologie qui veulent m’expliquer ce qu’implique ce déficit de Capricorne et cet excédent de Cancer, je prends 😉

Données : naissances en France par jour entre 1968 et 2005.

[07] Nombre d’occupants par pièce en France

Les données INSEE issues du recensement de la population, qui a lieu tous les ans (enfin, on ne peut pas être recensé tous les ans, car il s’agit d’un cycle sur cinq ans) permettent de récupérer beaucoup d’informations “basiques” sur les populations et les logements. Nous allons nous intéresser ici à une question : combien de personnes vivent en moyenne dans une pièce d’un logement ? C’est à dire que l’on calcule pour chaque commune française le nombre total de pièces dans tous les logements, et on divise la population de la commune par ce nombre. Les résultats obtenus sont les suivants :

Minimum 0.256 personnes par pièce Laviron
Maximum 1.544 personnes par pièce Domfront

Si on se retreint à la petite couronne, on trouve des nombres d’occupants par pièce qui varient globalement entre 0.5 et 1. La carte ci-dessous donne les résultats pour chaque commune :

On ne se lancera pas dans de grandes analyses sociologiques, mais on peut imaginer que cette variable soit liée dans un certain sens avec la pauvreté, et avec le taux de logement collectif. Si vous souhaitez aller plus loin, les données complètes sont disponibles ici !

[06] Comment les gens se tuent au Canada ?

Aujourd’hui, c’est homicide ! Je suis tombé sur une datavisualisation de StatCanada sur les homicides au Canada. Si ça vous intéresse, cliquez sur l’image ci-dessous :

En France, ces données sont centralisées par l’Observatoire national de la délinquance et des réponses pénales (ONDRP), qui publie ses données sur data.gouv. Leur dernier rapport est disponible ici.

[05] Nombre d’égalités dans les bureaux de votes

Le mois dernier, nous avions étudié la probabilité que deux candidats à une élection obtiennent le même nombre de voix étant donné leurs intentions de votes (article ici, en anglais). Peut-on appliquer la formule pour deviner le nombre de bureaux avec des égalités parfaites pour l’élection présidentielle de 2012 ?

On peut faire des hypothèses simples pour se ramener à la formule de l’article précédent : supposer que tous les bureaux ont la taille moyenne (512 électeurs par bureau), et que les intentions de vote dans chaque bureau sont les intentions de vote au niveau national c’est à dire environ 52% Hollande et 48% Sarkozy. En pratique, cette dernière hypothèse est très fausse, il suffit de regarder la carte des résultats par département pour s’en convaincre :

gif_votes

Avec ces hypothèses, on devrait obtenir environ 2% des bureaux avec des égalités parfaites. Attention, ce n’est qu’un ordre de grandeur (à la hausse a priori), nos hypothèses sont très simplificatrices !

Les données par bureau pour l’élection présidentielle de 2012 sont disponibles sur data.gouv. Il y a 392 bureaux avec le même nombre de voix pour Sarkozy et Hollande, soit environ 0.6% du total. Notre ordre de grandeur n’est pas si mal 😉