Prénoms au concours d’internat de médecine

Aujourd’hui, un petit article dans la lignée de la sociologie des prénoms, qu’on retrouve fréquemment associée avec les résultats du bac (voir ici par exemple pour un article de Rue89, ou ici pour le site originel). Nous allons nous intéresser aux résultats des ECN, les épreuves classantes nationales des études de médecine qui permettent de choisir les spécialités d’internat. Ils sont disponible sur Legifrance, à ce lien pour ceux de l’année 2016.

Nous allons réaliser un nuage de points sur ces prénoms : en ordonnée, on retrouve la fréquence des noms parmi la liste des 8000 et quelques admis(es), et abscisse, le rang moyen obtenu par les porteurs de ce prénom. On se limite aux prénoms les plus fréquents (plus de 10 inscrits). Voici les résultats obtenus (cliquer pour une version zoomée) :

On peut comparer cette image avec celle des résultats du bac 2015 :

On retrouve certes les mêmes noms parmi les plus fréquents (Marie, Camille, Thomas…) mais la structure dans les prénoms ne semble pas être la même ! Cela peut s’expliquer par un échantillon bien plus faible, et par des effets de sélection à d’autres niveaux dans les études de médecine.

EDIT 07/03 : Pour répondre au commentaire de Baptiste Coulmont, voici le graphe avec les rangs passés au logarithme. On voit effectivement que ce n’est pas exactement les mêmes résultats ; en particulier, il y a plus de noms de garçons qui ressortent dans les bonnes places.

[22] L’affaire “Fun Radio”

Les sondages peuvent parfois faire l’actualité sans parler de politique ! Prenons l’exemple de l’affaire qui oppose Fun Radio et l’institut Médiamétrie, qui est chargé de la mesure d’audience sur les chaînes de télé, de radio, et même des sites internet. Un animateur de la matinale de la radio avait demandé à ses auditeurs, dans le cas où ils seraient contactés par Médiamétrie, de déclarer qu’ils n’écoutaient que Fun Radio (et aucune radio), et qu’ils étaient à l’écoute de la station durant toute la journée. Cela a conduit Médiamétrie à retirer momentanément Fun Radio du panel de mesure. Cette décision a eu des conséquences importantes sur les finances de la radio : en effet, la répartition des revenus publicitaires est directement indexée sur ces calculs d’audience. Ainsi, la radio s’est pourvu en justice pour être réintégrée, ce qui sera a priori le cas.

Je ne commenterai pas la décision de justice, n’y connaissant rien, mais j’ai plutôt envie de commenter d’un point de vue de sondeur cette affaire. En effet, si l’on résume, les messages ont eu (potentiellement) trois effets :

  1. Encourager les auditeurs de la matinale à répondre aux enquêteurs de Médiamétrie lorsque ceux-ci les contactent ;
  2. Sur-déclarer un temps d’écoute pour la radio Fun Radio ;
  3. Sous-déclarer un temps d’écoute pour d’autres radios.

À mon sens, ces trois problèmes demandent des solutions différentes ! Je vais laisser le premier de coté, qui me semble le plus intéressant d’un point de vue sondages, pour parler brièvement des deux autres.

Tout d’abord le deuxième : on peut imaginer qu’en utilisant des sources extérieures comme le panel Radio global sur le temps d’écoute moyen de la radio en France, ou des enquêtes type Emploi du Temps de l’INSEE, on puisse repérer des outliers (c’est à dire des personnes qui déclarent des valeurs qui sortent très largement de la moyenne) et les traiter, ou les exclure. En gros, écouter la radio 24h par jour, c’est suspect.

Le troisième point est le plus ardu à corriger, mais on peut faire l’hypothèse (soyons optimistes) que quelqu’un qui est prêt à mentir si un animateur radio le lui demande est un auditeur exclusif de la radio en question, ce qui neutralise l’effet.

Reste donc le premier point. Tout praticien des sondages sait que les individus sélectionnés dans un échantillon ne sont pas tous volontaires pour répondre aux questionnaires, loin de là. Cela crée un biais, qui est étudié et traité en statistiques par des méthodes de “correction de la non-réponse”. On pourrait donc imaginer que ces méthodes servant à prendre en compte la non-réponse pourraient suffire à annuler le biais en question, mais le problème est plus compliqué que cela. Je vais tenter d’expliquer à l’aide d’un exemple : supposons qu’il existe uniquement deux radios, une pour les “jeunes”, et une pour les autres. Dans ce cas, Médiamétrie cherche à savoir combien de personnes écoutent chaque radio. Si 10% des jeunes répondent avant l’effet de l’annonce, Médiamétrie a l’habitude de multiplier par 10 (pour simplifier) le nombre d’auditeurs de Fun Radio : si le nombre de répondants augmente, il suffit de changer un peu le coefficient multiplicatif, mais cela n’aura pas d’effet sur l’écoute de l’autre radio, et les chiffres devraient être globalement les mêmes.

Pourquoi je dis que c’est plus compliqué ? Parce que les méthodes de la correction de la non-réponse reposent sur de l’information auxiliaire, par exemple les informations démographiques. On peut facilement séparer (par exemple via les variables d’âge) l’auditeur moyen de Fun Radio de celui de France Inter, mais ce sera plus compliqué avec NRJ ou une autre station destinée à un même public. Il est d’ailleurs intéressant de noter que c’est NRJ qui a initialement porté réclamation auprès de Médiamétrie. Et donc, la mesure “absolue” de l’audience de Fun Radio (en excluant les points 2 et 3) n’est pas trop mauvaise. Celle de Nostalgie n’est pas impactée non plus, mais celle de NRJ peut l’être énormément. En effet, plus de jeunes répondent, mais les répondants écoutent moins NRJ (car ils sont plutôt auditeurs de Fun Radio), donc l’estimation finale est à la baisse pour cette radio, alors que le comportement de leurs auditeurs n’a pas changé.

Voilà, vous en savez plus sur ceux qui travaillent en secret pour Médiamétrie !

[21] Lettres internationales

Reprenons la même logique que dans l’article du 16 décembre : quelle lettre a le plus d’habitants dans le Monde ? Ce coup-ci, on va se limiter au nom des pays (encore que ce serait intéressant de reproduire l’idée sur les villes, mais les données seraient difficiles à trouver : peut-être une prochaine fois !). Pour cela, on utilise les données disponibles ici, on normalise les noms des pays en retirant tout ce qui est entre parenthèses et précédé d’une virgule (décision totalement subjective, mais ce n’est pas une science exacte). Les noms des pays sont ici en Anglais : c’est la norme internationale après tout.

Les résultats sont les suivants :

Les lettres des deux pays les plus peuplés ont été colorées en bleu pour la Chine, en jaune pour l’Inde, et en vert pour les trois lettres que les pays ont en commun (encore une fois, en anglais). On remarque que ces trois lettres, I, N et A, sont les trois plus fréquentes : est-ce que c’est dû à leur appartenance à ces deux pays, ou est-ce que c’est le fait qu’elles soient fréquentes qui fait qu’elles se retrouvent dans les deux noms ?

Pour rappel, les résultats obtenus sur les villes de France sont les suivants :

On voit bien que la répartition n’est pas la même : E, R, S par exemple sont bien moins fréquentes au niveau mondial qu’au niveau français.

[17] Avenue, Rue ou Boulevard Jean Jaurès ?

Petit retour dans le monde de l’odonymie, après l’article de mercredi dernier, et celui plus ancien où nous vous proposions de regarder de quelle couleur politique était votre rue !

Nous allons nous intéresser aux types de voie qui sont associés aux différentes personnalités. Pour cela, nous avons sélectionné les 20 personnalités qui ressortent le plus dans les noms de voirie en France, et nous avons compté pour chaque type de voie (rue, avenue, allée, etc.) avec quelle fréquence ce nom était présent. Les résultats sont résumés par le tableau suivant, coloré à l’aide d’Excel :

On remarque plusieurs résultats intéressants :

  • Ce sont les avenues qui sont les plus fréquentes, en tout cas celles relatives à ces personnalités. Cela peut s’expliquer facilement : ce sont souvent de grandes artères et il est classique de les nommer en honneur de personnalités très célèbres.
  • Les rues et places sont très souvent associées à des personnalités militaires ou politiques, surtout le Général de Gaulle et dans une moindre mesure Clemenceau et le Général Leclerc.
  • À l’inverse, les impasses et les allées sont plus souvent associés à des personnalités du monde littéraire ou artistique, comme Émile Zola, Georges Brassens ou Jean de la Fontaine.

[16] Lettres de France

On va répondre aujourd’hui à une question que personne ne s’est jamais posé : quelle lettre a le plus d’habitants en France ? C’est à dire que par exemple pour la lettre A, on regarde toutes les communes françaises qui possèdent un A, et l’on cherche à savoir quelle partie de la population cela représente. Pour cela, on va utiliser deux choses qui ont l’air simples mais qui ne le sont pas :

  • Les données des populations légales, qui sont un des produits les plus importants de l’INSEE, mais qui sont très dures à trouver sur leur site : elles sont ici. Ouf.
  • Les expressions régulières, qui vont permettre ici de retrouver tous les noms de communes dans lesquels il y a une lettre. Ici, on va utiliser la fonction grepl de R pour faire cela. Si ça vous intéresse, un petit jeu ici.

Les résultats sont les suivants :

On a coloré en bleu les lettres de la capitale, Paris. Malgré ses deux millions et demi d’habitants, cela ne suffit pas à faire de toutes ses lettres les plus peuplées de France : rien ne dépasse le “E”.

[15] Fuseaux horaires européens

La construction de l’Union Européenne est un projet datant de la fin de la Seconde Guerre Mondiale. Cependant, on ne se pose pas toujours les bonnes questions à son sujet : comment faire pour mettre tout le monde dans une même pièce pour discuter si nous n’avons pas tous la même heure ? Concrètement, et en négligeant les parties hors Europe des pays de l’Union, il y a trois fuseaux horaires différents en Europe :

  • L’heure d’Europe de l’Ouest (WET), par exemple au Royaume-Uni (qu’on compte toujours avec nous, tant que le Brexit n’est pas acté).
  • L’heure d’Europe Centrale (CET), par exemple en France.
  • L’heure d’Europe de l’Est (EET), par exemple en Grèce.

Nous n’avons donc pas tous la même heure. Mais quelle est la probabilité, si l’on choisit deux européens au hasard, que leurs montres indiquent la même heure (en admettant qu’elles soient suisses et donc parfaitement réglées) ? Pour cela, nous avons besoin de données sur la population des différents pays européens, disponibles sur le site de l’INED. On calcule ensuite le tableau suivant, qui résume la probabilité des “couples” de fuseaux horaires obtenus par notre tirage au hasard :

WET CET EET
WET 2,5 % 11,7 % 1,6 %
CET 11,7 % 55,4 % 7,3 %
EET 1,6 % 7,3 % 1 %

Pour répondre à notre question initiale, il suffit de sommer les cases en gras du tableau : nous avons donc 58,8 % de chances que les deux personnes aient bien la même heure à leur montre. Ou sur leur téléphone portable, plus probablement.

Si l’on compare aux États-Unis, pour lesquels les données sont disponibles ici, on trouve que deux américains ont la même heure dans seulement 34,7% des cas. Cela ne devrait pas être si compliqué que ça de se mettre d’accord ?

[14] Noms de rues et personnalités

Nous avions étudié il y a quelques temps les relations entre les différents noms de rue et la couleur politique de la ville dans un article. L’application que nous avions mise en place pour tester la couleur politique de la rue où vous habitez ou travaillez est toujours accessible ici. Pour ce petit article, nous allons nous limiter aux personnalités publiques : lesquelles sont les plus fréquentes dans les villes ? Cette question est assez classique (voir ici par exemple, sur Slate), mais nous allons coupler cette analyse avec la couleur politique de la ville pour voir si les mêmes personnalités ressortent. Nos résultats sont les suivants :

Extrême Gauche Gauche Droite
1 Victor Hugo De Gaulle De Gaulle
2 De Gaulle Pasteur Pasteur
3 Pasteur Victor Hugo Victor Hugo
4 Voltaire Jean Jaurès Jean Moulin
5 Jean Jaurès Jean Moulin Jean Mermoz

On ne retrouve bien pas les mêmes résultats selon la couleur politique ! Si De Gaulle, Pasteur et Victor Hugo sont globalement présents partout, Voltaire et Jean Jaurès sont très marqués à gauche. Cela se vérifie à l’aide de notre application :

Pour les villes de droite, les marqueurs de personnalités sont plus rares : la plupart des rues portent des noms plus traditionnels, comme la rue de l’Église, ou des Lilas.

[11] Nombre de naissances et astrologie chinoise

Dans l’article de jeudi, on s’est limité à regarder ce qui se passait pour notre zodiaque “occidental”. Mais il existe un autre jeu de signes astrologiques qui est utilisé à travers le monde : il s’agit du zodiaque chinois. Ici, ce qui détermine le signe n’est pas le mois de naissance mais l’année (selon le calendrier de type lunaire, qui est également ce qui conduit la date de Pâques à varier selon les années). On va ici faire l’approximation année calendaire = année chinoise, ce qui revient à mal spécifier les signes astrologiques des naissances en janvier. Cela permet en revanche d’utiliser directement une information de type pyramide des âges.

En effet, à partir du jeu de données des répartitions par âge, on peut en déduire le nombre de personnes possédant chacun des signes astrologiques. À partir de là, on peut calculer l’écart au nombre moyen dans la population française fin 2015 :

Il manque donc des Singes, des Coqs et des Chiens. Que dire alors des Singes capricornes ?

[10] Big data et statistique publique

Le 30 novembre dernier a eu lieu le dernier séminaire de méthodologie statistique (SMS) de l’INSEE. Il portait sur le Big Data et la statistique publique, en mettant l’accès sur les méthodes utilisées : logiciels spécifiques, machine learning, étude des réseaux, étude textuelle… Les résumés des présentations sont disponibles ici.

Cela a été l’occasion de diffuser le blog statoscope (très bon jeu de mot). Il possède plusieurs articles expliquant certaines techniques utilisées dans le cadre du traitement de données massives, et du machine learning en général.

Le graphe en haut de cet article est issu de l’article suivant, qui traite de la visualisation avec Gephi de données de transport de marchandises par la route. Bonne lecture !

[09] Reports de voix à la présidentielle 2012

La question du report des voix entre les deux tours des élections est souvent primordiale pour les politologues et les journalistes politiques, afin de mieux comprendre les rapports de force entre les candidats. En effet, les candidats non qualifiés donnent ou non des consignes de vote, ou ont des proximités politiques plus ou moins claires avec un des candidats qualifiés pour le second tour. Nous allons essayer d’aborder cette question en regardant les deux tours de l’élection présidentielle française de 2012.

Beaucoup des analyses de “report de voix” utilisent des données des enquêtes réalisées à la sortie des urnes (donc construites par sondage, voir par exemple cet article de Slate). Ces enquêtes peuvent présenter certains inconvénients, et nous allons choisir ici une approche un peu différente, en analysant le vote pour chacune des villes et en établissant un modèle d’apprentissage très simple. Les données relatives au vote pour chacune des villes sont disponibles sur data.gouv, le site d’Open Data du gouvernement.

Le principe du modèle est d’essayer de prédire, ou d’expliquer, le vote au deuxième tour à partir des pourcentages de votes exprimés au premier tour. Ici, nous allons tout simplement faire tourner un modèle linéaire sur ces variables ville par ville afin de voir quelles tendances de report émergent. On utilise pour cela la fonction lm, classique en R. Les résultats sont les suivants :

Hollande Sarkozy
Joly 72 % 22 %
Le Pen 18 % 6 %
Sarkozy < 1 % 115 %
Melenchon 94 % < 1 %
Poutou 78 % 3 %
Artaud 74 % 4 %
Cheminade 32 % 53 %
Bayrou 28 % 59 %
Dupont-Aignan 20 % 62 %
Hollande 114 % < 1 %

Les résultats sont plus lisibles si on s’aide d’un petit graphique :

Report des voix (relatif) pour l'élection présidentielle 2012
Report des voix (relatif) pour l’élection présidentielle 2012

Gardons à l’esprit qu’il s’agit seulement d’un modèle (fruste, qui plus est), donc cela ne veut pas dire que 4% des électeurs d’Artaud ont voté pour Sarkozy au deuxième tour (qui sait ?). L’analyse reste intéressante. Quelques premières remarques qui me viennent à la lecture :

  • La somme des pourcentages donne une idée des électeurs qui n’ont pas souhaité participer au second tour. C’est particulièrement marqué pour les électeurs de Le Pen ;
  • Il semblerait que le choix de Bayrou en 2012 de soutenir le candidat Hollande n’ait pas eu un impact si important que ça sur son électorat ;
  • Le vote Mélenchon n’est pas si éloigné que ça du vote Hollande, en tout cas en termes de choix au second tour.

On peut aussi considérer ces données en nombre absolu de votes :

Report de voix (en nombre de votes) élection présidentielle 2012
Report de voix (en nombre de votes) élection présidentielle 2012

Sur ce graphique, on voit mieux que Hollande possédait plus de réserves de voix en 2012 que Sarkozy.

N’hésitez pas à nous donner vos autres interprétations sur Twitter !