Prénoms au concours d’internat de médecine

Aujourd’hui, un petit article dans la lignée de la sociologie des prénoms, qu’on retrouve fréquemment associée avec les résultats du bac (voir ici par exemple pour un article de Rue89, ou ici pour le site originel). Nous allons nous intéresser aux résultats des ECN, les épreuves classantes nationales des études de médecine qui permettent de choisir les spécialités d’internat. Ils sont disponible sur Legifrance, à ce lien pour ceux de l’année 2016.

Nous allons réaliser un nuage de points sur ces prénoms : en ordonnée, on retrouve la fréquence des noms parmi la liste des 8000 et quelques admis(es), et abscisse, le rang moyen obtenu par les porteurs de ce prénom. On se limite aux prénoms les plus fréquents (plus de 10 inscrits). Voici les résultats obtenus (cliquer pour une version zoomée) :

On peut comparer cette image avec celle des résultats du bac 2015 :

On retrouve certes les mêmes noms parmi les plus fréquents (Marie, Camille, Thomas…) mais la structure dans les prénoms ne semble pas être la même ! Cela peut s’expliquer par un échantillon bien plus faible, et par des effets de sélection à d’autres niveaux dans les études de médecine.

EDIT 07/03 : Pour répondre au commentaire de Baptiste Coulmont, voici le graphe avec les rangs passés au logarithme. On voit effectivement que ce n’est pas exactement les mêmes résultats ; en particulier, il y a plus de noms de garçons qui ressortent dans les bonnes places.

[Dataviz] Odonymie et couleur politique

Les noms de rue peuvent être parfois un sujet politique sensible, comme l’a montré une actualité récente. L’odonymie (ou étude des noms des voies de communication) a déjà donné lieu à quelques dataviz sympathiques, comme par exemple sur le blog datamix, le site PatronyMap ou sur Slate. Disposant d’une base de données de noms de rues en France Métropolitaine, nous avons cherché à notre tour à illustrer le lien entre odonymes et politique par une petite dataviz.

Accéder à la dataviz
Cliquez pour accéder à la dataviz

On dispose de la liste des noms de rues pour 1470 grandes villes, que l’on classe en deux catégories “Droite” et “Gauche” suivant la couleur politique de leur mairie en 2012 (738 communes à gauche et 732 à droite). On entraîne ensuite un modèle de classification naïve bayésienne sur le TF-IDF constitué par cette liste d’odonymes, que l’on optimise classiquement par validation croisée sur sa qualité prédictive. Etant donnée une liste de noms de voies, le classificateur choisi permet d’identifier correctement la couleur politique de la ville dans environ 70% des cas. Ce chiffre plus élevé que ce à quoi nous nous attendions montre que l’influence de la politique sur les noms de rues (ou tout du moins la corrélation entre les deux) est réelle. Enfin, prédire correctement la couleur politique d’une ville à partir d’un ou ou plusieurs noms de rues n’est que peu intéressant en soi : le modèle entraîné vaut surtout pour son pouvoir explicatif (modèle de régression). C’est pourquoi on utilise les probabilités calculées par le classificateur pour construire une “typicité d’un nom de ville de droite/gauche”, qui est indiquée par la jauge dans notre dataviz.

En faisant tourner le modèle sur notre base de données, les valeurs des probabilités (typicités) obtenues vont de 0.25 à 0.75 (en prenant la convention “0 = gauche” et “1 = droite”), avec plus de 99% des valeurs entre 0.3 et 0.7. Notre jauge est recalibrée en conséquence avec un minimum à 0.3 et un maximum à 0.7, de manière à pouvoir observer correctement les valeurs.

En faisant quelques tests, on s’aperçoit d’une typicité bien plus marquée à gauche qu’à droite (le recall de notre modèle est d’ailleurs supérieur à 90% pour les villes de gauche). A première vue, les odonymes les plus typiques de la droite semblent très “traditionnels” (par exemple Rue de l’industrie ou Rue des Fleurs) alors que les odonymes les plus typiques de la gauche mettent plutôt en avant des personnalités (rue Jean Jaurès, rue Salvador Allende, etc.). Partant de ce constat, on aurait très envie de pouvoir tester si le fait de renommer une rue est plus le fait de la gauche que de la droite, mais on ne dispose pas de données sur les renommages qui permettraient de le faire. Peut-être une prochaine fois ?

Certaines disparités régionales transparaissent également (testez par exemple rue des Alpes vs. rue des Pyrénées ou rue Eric Tabarly vs. rue des Cigognes), et curieusement le type de voie est parfois très influent (“quai” penche à gauche alors que “traverse” penche à droite). Les noms issus du communisme quant à eux penchent certes à gauche, mais peut-être pas autant que l’on aurait pu imaginer (avenue de l’Union Soviétique, avenue Karl Marx). Il faut se souvenir que notre modèle prend en compte la couleur politique de 2016, et que l’orientation politique de certaines villes ont pu changer depuis le moment où ces rues ont été baptisées. Enfin, gardez à l’esprit que cette dataviz n’est que l’illustration d’un modèle et qu’a fortiori rien de ce qui peut être indiqué n’a de valeur sociologique ou politique. N’hésitez pas à mener vos propres tests, et à nous envoyer/tweeter vos trouvailles les plus intéressantes !