[11] Nombre de naissances et astrologie chinoise

Dans l’article de jeudi, on s’est limité à regarder ce qui se passait pour notre zodiaque “occidental”. Mais il existe un autre jeu de signes astrologiques qui est utilisé à travers le monde : il s’agit du zodiaque chinois. Ici, ce qui détermine le signe n’est pas le mois de naissance mais l’année (selon le calendrier de type lunaire, qui est également ce qui conduit la date de Pâques à varier selon les années). On va ici faire l’approximation année calendaire = année chinoise, ce qui revient à mal spécifier les signes astrologiques des naissances en janvier. Cela permet en revanche d’utiliser directement une information de type pyramide des âges.

En effet, à partir du jeu de données des répartitions par âge, on peut en déduire le nombre de personnes possédant chacun des signes astrologiques. À partir de là, on peut calculer l’écart au nombre moyen dans la population française fin 2015 :

Il manque donc des Singes, des Coqs et des Chiens. Que dire alors des Singes capricornes ?

[10] Big data et statistique publique

Le 30 novembre dernier a eu lieu le dernier séminaire de méthodologie statistique (SMS) de l’INSEE. Il portait sur le Big Data et la statistique publique, en mettant l’accès sur les méthodes utilisées : logiciels spécifiques, machine learning, étude des réseaux, étude textuelle… Les résumés des présentations sont disponibles ici.

Cela a été l’occasion de diffuser le blog statoscope (très bon jeu de mot). Il possède plusieurs articles expliquant certaines techniques utilisées dans le cadre du traitement de données massives, et du machine learning en général.

Le graphe en haut de cet article est issu de l’article suivant, qui traite de la visualisation avec Gephi de données de transport de marchandises par la route. Bonne lecture !

[09] Reports de voix à la présidentielle 2012

La question du report des voix entre les deux tours des élections est souvent primordiale pour les politologues et les journalistes politiques, afin de mieux comprendre les rapports de force entre les candidats. En effet, les candidats non qualifiés donnent ou non des consignes de vote, ou ont des proximités politiques plus ou moins claires avec un des candidats qualifiés pour le second tour. Nous allons essayer d’aborder cette question en regardant les deux tours de l’élection présidentielle française de 2012.

Beaucoup des analyses de “report de voix” utilisent des données des enquêtes réalisées à la sortie des urnes (donc construites par sondage, voir par exemple cet article de Slate). Ces enquêtes peuvent présenter certains inconvénients, et nous allons choisir ici une approche un peu différente, en analysant le vote pour chacune des villes et en établissant un modèle d’apprentissage très simple. Les données relatives au vote pour chacune des villes sont disponibles sur data.gouv, le site d’Open Data du gouvernement.

Le principe du modèle est d’essayer de prédire, ou d’expliquer, le vote au deuxième tour à partir des pourcentages de votes exprimés au premier tour. Ici, nous allons tout simplement faire tourner un modèle linéaire sur ces variables ville par ville afin de voir quelles tendances de report émergent. On utilise pour cela la fonction lm, classique en R. Les résultats sont les suivants :

Hollande Sarkozy
Joly 72 % 22 %
Le Pen 18 % 6 %
Sarkozy < 1 % 115 %
Melenchon 94 % < 1 %
Poutou 78 % 3 %
Artaud 74 % 4 %
Cheminade 32 % 53 %
Bayrou 28 % 59 %
Dupont-Aignan 20 % 62 %
Hollande 114 % < 1 %

Les résultats sont plus lisibles si on s’aide d’un petit graphique :

Report des voix (relatif) pour l'élection présidentielle 2012
Report des voix (relatif) pour l’élection présidentielle 2012

Gardons à l’esprit qu’il s’agit seulement d’un modèle (fruste, qui plus est), donc cela ne veut pas dire que 4% des électeurs d’Artaud ont voté pour Sarkozy au deuxième tour (qui sait ?). L’analyse reste intéressante. Quelques premières remarques qui me viennent à la lecture :

  • La somme des pourcentages donne une idée des électeurs qui n’ont pas souhaité participer au second tour. C’est particulièrement marqué pour les électeurs de Le Pen ;
  • Il semblerait que le choix de Bayrou en 2012 de soutenir le candidat Hollande n’ait pas eu un impact si important que ça sur son électorat ;
  • Le vote Mélenchon n’est pas si éloigné que ça du vote Hollande, en tout cas en termes de choix au second tour.

On peut aussi considérer ces données en nombre absolu de votes :

Report de voix (en nombre de votes) élection présidentielle 2012
Report de voix (en nombre de votes) élection présidentielle 2012

Sur ce graphique, on voit mieux que Hollande possédait plus de réserves de voix en 2012 que Sarkozy.

N’hésitez pas à nous donner vos autres interprétations sur Twitter !

[07] Nombre d’occupants par pièce en France

Les données INSEE issues du recensement de la population, qui a lieu tous les ans (enfin, on ne peut pas être recensé tous les ans, car il s’agit d’un cycle sur cinq ans) permettent de récupérer beaucoup d’informations “basiques” sur les populations et les logements. Nous allons nous intéresser ici à une question : combien de personnes vivent en moyenne dans une pièce d’un logement ? C’est à dire que l’on calcule pour chaque commune française le nombre total de pièces dans tous les logements, et on divise la population de la commune par ce nombre. Les résultats obtenus sont les suivants :

Minimum 0.256 personnes par pièce Laviron
Maximum 1.544 personnes par pièce Domfront

Si on se retreint à la petite couronne, on trouve des nombres d’occupants par pièce qui varient globalement entre 0.5 et 1. La carte ci-dessous donne les résultats pour chaque commune :

On ne se lancera pas dans de grandes analyses sociologiques, mais on peut imaginer que cette variable soit liée dans un certain sens avec la pauvreté, et avec le taux de logement collectif. Si vous souhaitez aller plus loin, les données complètes sont disponibles ici !

[06] Comment les gens se tuent au Canada ?

Aujourd’hui, c’est homicide ! Je suis tombé sur une datavisualisation de StatCanada sur les homicides au Canada. Si ça vous intéresse, cliquez sur l’image ci-dessous :

En France, ces données sont centralisées par l’Observatoire national de la délinquance et des réponses pénales (ONDRP), qui publie ses données sur data.gouv. Leur dernier rapport est disponible ici.

[02] Et si l’Europe votait comme les États-Unis ?

Nous avons décidé de réaliser notre propre calendrier de l’avent ! Aujourd’hui, nous reparlons de l’élection américaine.

Aux détours des Internets, je suis tombé sur un article de blog qui suivait un peu la même idée que celle que nous avions développé dans notre dernier article long : comment adapter le système de vote américain, avec ses états et ses grands électeurs, à un autre pays ou à une autre zone géographique ? Son idée est d’utiliser les votes des élections européennes et chacun des pays de l’union européenne comme état. L’article est très intéressant, et vous le trouverez à cette adresse (en anglais) !

[01] Sondage sur 3 personnes

Nous avons décidé de réaliser notre propre calendrier de l’avent ! Tous les jours, vous trouverez un petit article ou une reprise d’un jeu de données, d’une publication ou d’un post d’un autre blog que nous avons trouvé particulièrement intéressant. Aujourd’hui, nous allons parler de sondages, et en particulier de sondages pour instituts en manque de moyens.

Supposons que l’on réalise un vote auprès d’un grand nombre d’électeurs, disons un million. Notre institut de sondages, l’IPFRES, souhaiterait savoir lequel des deux candidats, M.J ou M.F va sortir vainqueur du vote. Or, nous n’avons plus beaucoup d’argent. Nous ne pouvons donc interroger que très peu de personnes. Une première idée serait alors : si l’on interroge une seule personne complètement au hasard et qu’on lui demande pour qui elle va voter, est-ce que ça peut suffire pour deviner qui va être vainqueur ? Eh bien, oui. Mais cela dépend fortement d’avec combien d’écart cette victoire se fait ! Si M.F gagne avec 52% contre 48%, on a 52% de chances de tomber sur un de ses électeurs, et donc 52% d’avoir prédit le bon vainqueur – on en déduit qu’on a 48% de chances de s’être trompé… En revanche si la victoire est à 90% contre 10%, nous n’avions que 10% de chances de nous tromper.

Enfin, nous ne sommes pas si pauvres que ça, et nous prenons la difficile décision d’augmenter drastiquement nos charges et d’interroger non pas une mais trois personnes ! Pourquoi trois et pas deux ? Pour être sûr qu’il y ait un vainqueur dans notre échantillon, il vaut mieux que le nombre de personnes interrogées soit impair. Est-ce que cela augmente nos chances de bien prédire le vainqueur ? Le tableau ci-dessous résume nos chances d’avoir bien prédit avec notre échantillon selon le score réalisé :

Vote final On a bien prédit
55 % 58 %
65 % 72 %
75 % 84 %
85 % 94 %

On voit bien que plus le score est serré, moins on gagne à interroger trois personnes… espérons qu’il ne le soit pas pour notre réputation de sondeurs !

Et si la France votait comme les États-Unis ?

En France comme dans la plupart des pays du monde, nous avons suivi avec attention l’élection du 45ème président des États-Unis, Donald Trump (si vous n’étiez pas au courant, il est temps de sortir de votre grotte !). Cela a été l’occasion de mieux connaître le système électoral américain, et de réviser sa géographie des états américains : quels états sont démocrates ? Où se situe vraiment le Wisconsin ? Comment fonctionne le système de grands électeurs ?

Il faut dire que pour nous, français, le système est très éloigné de notre élection présidentielle. Certes, les primaires des différents partis sont un phénomène qui tend à se développer en France, mais nous restons attachés à l’élection directe du président, marqueur politique important de la Ve République. Cependant, cela n’empêche pas de réfléchir à d’autres systèmes de vote (l’article wikipedia est d’excellente qualité, et je ne développerai pas le sujet ici, mais peut-être dans un prochain article !). Par exemple, serait-il possible de transposer le système américain des grands électeurs par état à la France ?

Un bref rappel du système américain

Si vous êtes experts en politique américaine, ou si avez suivi le Monde ces derniers mois, vous pouvez sauter cette partie ! Sinon, profitons en pour faire un bref rappel de ce qu’il faut savoir sur le système politique américain pour l’adapter à la France. Les États-Unis, comme leur nom l’indique, sont découpés en 50 états qui ont chacun un gouvernement, des lois et des réglementations propres. Un système politique et administratif fédéral complète ce dispositif, pour les sujets tels que les relations internationales sur lesquels le pays ne doit porter qu’une seule voie. Le président des États-Unis, actuellement Barack Obama, dispose du pouvoir exécutif au niveau fédéral. Il existe de nombreux contre-pouvoirs au POTUS, principalement au niveau des chambres de représentants, bien plus qu’en France.

Le président est élu au suffrage universel indirect. Chaque état vote pour élire ses représentant au collège des grands électeurs, qui votent ensuite pour élire le président. Les règles d’élection des grands électeurs au sein de chaque état peuvent varier, mais globalement, elles respectent la règle dite du “winner takes all” : le parti ou les candidats qui ont la majorité des votes de l’état remportent la totalité des sièges mis en jeu. Ce système est à l’opposé des systèmes dits proportionnels. En France, les législatives reprennent un peu ce système, sauf qu’un seul siège est mis en jeu dans chaque circonscription ; les débats autour de l’introduction d’une “dose de proportionnelle” sont fréquents à ce sujet.

Le nombre de sièges attribué à chaque état correspond globalement à sa population, hormis que les états les moins peuplés sont favorisés par rapport aux grands états. Par exemple, la Californie a 55 grands électeurs pour 38,8 millions d’habitants, tandis que le Wyoming en a 3 pour 500 000 habitants, soit cinq à six fois plus de sièges par habitant. Nous discutions déjà de ce point dans l’article précédent (en). Il y a en tout 538 grands électeurs à pourvoir ; les projections les plus fiables en donnent 306 à Donald Trump pour l’élection de 2016.

Adaptation au système français

Nous allons essayer d’adapter le système de collège électoral de grands électeurs à la France. Pour cela, nous allons nous intéresser aux seconds tours des élections présidentielles (pour coller au plus près du système bi-partisan des États-Unis), en excluant ceux atypiques (1969 et 2002), en se limitant à la France métropolitaine (dans une optique de simplification, les modalités de vote dans les DOM et pour les français à l’étranger évoluant beaucoup). Les données sont disponibles sur data.gouv pour la période 1965 – 2002.

On va réaliser le découpage au niveau départemental de la France, en considérant qu’un département correspond à un état américain (hormis pour la Corse, qu’on regroupe en un seul département pour des questions de comparabilité). Nous avons donc 95 “états” français, et chacun d’entre eux doit se voir attribuer un nombre de sièges dans notre collège de grands électeurs fictif. Pour cela, nous allons répliquer la méthodologie américaine, et répartir 538 sièges en favorisant les départements les moins peuplés. Nous obtenons alors 3 grands électeurs dans la Creuse et la Lozère, et jusqu’à 13 grands électeurs dans le Nord.

On calcule ensuite pour chaque élection quel parti sort vainqueur du vote au niveau de chacun des départements ; les grands électeurs associés lui sont alors attribués. Une fois ce processus effectué pour tous les départements, nous avons une idée de la composition du collège électoral, et ainsi du nom du président qui aurait été élu via ce dispositif. Voici les résultats obtenus :

1965 1974 1981 1988 1995 2007 2012
Droite 373 298 156 113 389 384 203
Gauche 123 240 382 425 149 154 335

On remarque que ce système fictif conduit tout de même à l’élection du même président pour les sept échéances électorales considérées que ce qui s’est réellement passé. Les écarts de composition du collège électoral sont plus intéressants : le plus grand est en 1988, avec 425 des 638 grands électeurs acquis à la gauche (et François Mitterrand avait largement gagné, avec 54,02 % des voix), et le plus faible est en 1974 (et effectivement l’écart était très faible). Le système semble donc fiable.

Les “swing” départements

Aux États-Unis, l’élection se joue souvent sur un petit nombre d’états, appelés swing states ou états pivots. En effet, une grande partie des états sont acquis dès le début par un parti, qui y réalise d’excellents scores, et il n’y a donc pas d’intérêt stratégique pour le candidat du parti adversaire à faire campagne là-bas (par exemple, la Californie est démocrate). Ce sont les états fortement en bleu ou en rouge dans le modèle de prédiction de FiveThirtyEight (en) (on ne reviendra pas sur le candidat qui avait le plus de chances de l’emporter, surtout que leur modèle de prédiction était largement meilleur que celui des autres médias américains).

On peut se poser la même question en France : si l’on adoptait le sytème américain, y aurait-il des fiefs acquis à la droite et à la gauche ? quels seraient les départements pivots ? La question est assez complexe, mais nous allons tenter de donner quelques éléments de réponse. Tout d’abord, le gif suivant montre l’évolution des votes par département depuis 1974 :

C’est assez difficile à lire, mais on peut en tirer plusieurs enseignements :

  • Il semblerait que le vote soit moins hétérogène entre les départements français qu’aux États-Unis, car l’évolution est plus globale quand la majorité est renversée.
  • On remarque néanmoins que certains fiefs électoraux se dessinent avec par exemple le sud-ouest de la France pour la gauche, et un arc ouest/sud-est de la Bretagne à Nice en passant par Paris pour la droite.

Pour étudier plus précisément ce second point, nous allons regarder quelques autres indicateurs. Tout d’abord, les deux cartes suivantes indiquent les départements avec lesquels chaque parti a toujours gagné, c’est à dire que, pour la droite, ils ont remporté ces départements en 65, 74, 95 et 2007, et pour la gauche en 81, 88 et 2012. On retrouve les fiefs évoqués précédemment.

On peut faire plus largement une typologie des départements en comptant combien de fois ils ont voté à droite ou à gauche lors de ces dernières élections. Les départements en bleu ont bien plus fréquemment voté majoritairement à droite qu’à gauche, ceux en rose pour la gauche, et ceux en gris n’ont pas un comportement partisan qui se dégage clairement des sept élections considérées.

Ce sont ces département en gris, les plus indécis, qui sont les plus proches conceptuellement des swing states américains ! En termes de grands électeurs :

  • 213 grands électeurs sont “acquis” à la droite ;
  • 182 sont “acquis” à la gauche ;
  • les 147 restants sont indécis.

Parmi les départements pivot les plus peuplés, on retrouve les Bouches-du-Rhône, qui seraient un peu notre Floride à nous. Qui sait, peut-être que les candidats français seraient tous obligés dans ce système de concourir avec un vice-président (ou premier ministre) qui aurait l’accent du sud ? Je ne sais pas si les campagnes électorales gagneraient en crédibilité.

Si vous voulez utiliser les données : http://nc233.com/wp-content/uploads/2016/11/FranceAmericanSystem.csv

[Games] Quels mots faut-il jouer à Motus ?

Après avoir tenté de percer les mystères des mots des Chiffres et des Lettres, nous allons nous attaquer à un autre jeu emblématique de France Télévisions : Motus ! Est-ce que l’analyse statistique du dictionnaire français va nous permettre de trouver des astuces pour mieux jouer à ce jeu et plus facilement trouver les mots cachés ?

Un bref rappel des règles

Le jeu de motus est basé sur un mélange entre les jeux de lettres (Scrabble, etc.) et le jeu de Mastermind, qui consiste à deviner une combinaison de couleurs en le moins de coup possibles : à chaque étape, le joueur tente une combinaison et le maître de jeu indique si des couleurs font partie de la combinaison choisie et si elles sont à la bonne position.

Pour motus, le principe est adapté de la façon suivante : un mot est à deviner. Il peut faire 7, 8, 9 ou 10 lettres (parfois 6 dans certaines variantes du jeu, par exemple pour les enfants). La première lettre du mot est toujours donnée : il faut deviner le mot le plus rapidement possible, et toujours en moins de 6 coups. Pour cela, lorsqu’un mot acceptable (c’est à dire dans le dictionnaire, commençant par la bonne lettre, et de la bonne longueur) est donné, des informations sur chacune des lettres sont donnés. Si la lettre est à la bonne place dans le mot à deviner, elle est encadrée de rouge. Si elle n’est pas à la bonne place, mais qu’elle est bien dans le mot à deviner, elle est encerclée de jaune. Par exemple, pour le mot suivant :

Obtenue

Il faut donc deviner un mot de 7 lettres commençant par O. Notre tentative, OBTENUES, nous permet d’apprendre que le mot commence par OB, et qu’il y a un E dans le mot à deviner. Mais nous apprenons aussi que le mot à deviner n’a pas de T, de N ou de U, et qu’il n’y a qu’un seul E. C’est déjà beaucoup d’informations ! En rajoutant un autre mot, on a un peu de chance :

Obliger

On a 6 des 7 lettres, et il reste donc deux mots possibles : OBLIGES et OBLIGÉE. Or, on a appris avec le premier mot qu’il n’y a qu’un seul E. Le mot à deviner est donc :

Obligés

Le meilleur mot

On voit bien que le choix du premier mot nous a permis de choisir le bon mot au troisième essai. La question que nous allons nous poser ici est la suivante : existe t-il des mots meilleurs que d’autres à utiliser en “ouverture”, c’est à dire au premier coup ? Pour y répondre, il va falloir bien définir ce que nous entendons par “meilleur”. L’approche que nous allons utiliser ici est celle de la minimisation du nombre de possibles une fois que le mot est joué. Concrètement, plaçons nous dans un exemple simple où les codes qu’on pourrait deviner sont les suivants :

1112
1113
1114
1234
1999

Si l’on joue 1999, hormis si l’on a un coup de chance et que c’était le code à deviner, on va avoir comme information que le premier “1” est bien placé, mais que les trois “9” ne sont pas présents dans le code à deviner : on n’a aucune information utile pour la suite du jeu. En revanche, si on joue 1234, les réponses possibles seront les suivantes :

Codes

On voit alors qu’avec un seul coup, on sait exactement quel est le code caché. Le choix de 1234 plutôt que 1999 semble ainsi meilleur. Dans le cas de Motus, on va regarder si certains mots à jouer en premier permettent de limiter les choix parmi lesquels le mot caché peut se retrouver. Concrètement, on s’attend à ce que AUTORISE, qui contient plusieurs voyelles différentes, un T, un R, et un S, sera plus informatif que AGARAGAR, qui est une répétition des mêmes voyelles et avec des G qui sont des consonnes rares.

Nous allons donc parcourir tous les mots possibles à jouer au premier coup. Pour chacun d’entre eux, on souhaite calculer un score qui correspond au nombres de mots moyens qui restent possibles après les informations obtenues après avoir joué son premier coup. Concrètement, ce score se calcule en regardant tous les mots cachés possibles, et on compte à chaque fois combien de mots sont encore possibles.

Mais nous n’allons pas nous limiter à un seul mot, car pour certaines des lettres, cela n’est pas suffisant ! Nous poursuivons ainsi en analysant pour les meilleurs “premiers coups”, quels sont les bons seconds choix, puis troisièmes, afin de garantir une facilité de découverte du mot final.

Résultats

7 lettres
ACTIONS AMPLEUR ABREGEE
BURSITE BALCONS BRIDGER
CARTONS CHIPEUR COMBLEE
DIRECTS DEVALUE DUMPING
ENCULES ETIRAGE EPOXYDE
FARINES FLUCTUE FIBROME
GRATINS GOLFEUR GAMBADE
HURLANT HOSPICE
INSURGE IMPACTS IDOINES
JESUITE JOURNAL
KASCHER KARTING
LUTINER LASCIVE
MARTINS MODULEE
NAUTILE NOCIVES
OBSTRUE ORDINAL
PASTOUR PELVIEN PROCEDE
QUALITE QUINTES
RANIMES RECOLTE REPERDU
SAURETS SINOPLE SMICARD
TAMISER TOLUENE TRICARD
URBAINS UNICITE
VALIDES VENGEUR
WILDCAT WALLABY
YAOURTS YAKUZAS
ZAIROIS ZAPPANT
8 lettres
ADROITES ANTICLUB AMPERAGE
BASCULER BEOTIENS BOURGADE
CARLISTE COMPOUND CHANVRES
DECLINER DOMPTAGE DEFAVEUR
ENTOURES EMPILAGE EXCEDENT
FAUTRICE FIGNOLES
GALIOTES GONFLEUR
HUMANITE HARCELES
INSULTES IMPAVIDE INCONGRU
JALOUSER JUNGIENS
KALMOUKS KACHOUBE
LUSTRAGE LINOLEUM
MANITOUS MORCELEE
NATURELS NEGOCIEE
OCULAIRE OBSEDANT
PRALINES POUCETTE PEGAMOID
QUANTITE QUELQUES
RALINGUE REPORTES RECESSIF
SARDOINE SCULPTES
TAULIERS TRONCHER
URANISTE UFOLOGIE
VAURIENS VITILIGO
WARNINGS WAGONBAR
XIPHOIDE
YACHTMAN YACHTING
ZAIROISE ZAIBATSU
9 lettres
ANTICORPS AMPLITUDE
BOUCLIERS BADMINTON
CONTIGUES CHAMELIER
DECANTEUR DIPLOMEES
ENTOURAGE ECLIPSEES
FORMALITE FECONDEES
GALOPINES GRATITUDE
HURLANTES HEDONISTE
INTERLUDE IPSOFACTO
JAPONISER JOUISSIFS
KAYAKISTE KAMIKAZES
LANGOUSTE LUCRATIVE
MAROCAINS MULTITUDE
NATURISME NORMALITE
OUTRANCES OLYMPIADE
PRODUITES PLACEMENT
QUANTIEME QUENOTTES
RALINGUES RECOMPTER
SURACTIVE SOULIGNES
TRACTIONS TELEGUIDE
ULTRASONS UKRAINIEN
VIRULENTS VAGABONDE
WAGNERIEN
XENOPHOBE
YACHTCLUB
ZIGOUILLE ZAIROISES
10 lettres
ANTIODEURS ACCEPTABLE
BRILLANCES BOUGREMENT
CONSTITUER CALVINISME
DESACTIVER DECOUPLAGE
ENCAGOULES EXPEDITEUR
FIGURANTES FALCIFORME
GRIMPANTES GRENOUILLE
HONORAIRES HEMATOCELE
INTERLOPES INDICATEUR
JANISSAIRE JACASSANTE
KANGOUROUS
LUXURIANTS LOCOMOBILE
MATRICULES MODERNISME
NOVATRICES NAPHTALENE
ORIENTEURS OMBILICALE
PREDICANTS PORTEPLUME
QUANTIEMES QUADRANGLE
RECAPITULE REVIGOREES
SARDONIQUE SIMPLISTES
TRAINGLOTS TUMESCENCE
ULTRACHICS UKRAINIENS
VARIATIONS VALDINGUER
WAGONSALON
XENOPHOBES XENOGENESE
YACHTWOMAN
ZENITHALES

[Sports] On peut rater une flèche aux JO

En cette période de Jeux Olympiques d’été, c’est l’occasion de regarder à la télévision sur des chaînes de grande écoute et à des heures décentes (modulo le décalage horaire !) des sports méconnus du grand public. Nous avons déjà parlé ici du biathlon (en ce qui concerne les JO d’Hiver, qu’on retrouvera en 2018), mais ce billet va parler d’un autre sport : le tir à l’arc. Le but du tir à l’arc est de placer ses flèches sur une cible, assez souvent très éloignée, dans des cercles concentriques qui valent de plus en plus de points au fur et à mesure qu’on se rapproche du centre, de 1 à 10 (voire 0 si l’on rate la cible, ce qui est assez rare aux JO !).

Les règles semblent simples, mais il y a une petite subtilité qui est apparue cette année. En effet, jusqu’à présent les archers tiraient quatre volées de trois flèches chacun, de façon alternée, et on sommait les points obtenus : celui qui avait le meilleur score était qualifié pour la manche suivante. En cas d’égalité, une flèche était tirée pour chaque archer, et le plus proche gagne le match.

Les nouvelles règles mettent en avant la notion de “set” : désormais, chaque volée de trois flèches est considérée de façon indépendante. L’archer qui a un meilleur score que son adversaire à la fin d’un set marque 2 points, et en cas d’égalité au set, les deux marquent 1 point, sachant que le match se joue en 6 points. On joue alors cinq sets, et si personne n’est arrivé à 6 à la fin de ces cinq sets, chacun tire une flèche et la plus proche gagne le match.

Selon les journalistes sportifs de France Télévisions, ces nouvelles règles permettent à un tireur de rattraper un mauvais tir (c’est à dire un tir en dessous du 8, à ce niveau de compétition) plus facilement que lorsque l’on somme la totalité des points, où une flèche ratée pénalise toute la partie. Nous allons à l’aide d’un exemple et de quelques simulations vérifier si cette affirmation est vraie.

Considérons deux archers, Arthur et Bastien. Les deux archers ont un niveau équivalent, mais ils n’ont pas le même profil : Arthur ne met jamais de flèches en dessous de 8, mais tire souvent dans le 8. Bastien, lui, peut rater un tir et toucher un 5 ou un 7, mais arrive plus souvent à toucher la partie jaune de la cible (9 ou 10). Plus précisément, leurs chances pour chaque tir sont les suivantes :

Flèche Arthur Bastien
1 à 4 0 % 0 %
5 0 % 2 %
6 0 % 0 %
7 0 % 1 %
8 50 % 40 %
9 40 % 47 %
10 10 % 10 %

Un rapide calcul permet de constater que pour les deux archers, chaque flèche rapporte en moyenne 8,6 points. Ils ont donc bien un niveau comparable. Nous allons maintenant simuler plusieurs dizaines de milliers de matchs en suivant les deux jeux de règles possibles afin de déterminer qui gagne, et si Bastien est bien favorisé par les nouvelles règles. Les résultats obtenus sont les suivants :

Règles Arthur gagne… Bastien gagne…
Somme totale 48,2 % des matchs 51,8 % des matchs
Jeu par sets 44,2 % des matchs 55,9 % des matchs

Cela se confirme donc bien : les nouvelles règles favorisent Bastien, qui rate de temps en temps son tir, et permettent donc plus facilement de revenir dans le match après une flèche ratée. Cela permet également un suspens plus important, car rien n’est jamais joué d’avance !