Visualisation de la popularité des codes PIN*

Cet article fait suite à une analyse de DataGenetics.

Les mots de passe que nous utilisons révèlent beaucoup de choses sur nous. Il existe plusieurs catégories de mots de passe, qui dépendent du contexte d'utilisation. Ici nous nous intéressons aux codes PIN, un ensemble de mots de passe à longueur fixe qui sont constitués de chiffres. Ces codes sont très répandus (digicodes, téléphones portables), leurs atouts majeurs étant la rapidité de l'interaction, la simplicité de mémorisation et l'impersonnalité. Ils ne sont à proprement parler que peu sécurisés car le nombre de combinaisons est petit (10 000 pour les codes à quatre chiffres), toutefois ils peuvent s'avérer être suffisants dans certains cas (notamment lorsque les tentatives sont limitées). Un code PIN doit normalement être choisi de manière aléatoire afin de garantir le meilleur niveau de sécurité ; mais ce n'est pas toujours le cas, ce qui nous amène au sujet de cet article.

Suite à la lecture de cet article j'ai souhaité en apprendre davantage sur les tendances pour certains types de codes. J'ai alors reproduit l'expérience sous la forme d'une visualisation interactive. Les boutons ci-dessous servent à mettre en évidence les différents motifs que j'ai identifiés.

Sur ce partitionnement, les milliers et les centaines varient sur l'axes des abscisses, tandis que les unités et les dizaines varient sur l'axes des ordonnées.

Une note importante (mise à jour) : les données présentées ici proviennent d'une (grande) liste de mots de passe sur laquelle je n'ai gardé que les chaînes de caractères constituées 4 chiffres. Cette approximation génère un biais pour les codes précédés de zéros. Afin de pouvoir afficher une pondération qui ait du sens, j'ai normalisé les trois classes problématiques (codes qui commencent par un, deux et trois zéros) en utilisant la distribution de la classe principale.

Matrice d'intensité des codes PIN en fonction de leur fréquence d'utilisation
(un point de pourcentage correspond à 50 000 valeurs de l'échantillon)
Sélection

* : on considère qu'un code PIN est composé de quatre chiffres.


© Florian Cassayre 2019
Version 7366a73