Aller au-dela de value_counts () : creer des tableaux de frequences visuellement attrayants avec juste 3 lignes de code (a l’assistance de donnees OkCupid)

Aller au-dela de value_counts () : creer des tableaux de frequences visuellement attrayants avec juste 3 lignes de code (a l’assistance de donnees <a href="https://besthookupwebsites.org/fr/polish-hearts-review/"><img src="https://www.fantasianew.ru/wa-data/public/shop/products/04/56/25604/images/21388/21388.970.jpg" alt=""></a> OkCupid)

Quelques astuces simples mais utiles que vous ne connaissiez probablement pas

Correctement que le possible le plus facile de creer une table de frequences Afin de un objet Series dans la bibliotheque Python pandas consiste a appliquer la value_counts() technique, le resultat de cette operation parai®t plutot basique. Nous pouvons le rendre plus informatif en ajustant les parametres booleens en technique normalize , sort , ascending , ainsi, dropna , ou en regroupant les valeurs (si elles paraissent numeriques) dans des bacs. Cependant, les options ici seront assez limitees, donc pour ameliorer visuellement la table de frequences resultante, nous pouvons envisager plusieurs astuces simples mais indispensables, telles que le chainage de methodes, la personnalisation du texte, l’ajout du % symbole a chaque valeur de frequence et l’utilisation une puissance de jolie- impression.

Dans cet article, nous allons experimenter un ensemble de donnees Kaggle contenant des renseignements sur l’age, le sexe, l’emplacement, l’education, etc., Afin de 60 000 utilisateurs de l’ application de rencontres OkCupid ??. Pour des besoins, cependant, nous n’utiliserons que les donnees sur les statuts des utilisateurs.

1. Enchainement des methodes

Pour commencer, creons un tableau de frequence d’origine Afin de des statuts des utilisateurs :

( Note : ci-apres, nous allons laisser tous les autres parametres en value_counts() methode par defaut, ce qui signifie que nous ne considererons que les tableaux de frequences tries avec ordre decroissant et en excluant les valeurs manquantes. Pour les besoins, utiliser ou non ces parametres ne quel que soit.)

Sans connaitre le contexte, a partir du tableau ci-dessus, il va ne pas etre pertinent que des nombres representent des pourcentages et non des frequences absolues. Ajoutons 1 titre au tableau avec le formatage f-string :

Dans l’exemple ci-dessus, nous avons ajoute le % symbole au titre du tableau. Et si nous voulions plutot l’ajouter a chaque valeur de frequence ? Une option de contournement consiste a creer une liste de valeurs de frequence avec le % symbole ajoute a chacune d’entre elles, et a creer une serie a partir de cette liste. Afin d’effectuer la liste, nous pouvons utiliser la boucle for suivante :

Enfin, nous pouvons joliment imprimer le tableau des frequences. Pour ceci, nous allons utiliser la to_markdown() technique pandas qui necessite l’installation (souvent pas l’import) du module tabulate ( pip install tabulate ).

Important : pour afficher convenablement les resultats, la to_markdown() methode devra etre utilisee uniquement a l’interieur d’la print() achat.

Montrons a nouveau la table de frequence d’etat de l’utilisateur appelee s_with_pct_symb , votre fois tel une vraie table, avec la syntaxe d’origine de to_markdown() . Comme precedemment, nous allons ajouter un titre en gras et appliquer le formatage f-string. Par souci de coherence, nous affecterons ci-apres J’ai table de frequence a afficher a une variable appelee S ” :

Jouons avec les parametres tablefmt et stralign . Le premier d’entre eux definit le format du tableau et peut avoir l’une des valeurs suivantes : plain , simple , github , grid , fancy_grid , pipe , orgtbl , jira , presto , pretty , psql , rst , etc. notamment, le format de tableau que nous avons vu plus haut s’appelle pipe , celui via defaut pour des to_markdown() pandas technique. Curieux que concernant le package tabulate lui-meme, le format de tableau avec defaut est simple . Quant au deuxieme parametre, stralign , il sert a remplacer l’alignement des informations de chaine avec defaut (qui reste left ). Les alternatives possibles ici sont right et center .

Attention : le floatfmt parametre ne fonctionne pas en combinaison avec le format du tableau pretty .

Plats a emporter confortables

Bien que chacune de la procedure nullement a nullement ci-dessus ait necessite de nombreuses iterations et descriptions, nous trouverons ci-dessous des solutions de code finales Afin de 4 versions differentes de notre tableau des frequences pour profiles[‘status’] , tout cela en % :

  • 2 tableaux simples avec/sans le % symbole,
  • 2 jolis tableaux imprimes avec/sans le % symbole et avec/sans en-tete de tableau.

Dans cet article, nous avons discute de divers approches simples mais puissantes Afin de ameliorer la disposition du tableau des frequences et la lisibilite globale. Ils ont tous sa value_counts() technique des pandas comme facteur central, mais l’ensemble de vont au-dela et aboutissent a des representations plus percutantes. De plus, chacune des solutions proposees, dans sa forme definitive, necessite au maximum 3 lignes de code.

J’espere que vous avez apprecie la lecture de mon article et que vous l’avez trouve utile. Merci d’avoir lu a tout un chacun, et bonne chance a ceux qui utilisent l’application de rencontres OkCupid ????

Vous pouvez trouver opportun aussi ces articles :

Leave a Comment

Your email address will not be published.