Introdution au Tidyverse
Tidyverse, j’utiliserai…
R étant un logiciel libre et flexible, il y a pas mal de librairies qui ont été développés, dès fois pour résoudre le même problème. Pour éviter d’aller dans tous les sens et de s’y perdre finalement, Je vous propose de suivre un ensemble cohérent de librairies regrouper dans une “méga” librairie nommé tidyverse
. Cette méga librairie contient 26 librairies dont voici les 7 principales:
dplyr
: manipulation des données,readr
: lecture et écriture de fichier,tidyr
: transformation des données,tibble
: est une ré-imagination moderne et plus efficiente desdataframe
native dans R,purrr
: permet la programmation fonctionnelle,ggplot2
: représentation graphiques des données,stringr
: manipulation de caractères.
La plupart des nouvelles librairies se base sur ces sept, notamment les librairies qui permettent de travailler sur des bases de données distantes ou de la cartographie).
Pour mieux entrer dans cet univers n’hésitez pas à aller visiter leur site. Il existe aussi un très bon livre (R for Data Science) qui revient sur tous ces aspects. Vous trouverez la version gratuite en ligne ici.
Transformation et manipulation des données
La transformation et la manipulation de données se font grâce aux librairies dplyr
et tidyr
.
La librairie dplyr
est la librairie au centre de l’univers tidyverse. Il est indispensable de maitriser cette librairie. Presque toutes les autres librairies de tidyverse l’utilisent.
Cet aide-mémoire vous permet de comprendre rapidement son utilisation et de connaitre les principales fonctions.
Pour bien comprendre le concept du pipe operator (%>%) utilisez dans dplyr lisez ceci :
L’importation de données
Comme évoquer précédemment nous allons travailler autour des librairies contenues dans tidyverse
. Chargeons cette librairie.
library(tidyverse)
Pour importer un fichier csv par exemple, on utilise la fonction read_csv
de la librairie readr
.
L’aide-mémoire ci-dessous vous donne plus de détail sur l’importation.
Ce Chapitre du document R for data Science peut être aussi utile.
Traitement des caractères
La libraire stringr
traite de manière générale les caractères et plus spécialement les expressions régulières.
Ce chapitre devrait vous permettre de mieux comprendre cette librairie:
Cet aide-mémoire peut vous être utile:
Une évolution des dataFrame
: tibbledata
Si vous avez déjà travaillé dans R, vous avez surement du travailler avec des data.frames
. Le concept de data.frames
qui est natif de R commence à être obsolète. Cependant, il serait très compliqué de le changer. Il y a plutôt une évolution qui en est fait sous forme de librairie : tibble
Pour tout comprendre sur les tibbles data
référez-vous à ce document :
Représentation graphique
La représentation graphique est très importante pour un analyste car il constitue une partie du rendu final de son travail. Une représentation graphique avec un effet “Waouh” facilite le rendu du travail.
La librairie ggplot2
offre différentes manières de représentation graphique.
Pour les débutants, il est conseillé de lire ce chapitre:
Un petit aide-mémoire pour se rappeler des fonctions additionnelles.
Programmation fonctionnelle
La librairie purrr
améliore la boîte à outils de programmation fonctionnelle (FP) de R en fournissant un ensemble complet et cohérent d’outils pour travailler avec des fonctions et des vecteurs.
Si vous n’avez jamais entendu parler de FP auparavant, le meilleur endroit pour commencer est la famille des fonctions map()
qui permet de remplacer beaucoup de boucles par du code à la fois plus succinct et plus facile à lire.
Le meilleur endroit pour en apprendre davantage sur les fonctions map
est le chapitre Itération dans R for data science.
Et bien sur un aide-mémoire pour les plus aguerris:
Pour aller plus loin …
Toutes les aides mémoires (et bien plus) utilisées ici sont disponibles sur le site de Rstudio ici.
Vous pouvez également voir une liste (non exhaustive et peut-être pas à jour) de quelques aides mémoires directement disponibles dans Rstudio dans Help> Cheatsheets :
L’univers tidyverse inclue également d’autres librairies non inclus dans la librairie tidyverse
. Allez toujours vérifier par rapport à vos besoins les librairies disponibles ici. Dans tous les cas, n’hésitez pas à nous contacter.
comments powered by Disqus