Tidyverse, j’utiliserai…

R étant un logiciel libre et flexible, il y a pas mal de librairies qui ont été développés, dès fois pour résoudre le même problème. Pour éviter d’aller dans tous les sens et de s’y perdre finalement, Je vous propose de suivre un ensemble cohérent de librairies regrouper dans une “méga” librairie nommé tidyverse. Cette méga librairie contient 26 librairies dont voici les 7 principales:

  • dplyr : manipulation des données,
  • readr : lecture et écriture de fichier,
  • tidyr : transformation des données,
  • tibble: est une ré-imagination moderne et plus efficiente des dataframe native dans R,
  • purrr : permet la programmation fonctionnelle,
  • ggplot2 : représentation graphiques des données,
  • stringr : manipulation de caractères.

La plupart des nouvelles librairies se base sur ces sept, notamment les librairies qui permettent de travailler sur des bases de données distantes ou de la cartographie).

Pour mieux entrer dans cet univers n’hésitez pas à aller visiter leur site. Il existe aussi un très bon livre (R for Data Science) qui revient sur tous ces aspects. Vous trouverez la version gratuite en ligne ici.

Transformation et manipulation des données

La transformation et la manipulation de données se font grâce aux librairies dplyr et tidyr.

La librairie dplyr est la librairie au centre de l’univers tidyverse. Il est indispensable de maitriser cette librairie. Presque toutes les autres librairies de tidyverse l’utilisent.

Cet aide-mémoire vous permet de comprendre rapidement son utilisation et de connaitre les principales fonctions.


Pour bien comprendre le concept du pipe operator (%>%) utilisez dans dplyr lisez ceci :

L’importation de données

Comme évoquer précédemment nous allons travailler autour des librairies contenues dans tidyverse. Chargeons cette librairie.

library(tidyverse)

Pour importer un fichier csv par exemple, on utilise la fonction read_csv de la librairie readr.

L’aide-mémoire ci-dessous vous donne plus de détail sur l’importation.

Ce Chapitre du document R for data Science peut être aussi utile.

Traitement des caractères

La libraire stringr traite de manière générale les caractères et plus spécialement les expressions régulières. Ce chapitre devrait vous permettre de mieux comprendre cette librairie:

Cet aide-mémoire peut vous être utile:

Une évolution des dataFrame: tibbledata

Si vous avez déjà travaillé dans R, vous avez surement du travailler avec des data.frames. Le concept de data.frames qui est natif de R commence à être obsolète. Cependant, il serait très compliqué de le changer. Il y a plutôt une évolution qui en est fait sous forme de librairie : tibble

Pour tout comprendre sur les tibbles data référez-vous à ce document :

Représentation graphique

La représentation graphique est très importante pour un analyste car il constitue une partie du rendu final de son travail. Une représentation graphique avec un effet “Waouh” facilite le rendu du travail.

La librairie ggplot2 offre différentes manières de représentation graphique.

Pour les débutants, il est conseillé de lire ce chapitre:

Un petit aide-mémoire pour se rappeler des fonctions additionnelles.

Programmation fonctionnelle

La librairie purrr améliore la boîte à outils de programmation fonctionnelle (FP) de R en fournissant un ensemble complet et cohérent d’outils pour travailler avec des fonctions et des vecteurs.

Si vous n’avez jamais entendu parler de FP auparavant, le meilleur endroit pour commencer est la famille des fonctions map() qui permet de remplacer beaucoup de boucles par du code à la fois plus succinct et plus facile à lire.

Le meilleur endroit pour en apprendre davantage sur les fonctions map est le chapitre Itération dans R for data science.

Et bien sur un aide-mémoire pour les plus aguerris:


Pour aller plus loin …

Toutes les aides mémoires (et bien plus) utilisées ici sont disponibles sur le site de Rstudio ici.

Vous pouvez également voir une liste (non exhaustive et peut-être pas à jour) de quelques aides mémoires directement disponibles dans Rstudio dans Help> Cheatsheets :



L’univers tidyverse inclue également d’autres librairies non inclus dans la librairie tidyverse . Allez toujours vérifier par rapport à vos besoins les librairies disponibles ici. Dans tous les cas, n’hésitez pas à nous contacter.

Au-delà de tidyverse : l’aide-mémoire du Data Scientist

Une excelente aide-mémoire a été conçue pour les “R-Scientists”. Elle résume l’essentiel des librairies, des ressources suivant vos différents travaux. Elle saura vous orienter dans les choix de librairies à utiliser et de ressources à lire.