De l'art d'analyser des données dans Excel, ou ailleurs

Analyse de données · Excel

Voici une série d'articles sur l'analyse de données sous Excel. Le but n'est pas d'être exhaustif — des centaines de livres traitent déjà des fonctionnalités d'Excel — ni de faire de vous un héros de la donnée. L'ambition est plus modeste : vous armer du minimum vital pour mener des projets de données simples et dégager les concepts communs à toute analyse, de l'organisation des données à leur traitement, avec un outil que tout le monde possède — Excel — pour répondre à une question que l'on se pose.

Graphiques d'analyse de données dans Excel

Vous n'avez pas besoin de beaucoup de données ni d'outils. Vous avez besoin de répondre à une question

Se cantonner à une question est primordial, car on se laisse vite emporter par un jeu de données et les technologies à la mode. La question peut se préciser, voire évoluer en cours de route, mais au départ, un problème à résoudre — même flou, parfois réduit à une simple hypothèse — est un minimum vital.

Il m'est arrivé d'explorer un jeu de données de voitures et d'étudier le nombre de voitures de chaque couleur. Puis de faire un graphe de distribution par couleur. Les voitures vertes sont les plus nombreuses. Aucun intérêt. Si, à l'inverse, j'avais postulé que les voitures blanches devaient être majoritaires car plus vendues en France, l'analyse aurait été plus intéressante. La réponse, d'inintéressante au possible, serait devenue surprenante et donc sujette à investigation.

Pour répondre à une question, vous devez utiliser le minimum de données nécessaires. Pas besoin d'aller chercher des centaines de millions de points de données, si une centaine suffisent à répondre à votre question.

Mettons que vous gériez une piscine municipale, et que votre responsable vous demande de prévoir les pics d'affluence. Le coupable idéal se trouve vite : la température extérieure — plus il fait chaud, plus il y a de monde. Vous sortez les ventes de tickets des quatre dernières années, une petite régression linéaire relie l'affluence aux températures, et bingo : la courbe prévoit 93 % des pics. Il n'aura fallu que 365 × 4 + 1 lignes (l'année bissextile) pour résoudre le problème.

La question qui va se poser maintenant est la suivante : est-ce assez ou va-t-il falloir continuer ? Votre responsable sera peut-être content. Mais peut-être sera-t-il déçu. Il n'avait pas besoin de vous pour savoir que la plupart des pics d'affluence arrivent les jours de grande chaleur. Encore fallait-il le prouver. Peut-être que ce 93 % n'est pas assez bon et vous devez aller voir à quoi correspondent ces quelques écarts. Et les quatre années de données de la caisse ne suffiront peut-être plus à répondre à vos questions.

Ce petit exemple révèle les problèmes très terre-à-terre qui se cachent derrière de grands mots comme data ou machine learning (la régression linéaire en est, après tout, une technique de base). La réalité est souvent bien moins ésotérique qu'il n'y paraît. Et si un bout de papier et un crayon suffisent à résoudre votre problème, ne vous en privez pas.

Pourquoi Excel ?

Excel est-il encore pertinent aujourd'hui ? Vous avez sûrement entendu parler de Looker Studio, Tableau ou, chez Microsoft, Power BI — et leurs équipes marketing ont fait du bon travail pour reléguer Excel au second plan. Mais ce serait oublier que ces outils occupent une place différente sur l'échiquier de la data.

Chaque logiciel ou langage de programmation n'est qu'un outil, adapté à certaines situations. Par exemple, Looker/Data Studio est construit sur Google Analytics, lui-même construit sur les données de trafic de sites internet. C'est donc un outil bâti autour de l'analyse de ces éléments. Power BI présente des avantages certains au niveau du partage des visuels produits, mais sa mise en place reste lourde. Python est un bon langage pour faire des maths, des modèles d'analyse, mais je préfère pour le reste travailler avec Javascript et ses bizarreries.

Les projets à base de données relationnelle ou d'analytique avec Looker ou Power BI sont plus lourds à mettre en place. Excel est plus rapide et plus flexible, et donne une vision transversale de toutes les étapes d'un projet d'analyse ou de reporting. Le tableur, dont les ancêtres remontent aux années 60, a quelque chose de naturel pour nous : valable il y a 50 ans, il le sera sans doute encore dans 50 ans.

Les plus d'Excel

Excel est disponible partout, tout le monde le connaît et sait s'en servir, pour le meilleur et pour le pire.
Un projet Excel est rapide à mettre en œuvre. Certains problèmes ne nécessitent pas de quantités astronomiques de données pour être résolus et une analyse rapide sous Excel est souvent suffisante.
Excel couvre tout le spectre de la data : stockage, organisation, analytique (descriptif, diagnostic, prédictif, prescriptif) et visualisation. Il nous permet également de manipuler directement ces différents éléments.
Il offre des outils généralement plus flexibles, notamment pour la visualisation.
Fort de centaines de millions d'utilisateurs, Excel est capable d'évoluer et d'intégrer toujours plus d'outils (Power Query, et désormais Python directement dans le classeur).

Les moins d'Excel

Impossibilité de travailler sur des volumes de données importants si l'on se cantonne à un fichier Excel pour le stockage des données. La limitation saute si l'on se connecte à une source de données extérieure.
L'automatisation et la mise à jour des rapports et visuels nécessitent une mise en place soignée, comprendre ici qu'il est facile de faire planter un rapport Excel lors d'une mise à jour.
Les fonctionnalités de partage et de protection des fichiers sont des ajouts peu fonctionnels, des outils comme Power BI seront souvent plus adaptés pour le partage de rapports avec des personnes extérieures.

En résumé, Excel permet de voir tous les éléments du traitement de la donnée dans un seul logiciel : stockage, organisation, traitement analytique et visualisation. Il y a très peu d'abstraction dans Excel, ce qui en fait un outil intéressant pour débuter, mais parfois aussi pour aller plus loin.

Les données avec les données, l'analyse avec l'analyse

Dès qu'un projet dépasse une feuille de travail, il faut organiser ses onglets et fichiers et séparer les objectifs de chacun. C'est comme en cuisine. Seul, vous pouvez manger dans la cuisine ou sur le canapé, peu importe. Avec des invités, vous épluchez les légumes en cuisine et servez au salon — pas l'inverse. Et pour un banquet de 100 personnes, il vous faut une équipe et une organisation bien huilée. L'analyse de données, c'est exactement la même chose.

Une place pour chaque chose et chaque chose à sa place.

Plus généralement, on parle de séparation des préoccupations. Le concept vient de la programmation, mais il vaut pour bien d'autres domaines — l'architecture, la cuisine, la politique et sa séparation des pouvoirs. Chaque chose a sa place.

Dans le traitement des données, séparez les données, leur analyse et leur présentation, et clarifiez — pour vous comme pour vos interlocuteurs — quel onglet ou fichier fait quoi. Plus le projet est grand, plus cela compte : mélanger analyse et données vous expose vite à des problèmes de maintenance. Je dirais même que savoir distinguer un tableau d'analyse d'un tableau de données est déjà une vraie culture de la donnée.

Nommer ses dossiers, fichiers ou onglets de façon cohérente

La séparation des préoccupations, c'est bien joli ; voyons en pratique, en donnant des noms à nos dossiers, fichiers et onglets.

Passons en revue certains des éléments de la dénomination que nous pouvons utiliser :

Un préfixe : j'utilise l'ordre de l'alphabet ASCII pour ordonner les éléments d'un fichier. Les fichiers avec un "00" comme préfixe seront ainsi en haut du tri de fichiers. Je réserve le "zz" pour les fichiers d'archives qui seront ainsi triés à la fin.
Le nom du projet ou de l'analyse : dans le cas de plusieurs analyses ou projets. Quand un fichier mélange plusieurs projets ensemble, nous allons les identifier. Un exemple typique est un fichier de rapport financier avec un rapport "Chiffre_affaire" et un rapport "Inventaire".
La désignation de l'objectif du fichier : "DATA" par exemple pour du stockage de données, "ANALYSE" pour... de l'analyse et des graphiques, "CONSO" pour de la consolidation de données, "NET" pour du nettoyage.
La date (Année_Mois_Jour) : un classique au panthéon des classiques, le datage des fichiers. Pas besoin d'explications si ce n'est qu'il est plus judicieux de mettre la date au format "AAAA_MM_JJ" car cela permet de classer les fichiers avec le même nom dans un ordre chronologique. Si le jour est en premier, le classement de fichier se fera d'abord en fonction... des jours du mois et ensuite des mois et années.
La version : une alternative à la datation des fichiers est d'utiliser des versions de fichier "V1", "version_2",...

Vous pouvez bien sûr mixer ces éléments à votre guise et même, soyons fous, en inventer d'autres. Passons maintenant à quelques exemples.

Pour un fichier de rapport financier, nous pouvons utiliser un préfixe de classification suivi d'une désignation de l'objectif et la date. Le contenu d'un dossier pourrait rassembler les fichiers suivants :

"00_DATA_Finance_2023_03_01"
"01_RAPPORT_Finance_2023_05_01"
"zz_DATA_Rapport_financier_2023_01_01"
"zz_DATA_Rapport_financier_2023_02_01"
"zz_DATA_Rapport_financier_draft_2023_01_01"

Pour une analyse simple avec les données et l'analyse dans le même fichier, nous n'aurions vraisemblablement pas besoin de la date, ni d'ordonner les onglets grâce à un préfixe, ce qui nous donnerait un fichier lambda avec un onglet "DATA" et un autre "ANALYSE".

Enfin, voici un exemple réel de structure de fichier de rapport des ventes :

Structure d'un fichier d'analyse des ventes montrant l'organisation des données — Organisation hiérarchique des fichiers dans un projet d'analyse de ventes avec Power Query

Lorsque j'ouvre le dossier, je vois tout de suite le fichier important en haut ; la plupart des collaborateurs n'ira d'ailleurs ouvrir que le fichier "00_RAPPORT_ventes". Les 2 fichiers en "02" chargent des données depuis 2 sources différentes avec Power Query. Puis, toujours avec Power Query, je viens taper dans ces 2 fichiers pour consolider et transformer les données dans le fichier "01_CONSO", et le "00_RAPPORT" vient taper dans ce fichier pour s'alimenter en données.

← Tous les articles