Nos articles

De l'art d'analyser des données dans Excel, ou ailleurs

Voici une série d'articles autour de l'analyse de données sous Excel. Le but de ces articles n'est pas d'être exhaustif et de vous faire découvrir toutes les fonctionnalités d'Excel, des centaines de livres traitent déjà de ce sujet, ni de faire de vous des héros de la donnée. La modeste ambition de ces quelques lignes est de vous armer du minimum vital pour aborder des projets de données simples et de voir des concepts communs à tout projet d'analyse de données : depuis leur organisation des données à leur analyse avec un outil que tout le monde possède, Excel, dans le but de répondre à une question que l'on se pose.

Graphiques d'analyse de données dans Excel

Vous n'avez pas besoin de beaucoup de données ni d'outils. Vous avez besoin de répondre à une question

Se cantonner à répondre à une question est primordial, car nous pouvons facilement nous faire emporter par un jeu de données et les dernières technologies à la mode. Certes une question peut se préciser, voire se développer au cours d'une analyse, mais au départ de toute cette exploration, un problème à résoudre, même flou, est un minimum vital. Cette question peut même parfois juste être réduite une hypothèse.

Il m'est arrivé d'explorer un jeu de données de voitures et d'étudier le nombre de voitures de chaque couleur. Puis de faire un graphe de distribution par couleur. Les voitures vertes sont les plus nombreuses. Aucun intérêt. Si, à l'inverse, j'avais postulé que les voitures blanches devaient être majoritaires car plus vendues en France, l'analyse aurait été plus intéressante. La réponse, d'inintéressante au possible, serait devenue surprenante et donc sujette à investigation.

Pour répondre à une question, vous devez utiliser le minimum de données nécessaires. Pas besoin d'aller chercher des centaines de millions de points de données, si une centaine suffisent à répondre à votre question.

Mettons que vous ayez une piscine municipale à gérer, et votre responsable vous demande de l'aider à prévoir les pics d'affluence. Il va vraisemblablement vous falloir peu de temps pour trouver un coupable idéal : la température extérieure. Plus il fait chaud, plus il y a de monde à la piscine. Fier de votre hypothèse révolutionnaire, vous passez à la caisse et sortez les données de vente de tickets d'entrée de ces quatre dernières années. Vous faites une petite régression linéaire pour obtenir une courbe qui lie l'influence aux températures extérieures. Bingo! Votre courbe permet de prévoir à 93% les pics d'affluence. Vous n'avez eu besoin que de 365 x 4 lignes + 1 (pour l'année bissextile) pour résoudre votre problème.

La question qui va se poser maintenant est la suivante: est-ce assez ou va-t-il falloir continuer ? Votre responsable sera peut-être content. Mais peut-être sera-t-il déçu. Il n'avait pas besoin de vous pour savoir que la plupart des pics d'affluence arrivent les jours de grande chaleur. Encore fallait-il le prouver. Peut-être que ce 93% n'est pas assez bon et vous devez aller voir à quoi correspondent ces quelques écarts. Et les quatre années de données de la caisse ne suffiront peut-être plus à répondre à vos questions.

Ce petit exemple nous montre l'ensemble des problèmes très terre-à-terre qui se cachent derrière de grands mots tels que la data, ou le machine learning (la régression linéaire est, après tout, une technique de base de l'apprentissage machine). Ces mots sont des ensemble de concepts plus ou moins bien définis, plutôt moins que plus d'ailleurs. La réalité qui se cache derrière tout cela est souvent bien moins ésotérique. Et si vous avez juste besoin d'un bout de papier et d'un crayon pour résoudre votre problème, alors ne vous privez surtout pas de l'utiliser.

Pourquoi Excel ?

Nous pourrions nous poser la question de la pertinence d'Excel en 2023. En effet, vous avez certainement entendu parler d'outils tels que Looker Studio, Tableau ou, pour rester chez Microsoft, Power BI. Et les équipes marketing de ces outils ont fait du très bon travail pour reléguer Excel au second plan. Mais ce serait oublier que ces outils occupent une place différente sur l'échiquier de la data.

Chaque logiciel ou langage de programmation n'est qu'un outil, adapté à certaines situations. Par exemple, Looker/Data Studio est construit sur Google Analytics, lui-même construit sur les données de trafic de sites internet. C'est donc un outil bâti autour de l'analyse de ces éléments. Power BI présente des avantages certains au niveau du partage des visuels produits, mais sa mise en place reste lourde. Python est un bon langage pour faire des maths, des modèles d'analyse, mais je préfère pour le reste travailler avec Javascript et ses bizarreries.

Or, les projets avec base de données relationnelles et/ou de l'analytique avec un outil de type Looker ou Power BI sont plus lourds à mettre en place. Excel est plus rapide et plus flexible, et permet d'avoir une vision transversale de toutes les étapes d'un projet d'analyse ou de reporting. Des ancêtres d'Excel existent depuis les années 60, la présentation sous forme de tableur a quelque chose de naturel pour nous. Cela était valide il y a 50 ans, ce le sera vraisemblablement aussi dans 50 ans.

Les plus d'Excel

Les moins d'Excel

En résumé, Excel permet de voir tous les éléments du traitement de la donnée dans un seul logiciel : stockage, organisation, traitement analytique et visualisation. Il y a très peu d'abstraction dans Excel, ce qui en fait un outil intéressant pour débuter, mais parfois aussi pour aller plus loin. De plus, Excel évolue rapidement et devrait par exemple bientôt intégrer Python.

Les données avec les données, l'analyse avec l'analyse

Lorsqu'un projet dépasse la taille d'une feuille de travail, il est très important de commencer à organiser ses onglets ou fichiers et de bien séparer les objectifs de chaque partie. C'est un peu comme en cuisine. Si vous êtes seul, vous pouvez manger dans votre cuisine ou dans votre canapé, cela n'a pas d'importance. Si vous avez des invités, vous allez éplucher les légumes dans la cuisine, et vous servirez vos plats dans le salon. Pas l'inverse. Et si devez organiser un banquet pour 100 personnes, il vous faudra une équipe et une organisation bien huilée. L'analyse de données, c'est exactement la même chose.

Une place pour chaque chose et chaque chose à sa place.

Plus généralement, nous pourrions parler de séparation des préoccupations. Même si ce concept nous vient de la programmation, il convient bien à ce que nous essayons de décrire ici. Il conviendrait d'ailleurs à bien d'autres domaines comme l'architecture, la cuisine, la politique (et la séparation des pouvoirs) et bien d'autres encore. Chaque chose a sa place.

Dans le traitement des données, il est important de bien séparer les données, leur analyse et leur présentation, et de clarifier aussi bien pour vous que pour vos interlocuteurs quel onglet ou fichier fait quoi. Cela est d'autant plus vrai que l'ampleur du projet est importante. Mélanger analyse et données vous expose, entre autres, à des problèmes de maintenance de vos fichiers. D'ailleurs, je dirais que quelqu'un qui a clairement conscience de la différence entre un tableau d'analyse et un tableau de données possède déjà une culture générale de la donnée non négligeable.

Nommer ses dossiers, fichiers ou onglets de façon cohérente

La séparation des préoccupations, c'est bien joli, mais voyons comment cela se passe d'un point de vue pratique, et donnons des noms à nos dossiers, fichiers, et autres onglets en tout genre.

Passons en revue certains des éléments de la dénomination que nous pouvons utiliser :

Vous pouvez bien sûr mixer ces éléments à votre guise et même, soyons fous, en inventer d'autres. Passons maintenant à quelques exemples.

Pour un fichier de rapport financier, nous pouvons utiliser un préfixe de classification suivi d'une désignation de l'objectif et la date. Le contenu d'un fichier pourrait rassembler les fichiers suivants:

Pour une analyse simple avec les données et l'analyse dans le même fichier, nous n'aurions vraisemblablement pas besoin de la date, ni d'ordonner les onglets grâce un préfixe, ce qui nous donnerait un fichier lambda avec un onglet "DATA" et un autre "ANALYSE".

Enfin, voici un exemple réel de structure de fichier de rapport des ventes :

Structure d'un fichier d'analyse des ventes montrant l'organisation des données
Organisation hiérarchique des fichiers dans un projet d'analyse de ventes avec Power Query

Lorsque j'ouvre le fichier, je vois tout de suite le fichier important en haut ; la plupart des collaborateurs n'ira d'ailleurs ouvrir que le fichier "00_RAPPORT_ventes". Les 2 fichiers en "02" chargent des données depuis 2 sources différentes avec Power Query. Puis, toujours avec Power Query, je viens taper dans ces 2 fichiers pour consolider et transformer les données dans le fichier "01_CONSO", et le "00_RAPPORT" vient taper dans ce fichier pour s'alimenter en données.

Retour en haut ↑

Snowflake et la gestion des données dans l'industrie pharmaceutique

Avec l'accumulation de données hétéroclites, l'industrie pharmaceutique se trouve face au défi de stocker, analyser et exploiter efficacement des montagnes d'informations. Nos fichiers Excel risquent d'être un peu légers pour gérer de telles quantités de données, même avec Power Query. C'est ici que des outils comme Snowflake entrent en jeu, offrant une solution cloud moderne permettant de gérer la distribution des données et de casser les silos existants.

Snowflake est une plateforme cloud de stockage et d'analyse de données massives. Son architecture sépare stockage et calcul, offrant flexibilité et évolutivité. Elle répond aux exigences de l'industrie et facilite la collaboration entre les équipes, avec un accès fiable et rapide aux données partagées.

Les atouts de Snowflake pour l'écosystème pharmaceutique

1. Architecture séparant stockage et calcul

L'architecture unique de Snowflake offre plusieurs avantages. Le premier, c'est un dimensionnement dynamique. Imaginons que vous ayez besoin d'analyser rapidement des millions de points de données d'essais cliniques : Snowflake vous permet d'augmenter temporairement la puissance de calcul pour cette analyse, puis de la réduire une fois l'analyse terminée.

Cette évolutivité permet de contrôler les coûts, le modèle reposant sur un paiement à l'usage. Les entrepôts virtuels peuvent être dimensionnés et optimisés en fonction des besoins spécifiques de chaque département, permettant par exemple à l'équipe de pharmacovigilance de disposer de ressources adaptées à ses analyses intensives sans affecter les performances des autres utilisateurs.

2. Sécurité et conformité renforcées

Dans un secteur aussi réglementé, la sécurité des données est une nécessité. Snowflake répond à cette exigence en chiffrant toutes les données, aussi bien au repos qu'en transit. Le contrôle d'accès granulaire permet de définir précisément qui peut accéder à quelles données, jusqu'au niveau des lignes et des colonnes. Vous pouvez ainsi accorder aux équipes cliniques l'accès à certaines données de patients tout en masquant les informations personnelles identifiables aux équipes marketing.

Chaque accès ou modification est également enregistré, créant une piste d'audit complète qui facilite grandement les démarches de conformité GxP. Snowflake bénéficie aussi de certifications clés comme HIPAA, SOC 1 Type II, SOC 2 Type II, et autres réglementations essentielles.

3. Partage de données sécurisé

Le secteur pharmaceutique fonctionne en écosystème, avec des collaborations entre laboratoires, CROs, autorités de santé et autres partenaires. Snowflake fluidifie ces interactions grâce à son approche unique du partage de données. Vous pouvez désormais partager des vues spécifiques de vos données avec des partenaires sans jamais avoir à déplacer physiquement ces données.

Cette fonctionnalité de Data Sharing sans copie répond parfaitement aux exigences de sécurité tout en facilitant la collaboration. Si vous travaillez avec une CRO sur un essai clinique, vous pouvez lui donner accès uniquement aux données dont elle a besoin, sans risque de fuite d'informations confidentielles.

Snowflake propose également une Marketplace de données permettant d'accéder à des sources externes pertinentes (données épidémiologiques, démographiques, etc.) directement depuis votre environnement, enrichissant ainsi vos analyses.

Structure d'un système Snowflake en pharma
Architecture de la plateforme Snowflake et son intégration dans l'écosystème pharmaceutique

4. Intégration avec l'écosystème data existant

Snowflake ne remplace pas tous vos outils actuels, il les complète. La transition peut être progressive et respectueuse des habitudes de travail établies. Les analystes habitués à Excel peuvent continuer à l'utiliser comme interface, tout en profitant de la puissance de calcul et du stockage de Snowflake grâce à une connexion bidirectionnelle.

La complémentarité s'étend également aux outils d'analyse populaires comme Tableau, Power BI, R ou Python. Vos data scientists peuvent continuer à travailler avec leurs environnements préférés tout en tirant parti des capacités de Snowflake. De même, la plateforme s'intègre parfaitement avec la plupart des outils d'intégration de données (Informatica, Talend, Alteryx, etc.), facilitant la mise en place de pipelines de données robustes et évolutifs.

Cas d'usage dans l'industrie pharmaceutique

1. Accélération des essais cliniques

Les essais cliniques représentent l'un des processus les plus complexes et coûteux. Ils génèrent aussi d'immenses volumes de données qui doivent être analysées rapidement et précisément. Snowflake permet une intégration fluide des données provenant de dizaines ou centaines de sites d'essais cliniques différents.

Imaginez que vous supervisez un essai clinique international impliquant 200 sites dans 30 pays. Chaque jour, des données de patients sont collectées selon des formats parfois différents, dans diverses langues, avec des unités de mesure variables. La consolidation de ces données peut se faire presque en temps réel, permettant une validation rapide des données, une détection précoce des signaux d'efficacité ou de sécurité grâce à des analyses continues.

Les fonctionnalités de transformation native permettent également d'automatiser grandement le nettoyage et la standardisation des données, réduisant considérablement le temps consacré à cette tâche essentielle.

2. Pharmacovigilance et sécurité des médicaments

La surveillance post-commercialisation est une obligation réglementaire qui exige une analyse rapide des signaux de sécurité de diverses sources. Qu'il s'agisse de rapports spontanés, de littérature médicale, de médias sociaux ou de données de réclamations, toutes ces informations peuvent être intégrées dans un référentiel unique.

Cette consolidation permet une détection de signaux avancée utilisant des requêtes complexes et des analyses statistiques pour identifier les événements indésirables potentiels. Là où les systèmes traditionnels peinaient à traiter des requêtes multidimensionnelles sur des millions d'enregistrements, Snowflake offre des performances remarquables qui transforment la réactivité des équipes.

La plateforme assure également une traçabilité complète avec la conservation de l'historique complet des analyses. Lors d'une inspection ou d'une demande spécifique de la FDA ou de l'EMA, vous pouvez rapidement retrouver l'état exact des données et des analyses à n'importe quel moment dans le passé.

3. Optimisation de la chaîne d'approvisionnement

La gestion de la supply chain pharmaceutique pose des défis uniques liés à la complexité des produits et aux contraintes réglementaires. Snowflake permet une analyse intégrée des données pour optimiser chaque maillon de cette chaîne.

La prévision de la demande gagne en précision grâce à l'analyse des tendances historiques et de facteurs externes comme les données épidémiologiques ou saisonnières. Cela améliore la gestion des stocks et réduit les ruptures d'approvisionnement, cruciales pour les médicaments essentiels.

4. Insights commerciaux et Market Access

Dans un environnement pharmaceutique de plus en plus concurrentiel, l'optimisation des stratégies commerciales s'appuie sur une analyse fine des données de marché. Snowflake transforme cette dimension en permettant des analyses multidimensionnelles qui dépassent largement les capacités des outils traditionnels.

La segmentation client devient plus sophistiquée, intégrant non seulement les historiques de prescription mais aussi des données comportementales, des caractéristiques démographiques et des indicateurs de réceptivité aux différentes approches marketing. Cette vision à 360° des prescripteurs et institutions permet une personnalisation des interactions.

La mesure du ROI marketing gagne également en précision grâce à la consolidation des données de CRM, des ventes et des activités promotionnelles. Cette vision unifiée permet d'identifier les actions les plus efficaces et d'optimiser l'allocation des ressources marketing, un enjeu crucial dans un contexte de pression constante sur les budgets.

Enfin, les équipes de pricing et d'accès au marché bénéficient d'une capacité inédite d'analyse des données de remboursement et de modélisation d'impact pour optimiser les stratégies de lancement et de négociation. Dans un environnement où les payeurs exigent de plus en plus de preuves de valeur, cette capacité analytique avancée devient un avantage concurrentiel majeur.

Mise en œuvre : par où commencer ?

L'adoption de Snowflake dans une organisation pharmaceutique demande une approche structurée, progressive et alignée avec les objectifs stratégiques. Voici comment aborder cette transformation :

1. Évaluation des besoins et définition de la stratégie

La première étape consiste à réaliser un audit approfondi de vos données existantes : quelles sont les sources, les volumes, les usages actuels et surtout, quelles sont les limitations qui freinent votre capacité d'analyse et de décision ? Cette cartographie doit s'accompagner d'une réflexion sur les cas d'usage prioritaires. Il ne s'agit pas de tout migrer d'un coup, mais de commencer par les domaines où l'impact sera le plus significatif.

Peut-être que votre département clinique perd un temps considérable à consolider les données d'essais, ou que votre équipe de pharmacovigilance est limitée dans sa capacité à détecter rapidement les signaux d'alerte. Ces difficultés concrètes constituent d'excellents candidats pour un premier déploiement. Sur cette base, vous pourrez élaborer une roadmap par phases, limitant ainsi les risques tout en démontrant rapidement la valeur ajoutée de la plateforme.

2. Architecture et conception

L'étape suivante consiste à définir précisément comment Snowflake s'intégrera à votre écosystème IT existant. Quels systèmes continueront à fonctionner en parallèle ? Lesquels seront progressivement remplacés ? Comment s'articuleront les flux de données entre ces différentes composantes ? Cette réflexion architecturale est essentielle pour garantir une transition fluide et éviter la création de nouveaux silos.

La conception du modèle de données représente également un enjeu majeur. Snowflake offre une grande flexibilité dans l'organisation des données en bases, schémas et tables, mais cette liberté doit être encadrée par une réflexion sur les usages futurs. Un modèle bien conçu facilitera grandement les analyses transversales et l'évolution future de vos besoins.

Enfin, l'établissement des politiques de gouvernance doit être abordé dès cette phase : quelles sont les règles de sécurité, de rétention et de confidentialité qui s'appliqueront ? Qui aura accès à quelles données et dans quelles conditions ? Ces questions, cruciales dans l'environnement réglementé de l'industrie pharmaceutique, doivent être traitées en amont pour éviter des reconfigurations coûteuses par la suite.

3. Migration et intégration

La phase de migration proprement dite doit suivre une approche progressive. Il est recommandé de commencer par des ensembles de données non critiques, permettant ainsi à vos équipes de se familiariser avec la plateforme sans risque opérationnel majeur. Cette approche par petits pas permet aussi d'affiner les processus de migration avant d'aborder des données plus sensibles.

La mise en place des flux ETL/ELT (Extract, Transform, Load / Extract, Load, Transform) constitue une étape clé pour assurer l'alimentation continue de votre environnement données. Ces pipelines doivent être conçus avec soin pour garantir la fraîcheur et la fiabilité des données, tout en minimisant l'impact sur les systèmes sources.

Parallèlement, la connexion aux outils d'analyse existants doit être configurée pour permettre aux utilisateurs de continuer à travailler avec leurs interfaces familières. Qu'il s'agisse de Tableau, Power BI ou même Excel, cette intégration permet de réduire la courbe d'apprentissage et d'accélérer l'adoption.

4. Formation et adoption

Le succès d'un déploiement d'outils comme Snowflake repose en grande partie sur l'appropriation de la plateforme par les utilisateurs. La formation des équipes techniques (administrateurs, développeurs, responsables de la sécurité) doit être complète et approfondie pour garantir une gestion optimale de l'environnement.

La formation des utilisateurs métier, quant à elle, doit se concentrer sur les cas d'usage concrets qui correspondent à leurs besoins quotidiens. Comment accéder aux données pertinentes ? Comment créer des analyses et des visualisations efficaces ? Comment partager les résultats avec les collègues ? Ces aspects pratiques sont essentiels pour favoriser l'adoption.

La création d'une communauté interne d'utilisateurs peut également accélérer la diffusion des bonnes pratiques et des cas d'usage innovants. Des sessions régulières de partage d'expérience, un forum interne ou une bibliothèque de requêtes et rapports types constituent des ressources précieuses pour accompagner la montée en compétence collective.

Défis et considérations clés

Malgré ces avantages, l'adoption de Snowflake présente certains défis qu'il convient d'anticiper. La gestion des coûts représente un enjeu important. Sans mécanismes de contrôle appropriés, des requêtes mal optimisées ou des entrepôts de données surdimensionnés peuvent entraîner des surcoûts en lieu et place des économies escomptées. Il est donc essentiel de mettre en place un monitoring rigoureux et d'éduquer les utilisateurs aux bonnes pratiques d'optimisation.

L'évolution vers Snowflake requiert également de nouvelles compétences. Si le SQL reste le langage principal d'interaction, l'architecture cloud et les spécificités de la plateforme nécessitent une formation adaptée des équipes techniques. Cette montée en compétence doit être planifiée et budgétée dans le cadre du projet global.

La gouvernance des données constitue un autre défi majeur, particulièrement dans le secteur pharmaceutique. Il ne s'agit pas seulement de sécuriser les accès, mais aussi de définir des politiques de qualité, de classification et de cycle de vie des données. Cette dimension organisationnelle est souvent plus complexe à gérer que les aspects purement techniques.

Enfin, la migration des processus existants vers une nouvelle plateforme implique une adaptation des workflows analytiques et de reporting. Des processus parfois établis depuis des années doivent être repensés pour tirer pleinement parti des capacités de la plateforme, ce qui peut susciter des résistances au changement qu'il convient d'accompagner avec pédagogie.

Au final

Snowflake fournit des possibilités intéressantes pour l'exploitation des données à grande échelle dans l'industrie pharmaceutique. La séparation du stockage et du calcul, la sécurité de niveau entreprise et la facilitation de la collaboration répondent précisément aux défis spécifiques du secteur.

La transition vers une plateforme comme Snowflake n'est pas qu'une question technologique, c'est une transformation de la façon dont l'organisation perçoit, valorise et exploite ses données. Pour les entreprises pharmaceutiques qui souhaitent rester compétitives dans un environnement de plus en plus data-driven, cet outil représente un véritable accélérateur d'innovation. Il permet de transformer la montagne de données disponibles en insights actionnables, accélérant ainsi la découverte scientifique, optimisant les opérations.

Retour en haut ↑