Data Minimisation : collecter moins, recueillir le juste nécessaire

Les entreprises sont aujourd’hui confrontées à un paradoxe : elles collectent toujours plus de données mais ne les exploitent pas forcément beaucoup mieux. Selon une étude Forrester & Dell datant du mois d’août 2021, la surcharge de données et l’incapacité à les analyser s’imposent comme le 3ème obstacle majeur à la transformation digitale dans le monde (et le 2ème en France) .
En focalisant sa stratégie de recueil de données sur le juste nécessaire, la Data Minimisation est une approche qui peut répondre à cette problématique. Elle a également de nombreuses vertus aux niveaux stratégiques, financiers et écologiques.

Qu’est-ce que le principe de Data Minimisation ?

Un principe réglementaire du RGPD

Le principe de minimisation est un des concepts-clés du Règlement Général sur la Protection des Données (RGPD) introduit dans  l’article 5.1 du chapitre 2 : “Les données à caractère personnel doivent être…. adéquates, pertinentes et limitées à ce qui est nécessaire au regard des finalités pour lesquelles elles sont traitées (minimisation des données).“  Ainsi, un formulaire en ligne dédié au téléchargement d’un livre blanc ne devrait pas rendre obligatoire un champ “numéro de téléphone” car cette donnée personnelle n’est pas strictement nécessaire au regard de la finalité de traitement. Dans ce cas précis, une adresse mail suffit pour récupérer le document.

Une philosophie globale qui recherche le Juste Nécessaire

Par ailleurs, nous considérons que le principe de minimisation ne doit pas être perçu uniquement comme une contrainte juridique mais comme une philosophie qui doit animer la politique de gouvernance de la donnée d’une organisation.
La Data Minimisation est donc selon nous une démarche de frugalité et de sobriété numérique qui vise à limiter dans le temps la collecte et le stockage des données au “Juste Nécessaire”. 

La question est maintenant de savoir ce qu’est le “Juste Nécessaire” ? 

On trouve dans la philosophie du Lean Management une vision particulièrement pertinente du “Juste Nécessaire”. Selon Christian Hohmann, le Lean Management est “un système visant à générer la valeur ajoutée maximale, à moindre coût et au plus vite, ceci en employant les ressources justes nécessaires pour fournir au client ce qui fait de la valeur à leurs yeux.“  Le Lean Management a notamment comme objectif majeur d’éliminer toute forme de gaspillage : les fameux mudas (“gâchis” en japonais). 

Or, l’industrie de la donnée ne semble pas aujourd’hui s’inscrire dans une démarche d’éradication du gaspillage. Selon une étude de l’entreprise de logiciel californienne Veritas datant de 2016, 85 % des données collectées et stockées ne sont pas traitées ! Ces données qui ne sont pas exploitées à des fins analytiques sont ces fameuses dark data. Encouragées par la démocratisation des technologies Big Data et des infrastructures Cloud, les entreprises emmagasinent un volume gigantesque de données en se disant “on collecte et on verra bien ensuite ce qu’on en fait”. Et dans 85 % des cas, ils n’en font rien.
Dans ce modèle, la quantité l’emporte sur la qualité des données.

Pour une écologie de la donnée

Dans une tribune libre très intéressante, Mathieu Llorens, directeur général d’AT Internet (éditeur de solutions de Digital Analytics) milite pour une écologie de la donnée et compare cette tendance d’obésité de la donnée aux dérives de l’industrie agroalimentaire : “Cette surproduction et surexploitation de la donnée est doublement problématique. Elle finit par nuire à la prise de décision, tout en cassant la relation de confiance avec les internautes.”

Quels sont les bénéfices d’une démarche de Data Minimisation ?

Schéma-DM-3

Les bénéfices d’une démarche de Data Minimisation

Respect du RGPD

Il s‘agit du premier bénéfice évident puisque, comme expliqué précédemment, le principe de minimisation est inscrit au cœur du RGPD.

Outre les formulaires en ligne, la Data Minimisation s’applique également aux outils analytics qui peuvent prétendre à l’exemption du recueil du consentement si les cookies utilisés ont une finalité de traitement strictement limitée à la mesure d’audience. C’est notamment le cas de la solution AT Internet

En d’autres termes, une solution analytics qui récolte des données pour d’autres finalités (par exemple, la publicité ou le marketing automation) devra nécessairement obtenir un recueil de consentement préalable de la part de l’utilisateur.
L’obtention de cette exemption est un atout certain pour son pilotage analytics quand on sait qu’une solution non exemptée peut être amputée de 10 à 30% de ses données.

Facilité et démocratisation des analyses

Néanmoins, il est tout à fait possible de respecter les règles du RGPD et pour autant ne pas s’inscrire dans une démarche de frugalité de collecte des données. Par exemple, le tracking de multiples interactions sur un site (ex : clic sur des liens, scroll de souris…) est tout à fait légal si l’on recueille préalablement le consentement mais il peut générer un volume gigantesque de données inutiles.

Dans le cadre d’un projet Analytics, la réduction du nombre d’indicateurs suivis pourrait grandement faciliter les analyses en :

  • Focalisant l’attention sur les KPIs les plus importants et véritablement alignés sur la stratégie de l’entreprise.
  • Allégeant les tableaux de bord. Qui va prendre le temps de consulter quotidiennement un reporting de plusieurs pages ?
  • Accélérant les temps de traitement et donc les délais d’affichage des rapports au sein des outils (analytics, dataviz, etc). 
  • Détectant plus rapidement une anomalie dans l’évolution de la performance d’un indicateur.

Cette sobriété pourra ainsi jouer un rôle d’accélérateur dans l’instauration d’une politique de data démocratisation qui vise à généraliser l’accès à la donnée au sein d’une organisation. 

Qualité des données

Une des principales raisons d’une faible culture data driven au sein d’une organisation est une confiance limitée dans la fiabilité des données. 

Or, selon une étude d’Harvard Business Review datant de 2017, seulement 3 % des données collectées par une entreprise répondent aux standards de qualité !

La non-qualité peut avoir de nombreuses conséquences sur le fonctionnement d’une entreprise : d’une simple perte de temps à une mauvaise décision impactant directement le chiffre d’affaires ! 

Et, mécaniquement, plus les données sont volumineuses et hétérogènes, plus les risques de non-qualité sont importants. 

Réduction de l’empreinte écologique

La collecte et le stockage des données ont un coût écologique colossal

D’ici 2030, les data centers du monde entier pourraient engloutir 10 % de la production mondiale d’électricité contre 3 % (déjà) à l’heure actuelle. Et, d’ici 2040, le stockage de données pourrait représenter 14 % des émissions de la planète, soit une part comparable aux rejets actuels des États-Unis.

Les pratiques de Data Minimisation peuvent ainsi optimiser les ressources énergétiques en identifiant et en éliminant les données non exploitées.

Economie financière

La mise en œuvre d’une stratégie de Data Minimisation peut s’avérer enfin intéressante au niveau financier :

 

  • Réduction du risque d’amende lié au RGPD : pour rappel, les sanctions peuvent aller jusqu’à 4 % du chiffre d’affaires mondial d’une entreprise en cas de violation de la législation ; 
  • Coûts d’infrastructures : si les coûts de stockage de la donnée sont de plus en plus faibles, les autres coûts d’exploitation de la donnée (traitement, visualisation, maintenance…) peuvent vite exploser. 
  • Gain de temps : le temps, c’est de l’argent et une démarche de Data Minimisation doit normalement vous en faire gagner en accélérant l’accès à l’information et en simplifiant son analyse ;
  • Pilotage stratégique : avec des données plus fiables, une entreprise prendra de meilleures décisions stratégiques qui devraient impacter positivement son chiffre d’affaires et sa rentabilité ! 

Comment mettre en place une démarche de Data Minimisation ?

Par définition, une démarche de Data Minimisation concerne tout projet data : implémentation d’une solution de marketing automation, campagnes d’A/B Testing ou de personnalisation, mise en place d’une Customer Data Platform (CDP)…

Son application dans le cadre du déploiement d’une solution analytics nous semble être un bon exemple de méthodologie à adopter.

Les 5 étapes d’une démarche de Data Minimisation

Etape 1 : Formaliser les cas d’usage à partir des besoins utilisateurs

Le Web Analytics consiste à mesurer et collecter des données issues des visiteurs d’un site (ou d’une application mobile) puis à les analyser et  les exploiter pour améliorer les performances de son dispositif digital (contenus, ergonomie, contenus, etc).

La finalité d’un projet analytics se situe bien dans la deuxième partie de cette définition, à savoir “améliorer les performances de son dispositif digital” et non dans la première, pour “collecter des données”. Sa réussite dépend donc de sa capacité à fournir des insights fiables venant nourrir les prises de décision des différentes parties prenantes d’un projet digital : direction générale, direction marketing, équipes opérationnelles et partenaires externes. 

Dans ce contexte, la phase de recueil des besoins est primordiale pour définir une stratégie Analytics qui colle au plus près à une organisation décisionnelle qui, par définition, est propre à chaque entreprise. 

L’identification de ces cas d’usage analytics doit être réalisée en faisant abstraction des dimensions techniques et en étant focalisée sur le  Juste Nécessaire des données à collecter pour répondre aux principales problématiques décisionnelles. 

Les cas d’usage peuvent être techniques, marketing, éditoriaux ou stratégiques et doivent impérativement être formalisés d’une façon très précise.

Voici quelques exemples :

  • Communiquer les performances du site web en interne ;
  • Évaluer l’impact des contenus d’un blog sur les ventes d’un site web ;
  • Détecter les anomalies de performance et déployer les actions correctives ;
  • Mesurer la rentabilité des campagnes payantes sur la génération de leads ;
  • Optimiser la performance d’un moteur de recherche interne ;
  • Etc.

Cette démarche orientée utilisateurs semble évidente mais l’écueil souvent constaté sur un projet analytics est de se focaliser sur le tracking des comportements utilisateurs (clics, scroll, etc) en négligeant les bénéfices attendus en termes de pilotage digital. Cette approche peut générer un important gâchis et détourner l’attention des indicateurs véritablement actionnables. 

Etape 2 : Identifier les sources de données et KPIs permettant de répondre aux cas d’usage

Une fois les cas d’usage formalisés, l’enjeu consiste à identifier les sources de données (analytics, emailing, ERP, CRM, CMS, réseaux sociaux, outils métiers…) et les indicateurs clés de performance (KPIs) correspondants.

Si on prend le cas d’usage « Évaluer l’impact des contenus rédigés”, voici dans le tableau ci-dessous des exemples de sources de données et de KPIs qui pourraient répondre à cette analyse. 

Source de données KPIs
CMS Volume de contenus disponibles
Outil Analytics (Google Analytics, AT Internet, etc) Sessions
Outil Analytics (Google Analytics, AT Internet, etc) Taux de rebond
Outil d’emailing Taux de clics
Google Search Console Position moyenne SEO

Etape 3 : Hiérarchiser les KPIs selon leur impact sur les cas d’usage

L’étape précédente peut aboutir à une liste très importante de KPIs. Leur hiérarchisation est donc cruciale pour éviter une surabondance de données inutiles collectées. Une matrice peut alors être employée afin de noter chaque KPI selon plusieurs critères :

  • Impact direct sur le cas d’usage : les deux indicateurs qui influent directement sur le chiffre d’affaires d’un site sont le nombre de commandes et le panier moyen, eux-mêmes influencés par d’autres indicateurs, etc. La représentation visuelle des flux influençant la performance comme nous l’avions fait via un arbre de décision pour l’analyse du taux de rebond peut ainsi s’avérer utile pour établir un premier niveau de priorisation.
  • Actionnabilité : un indicateur suivi qui ne permet pas de passer à l’action n’a aucune valeur. Inutile de polluer ses rapports avec ce type de KPI.
  • Disponibilité et qualité des données : c’est à cette étape que l’on peut commencer à mettre les mains dans le cambouis. Les KPIs convoités sont-ils disponibles ? Sont-ils fiables à l’instant T ? L’historique révèle-t-il des évolutions anormales ? Autant de questions fondamentales permettant de mesurer la qualité de la donnée collectée.
  • Coût du déploiement d’actions correctives : l’évaluation des coûts techniques (tracking d’un nouvel indicateur, correctif sur un indicateur existant) est forcément un critère de décision important. La question de la capacité à maintenir la qualité de la donnée dans le temps doit également être abordée à ce stade.

Étape 4 : Concevoir les outils de visualisation de la donnée

La représentation visuelle des informations est un élément-clé de l’appropriation de la donnée par les différents utilisateurs. 

Comme toute interface, un tableau de bord doit être épuré, agréable à consulter et intuitif. Dans le cas contraire, il sera très rapidement abandonné. 

Voilà pourquoi nous recommandons de placer les utilisateurs en situation en concevant les futurs outils qu’ils vont exploiter au quotidien. La conception peut se faire directement dans un outil de data-visualisation comme Google Data Studio, avec des données fake, ou via un outil de prototypage. 

Exemple de maquette de tableau de bord conçu directement dans Google Data Studio

Étape 5 : Déployer les actions techniques de collecte

Ce n’est donc qu’à cette étape que le travail purement technique intervient (rédaction des spécifications fonctionnelles, configuration des outils, recette, etc). 

Normalement, la réalisation des étapes en amont devrait faire gagner un temps important sur cette phase de travail en se concentrant sur le “Juste Nécessaire” des KPIs à collecter. 

Conclusion

Une politique de Data Minimisation aura des répercussions positives sur votre empreinte carbone et sur le RGPD, des sujets très RSE. Mais la Data Minimisation s’inscrit aussi complètement dans une logique pure business en simplifiant les processus de collecte et en fiabilisant la prise de décisions.

Alors, pourquoi s’en passer ? 

Envie d’appliquer la Data Minimisation à votre organisation ?

Ces articles peuvent vous intéresser

  • Data

Les principales alternatives à Google Analytics conformes au RGPD et validées par la CNIL

  • Data

Expressions régulières (ou RegEx) : définition, cas d'usages et exemples