La Data Science expliquée à ma grand-mère (4/5) : Les risques et les limites

RGPD, data quality, syndrome de la boîte noire… Si la Data Science présente sur le papier des bénéfices particulièrement séduisants pour le marketing digital, elle comporte aussi de nombreux risques et limites juridiques, éthiques et techniques.

 

On espère tout d’abord que vous avez passé un bel été et que vous avez profité de vacances reposantes loin des écrans !

Nous reprenons notre série sur “la data science expliquée à ma grand-mère” sur les risques et limites de la Data Science.
Dans notre dernier article sur le cycle de vie d’un projet, nous avions abordé les risques à appréhender dans le cadre d’un projet de Data Science et la nécessité d’adopter une démarche itérative et agile.
Nous ne reviendrons pas sur les contraintes organisationnelles (pertinence des hypothèses de départ, données en silo…) mais souhaitons nous arrêter aujourd’hui sur les contraintes juridiques et technologiques qui jalonnent tout projet de Data Science

 

Le RGPD peut restreindre la collecte des données et alourdir les processus

En Chine, le gouvernement distribue aux citoyens les bons et les mauvais points sur la base des informations collectées sur les réseaux sociaux et via les caméras de surveillance. Les citoyens “mal notés” peuvent ainsi voir leur accès aux transports publics restreint !
Aux Etats-Unis, l’aspiration de plusieurs millions de données personnelles sur Facebook a permis à la société Cambridge Analytica d’influencer l’élection de Donald Trump.
En Iran et en Egypte, les gouvernements, réprimant l’homosexualité, se sont servis de l’application de rencontres GrindR pour procéder à des interpellations.

Non, vous n’êtes pas dans le dernier épisode de Black Mirror mais bien dans la vraie vie. Des données personnelles mises entre de mauvaises mains peuvent influencer la vie, voire même la menacer.
Dans ce contexte, la protection des données personnelles revêt une absolue nécessité. En tant que citoyen européen, nous ne pouvons donc que nous féliciter de l’instauration du RGPD

Du point de vue des annonceurs, le RGPD peut néanmoins être perçu comme une nouvelle contrainte réglementaire :

  • Le recueil du consentement est désormais nécessaire pour exploiter toute donnée personnelle ;
  • La transparence sur la finalité des traitements est renforcée ;
  • Les procédures de sécurité sont désormais plus drastiques ;
  • Les processus de traitement doivent être formalisés au sein d’un registre.

Mais selon nous, le RGPD constitue aussi une véritable opportunité pour la réussite d’un projet Data Science : 

  • Il peut faciliter le recensement des différents gisements de données ; 
  • Il peut sensibiliser les différents strates d’une organisation sur l’importance de constituer un capital data ;
  • Il peut améliorer la qualité de la donnée nécessaire au bon fonctionnement des algorithmes.

A lire aussi

La qualité des données (ou data quality)

La qualité des données, justement. Pour fonctionner, les algorithmes ont besoin de données de qualité et en quantité. Or, l’ambition des projets Data Science se heurte souvent à la réalité de la qualité des données existantes :

  • Les bases de données CRM sont constituées de milliers de contacts obsolètes.
  • Les données renseignées par des humains peuvent générer des erreurs de saisies.
  • Les triggers (par exemple le remplissage d’un formulaire) peuvent avoir un historique insuffisant pour nourrir les algorithmes.
  • Les données Analytics peuvent de plus en plus souffrir de biais liés aux évolutions techniques des navigateurs comme nous l’avions exposé dans notre billet « Faut-il s’inquiéter pour l’avenir de l’Analytics ? »
  • Les mises en production d’une nouvelle fonctionnalité ou d’un nouveau site peut faire sauter les tag de collecte.

Sans données propres, les algorithmes ne peuvent pas fonctionner ou pire, produisent des actions marketing inefficaces. C’est là qu’intervient le data quality management qui désigne l’ensemble des activités visant à contrôler la qualité, la cohérence et la pertinence de la donnée tout au long de son cycle de vie :

  • La phase de fiabilisation et de normalisation de données est une étape cruciale, sans doute la plus chronophage mais aussi la moins excitante de projet Data Science. Nous avions détaillé dans notre dernier billet sur le cycle de vie d’un projet Data Science l’ensemble des actions de préparation des données.
  • Le contrôle de la cohérence de données soit réalisé de façon inopinée ou suite à un événement technique important (mise en production d’une nouvelle fonctionnalité, refonte d’un site…) qui pourrait menacer l’intégrité des données.
  • Le déploiement des actions préventives telles que la formation des contributeurs, l’automatisation des processus et la mise en place des alertes.
  • La tenue d’un reporting afin de piloter l’efficacité des actions de data quality

Même les processus de data quality les plus rigoureux ne pourront pas empêcher d’avoir des trous dans la raquette vu les volumes de données collectées et les sources hétérogènes. Voilà pourquoi nous recommandons d’adopter une approche frugale qui consiste à collecter mieux plutôt que de collecter plus en se focalisant sur les données réellement actionnables. En réduisant le nombre de sources de données et le triggers, on réduit mécaniquement les erreurs potentielles. On revient alors à l’importance fondamentale des réflexions amont qui visent à comprendre les besoins et à définir les cas d’usage selon les objectifs et problématiques des utilisateurs.

L’éthique et le syndrome de la boîte noire

Avec l’intelligence artificielle, il n’est pas toujours possible de justifier une décision prise par un ordinateur. Des données en entrée, des données en sortie et au milieu des algorithmes dont on comprend mal le fonctionnement. C’est ce que l’on appelle le syndrome de la boîte noire qui pose de nombreux problèmes éthiques. 
Sur des sujets sensibles (par exemple, l’attribution d’un prêt), il est impossible que des décisions soient prises sans explications. 
Les algorithmes pourraient alors accentuer des discriminations qui sont déjà un fléau de nos sociétés modernes. 

Conscient du problème, le RGPD rappelle dans son article 22 les notions éthiques fondamentales autour de la donnée et des libertés individuelles : « aucune décision administrative ou privée impliquant une appréciation sur un comportement humain ne peut avoir pour seul fondement un traitement automatisé d’informations donnant une définition du profil ou de la personnalité de l’intéressé ». De plus, « toute personne a le droit de connaître et de contester les informations et les raisonnements utilisés dans les traitements automatisés dont les résultats lui sont opposés »

Le rapport 2018 sur l’intelligence artificielle porté par Cédric Villani, proposait trois pistes de réflexion : « la production de modèles plus explicables bien sûr, mais aussi la production d’interfaces utilisateurs plus intelligibles et la compréhension des mécanismes cognitifs à l’œuvre pour produire une explication satisfaisante ».

A l’opposé, certains pontes de l’IA trouve ce problème futile.
Yann LeCun, directeur scientifique de la recherche en intelligence artificielle de Facebook s’exprimait ainsi dans une interview au Harvard Business Review en décembre 2018 : “Je ne trouve pas cette inquiétude pertinente. Quand nous prenons un taxi, nous ne comprenons pas très bien comment fonctionne le chauffeur de taxi. Nous n’avons d’ailleurs qu’une compréhension limitée du fonctionnement du cerveau humain. Pourquoi avons-nous confiance ? Parce que le chauffeur de taxi a été testé : il a passé son examen, il a plusieurs années d’expérience. (…). Les gens vous regardent droit dans les yeux et vous disent qu’ils ont vraiment besoin d’explications, mais ce n’est pas vrai. Ce qu’ils veulent, c’est être rassurés. Le fonctionnement interne n’a pas d’importance si la personne, l’objet ou l’artefact a été testé. Autrement dit, la machine peut être opaque si le protocole de test, lui, est transparent.”

Besoin d'un expert Analytics ?

Ces articles peuvent vous intéresser

  • Data

Les principales alternatives à Google Analytics conformes au RGPD et validées par la CNIL

  • Data

Expressions régulières (ou RegEx) : définition, cas d'usages et exemples