La Data Science expliquée à ma grand-mère (1/5) : Définition & Principes

Nous inaugurons aujourd’hui une série de 5 articles sur la Data Science pour vous aider à comprendre ce qui se cache derrière cette discipline, ses bénéfices, son cycle de vie mais aussi ses limites et risques. Nous clôturerons cette série par notre vision et l’application concrète de la Data Science chez Empirik. Bonne lecture !

Préambule

Data Science, Machine Learning, Big Data, IA / AI,  Data Analytics, Business Intelligence, si vous vous intéressez au web-marketing, le jargon n’a pas pu vous échapper. Du blogueur spécialisé au média mainstream, chacun y va de son avis plus ou moins éclairé. La profusion et la complexité des sujets a même pu vous rebuter ou vous effrayer, sans parler de la myriade d’applications évoquées.

Chez Empirik, nous croyons que la vulgarisation n’est pas un gros mot et qu’il est nécessaire de porter à la connaissance du plus grand nombre une définition simple des techniques d’analyse de données les plus avancées du moment.

Les premières innovations sont en fait déjà entre vos mains depuis quelques temps, désormais. Votre smartphone intègre déjà du machine learning pour vous suggérer le restaurant le plus à même de vous plaire, le dernier film que vous rêvez de voir, cette nouvelle série que vous ne pouvez pas rater…

Un exemple : Spotify est capable d’analyser en temps réel vos flux musicaux, les coupler à d’autres données, pour déduire ou prédire votre humeur actuelle. Cette information servira à vous recommander un morceau s’accordant à vos goûts et à votre état d’esprit. Mais cette information est également monétisable (et de fait monétisée dès votre clic sur ‘Play’) pour être exploitée par des tiers à des fins publicitaires, par exemple. Vous êtes plus susceptible d’être ciblé par une assurance obsèque si vous venez d’écouter l’intégrale de Michel Sardou plutôt que celle de Jul.

Les applications peuvent être beaucoup plus variées, depuis la prédiction du comportement des utilisateurs d’un site web, l’analyse de tendances, la prédiction de la météo, jusqu’à la santé (classification d’affection bénigne ou maligne, par exemple), le sport (analyse des performances individuelles) et bien sûr l’industrie (maintenance prédictive, réduction des risques, des coûts). Nous aborderons les applications au web-marketing dès le prochain article de cette série.

Nous allons tenter ici un exercice de vulgarisation sur un sujet vaste et complexe, mais avant cela, un peu d’histoire.

Les applications de ces méthodes scientifiques, dont certaines théories existent depuis les années 30, étaient restreintes par le manque de données, lié à la capacité mémoire disponible, et par les limites des machines en terme de puissance et temps de calcul.
L’explosion depuis la fin des années 2000 de cette puissance disponible (avec notamment les progrès sur les calculs en virgule flottante apportés par les cartes graphiques de nos amis gamers) associée à la baisse des coûts de stockage de données a permis l’application concrète de ces théories dormantes. Les données devenant dans le même temps accessibles massivement à distance, l’accélération a été fulgurante.

Un algorithme qui nécessitait un building haut comme la Tour Eiffel pour le stockage et 100 ans de calculs non-stop en 1970 est désormais exécuté en 2 heures par votre smartphone chinois, sa carte SD et sa connexion 4G au cloud de la startup nation.

Ainsi commence l’ère de la Data pour tous.

Définition de la Data Science

Commençons par démystifier tous ces termes : au risque de faire hurler les puristes, Data Science, Big Data et Data Mining ne sont finalement qu’un seul et même concept. Ces champs utilisent des méthodes scientifiques similaires : la Big Data se concentre sur les ensembles massifs de données ( les 3 V : Volume / Variété / Vélocité des données), le Data Mining cherche à analyser automatiquement ces données, le Machine Learning est un ensemble de méthodes permettant, entre autres, cette analyse, etc…

Principes

La Data Science est avant tout une approche multi-disciplinaire à l’intersection des mathématiques, statistiques, de l’analyse de données, de la théorie de l’information et de la programmation informatique qui a pour but d’extraire des connaissances à partir de données. L’utilisation de l’outil informatique permettant d’accéder à des connaissances inaccessibles à l’humain seul.

Le terme science est employé en référence à la création et l’utilisation historique de ces méthodes par la recherche fondamentale en mathématiques et informatique. L’idée d’origine de la méthode scientifique est de formaliser un process d’observation de la nature (ou les données) par le cycle Observation / Hypothèse / Expérimentation / Analyse des résultats / Observation…
L’un des points étant également de formaliser les expériences, donc les algorithmes et les données qu’ils manipulent, pour faciliter la réplication des expérimentations et la comparaison des résultats.

L’objectif du data scientist est toujours la modélisation d’un système, avec les motivations principales suivantes : automatisation, contrôle des risques/erreurs, prédiction, classification.

Par modélisation, on entend la représentation mathématique d’un phénomène, c’est à dire la création une relation mathématique entre des valeurs mesurées en relation avec le phénomène.
Par exemple, si vous étudiez le trafic quotidien sur votre site web, vous disposez de nombreux indicateurs fournis par vos outils. Le modèle va tenter d’établir une relation mathématique entre ces indicateurs pour vous permettre de prédire le trafic futur.

Un modèle accepte en entrée (inputs) un ensemble de données observées, typiquement vos indicateurs préférés.
Il produit en sortie une réponse désirée (output) qui peut être comparée à une valeur attendue (apprentissage), ou qui est utilisée pour prédire le comportement du phénomène (inférence).

Dans le cadre de la modélisation statistique, la relation mathématique définie entre les variables décrit certaines propriétés statistiques d’un échantillon de données. L’idée étant que l’hypothèse confirmée par l’échantillon puisse se généraliser à la population.
Par exemple, vous avez créé un modèle se basant sur les 3 dernières années de données Analytics. Vous espérez que les conclusions pourront se généraliser aux jours à venir.

Méthode

Le data scientist va donc identifier les données d’intérêt, les normer, mettre en place des systèmes de récolte, stockage et agrégation de données (ETL, APIs, data warehouses/ data lakes, etc.). Sur les projets de grande envergure, ces tâches sont dévolues à des spécialistes de l’infrastructure et de l’architecture des données (data engineers)
Le data scientist va enfin envisager les méthodes d’analyse puis préparer les données avant l’application des algorithmes.
Il peut également être épaulé à ce niveau par des ingénieurs spécialisés dans l’optimisation des algorithmes, notamment par leur parallélisation sur plusieurs machines pour en accélérer l’exécution.

La boîte à outil du data scientist va couvrir un spectre s’étendant des statistiques descriptives standards (oui, même la moyenne et l’écart-type…) jusqu’aux méthodes les plus avancées (apprentissage automatique, réseaux de neurones artificiels, inférence bayésienne, arbres de décision…) en passant par la visualisation de données.

Il a donc à minima des connaissances en mathématiques, statistiques, développement, informatique fondamentale, manipulation de données, et en visualisation.

Le data scientist est également un data analyst, la plupart du temps. Au delà de la boîte à outil de méthodes où il pioche selon les problèmes à résoudre, il est capable d’en analyser les résultats, d’extraire des patterns en vue de prédictions futures, de sélectionner les variables d’intérêt (features) et de tirer des informations depuis les sources de données à sa disposition.

Un bon data scientist n’est pas celui qui maîtrise parfaitement l’intégralité des méthodes, algorithmes et théories possibles, mais bel et bien celui qui les connaît assez pour choisir la méthode la plus à même de résoudre le problème avec les données dont il dispose.

Passer en revue l’intégralité des méthodes accessibles à un data scientist est impossible, mais nous allons nous concentrer sur les deux stars de ces dernières années, machine learning et deep learning.

Définition du Machine Learning / Data Mining

Les deux champs sont parfois présentés en opposition. Ils sont cependant liés et utilisent fréquemment les mêmes méthodes mathématiques. Leur approche est sensiblement différente :

  • Le machine learning tend à utiliser des données de la vie réelle (appelées données d’entraînement) pour évaluer la performance des modèles. Ainsi on compare la réponse de l’algorithme à la valeur observée réellement pour évaluer l’erreur et améliorer l’apprentissage lors des phases suivantes  (paramétrage du modèle).
  • Le data mining cherche plutôt à découvrir des patterns ou des propriétés inconnues des données, par des méthodes exploratoires, dites non-supervisées.

Dans tous les cas, l’ensemble des méthodes regroupées sous le terme Machine Learning reposent sur un processus d’apprentissage automatique, c’est à dire des modèles dont les propriétés mathématiques leur permettent de généraliser une connaissance à partir de l’observation de données. Comme vous et votre cerveau le faîtes au quotidien sans effort.

On distingue trois principaux types d’apprentissage :

  • Apprentissage supervisé
    • L’algorithme fonctionne en construisant une relation entre des entrées et des sorties déjà connues (entraînement)
    • Sa performance est ensuite évaluée sur des données dont il ne connaît pas les sorties, mais l’humain oui (calcul du taux d’erreur)
    • Si l’apprentissage est concluant, on peut présenter à l’algorithme des données dont l’humain ne connaît pas les sorties, pour la prédiction (inférence)
    • Sinon, on va paramétrer le modèle petit à petit pour obtenir de meilleurs résultats
  • Apprentissage non-supervisé
    • L’algorithme fonctionne par une analyse automatique des données sans a priori
    • Il va par exemple être dédié à la découverte de similitudes dans les données pour en tirer des regroupements (clusterisation, classification, auto-organisation)
    • Il peut aussi rechercher les variables les plus importantes (explicatives) des données (réduction de dimension, composantes principales, feature extraction)
  • Apprentissage par renforcement
    • Ce champ est plus général et le renforcement peut potentiellement être appliqué aux deux types d’apprentissage précédent
    • L’idée se s’inspire notamment de la psychologie animale et des circuits de récompense dans le cerveau (libération de substances chimiques différentes selon la réussite ou non d’une action)
    • Ici l’algorithme va recevoir une récompense (ou non) en fonction de son résultat. La méthode mathématique sous-jacente vise à produire un algorithme cherchant à maximiser les récompenses reçues (et donc son efficacité) en plus de son objectif initial de modélisation.

Les deux applications principales de l’apprentissage automatique sont la prédiction et la classification. En voici quelques exemples, loin d’être exhaustifs.

Prédiction / Régression

  • Prédire la valeur du futur panier d’un visiteur connaissant l’historique de ses achats et l’historique de tous les achats de tous les clients
  • Prédire le cours du Bitcoin dans 2 mois [insérer GIF LOL]
  • Prédire la météo

Classification

  • Associer un genre à chaque morceau dans Spotify
  • Classer une affection maligne ou bénigne, un champignon mortel ou comestible…
  • Classer des visiteurs dans la catégorie marketing de votre choix
  • Classer une image dans la catégorie chien ou chat

Définition du Deep Learning

Sous ce nom pompeux se cache en fait une catégorie particulière de machine learning, basée sur une théorie datant des années 40 et dont l’application explose ces dernières années : les réseaux de neurones artificiels.

Tirant son inspiration de l’observation du neurone biologique, la création d’un modèle mathématique de neurone remonte en effet à 1943. L’idée est finalement l’interconnexion d’un grand nombre de petites unités de calculs permettant d’obtenir une grande puissance de calcul.

Nous ne rentrerons pas dans les détails mathématiques mais les réseaux de neurones vont construire une fonction non-linéaire représentant l’association entre ses entrées et sa sortie. Les propriétés mathématiques des fonctions étudiées définissent le type de réseau de neurones, l’apprentissage et la modélisation dont il est capable. Ils sont considérés comme des approximateurs universels, ils peuvent théoriquement représenter toutes les relations possibles entre les variables.

L’organisation des neurones en de multiples couches interconnectées produit cependant un effet de bord important : la relation entre entrée et sortie apprise par le réseau est impossible à comprendre pour un humain, comme illustré ci-dessous. On se retrouve face à une boîte noire dont l’efficacité est indéniable mais parfois inexplicable.

L’efficacité des réseaux de neurones n’est cependant pas à mettre en doute. Nombre d’applications sont déjà utilisées largement avec succès dans des domaines aussi variés que la médecine (diagnostic automatique), la traduction automatique, le contrôle de véhicules,  la reconnaissance faciale, la reconnaissance de caractères écrits, et aussi en marketing (segmentation, targeting, gestion du churn…)

Définition de l’Intelligence Artificielle (IA/AI)

Termes fourre-tout, IA, AI, Intelligence artificielle sont fréquemment utilisés à mauvais escient, la recherche d’une intelligence globale et/ou consciente n’étant pas le champ de recherche le plus actif. Il reste cependant le plus vendeur pour les amateurs de science-fiction et les victimes du syndrôme de Frankenstein.

Le sujet mériterait une série complète d’articles à lui seul, mais le champ scientifique de l’intelligence artificielle vise historiquement à reproduire les capacités cognitives humaines à l’aide de machines. Deux approches co-existent :

  • simuler exactement le comportement humain (modélisation)
  • obtenir le même résultat qu’un humain par un autre moyen

En l’état, quelles que soient leur puissance et leur efficacité, la plupart des algorithmes et méthodes sont très spécialisés et bien loin des possibilités du cerveau humain. L’algorithme de recommandations musicales de Spotify sera bien incapable de conduire une voiture autonome ou de reconnaître votre visage sur une photo.

Actuellement, ces termes sont surtout utilisés pour regrouper un grande nombre d’applications des techniques abordées dans cet article : les voitures autonomes, la robotique, la reconnaissance faciale/vocale, en résumé toutes les tâches où la machine semble remplacer l’humain.

A suivre …

Vous avez aimé cet article sur la Data Science ? Consultez les autres articles de la série : 

  1. Bénéfices et cas d’usage en marketing digital
  2. Cycle de vie d’un projet

Note : les opinions, simplifications, omissions et erreurs sont entièrement assumées par leur auteur qui se fera un plaisir de répondre à vos remarques ici -> data@empirik.fr

Ces articles peuvent vous intéresser

  • Data

Les principales alternatives à Google Analytics conformes au RGPD et validées par la CNIL

  • Data

Expressions régulières (ou RegEx) : définition, cas d'usages et exemples