Data scientist, data analyst et data engineer sont des métiers qui prêtent parfois à confusion. Ces postes sont centrés sur l’exploitation des données relatives aux clients (CRM), aux prospects et aux employés. Tous les trois sont, d’ailleurs, rattachés à la Direction des systèmes d’Information (DSI) et ont pour rôle de gérer et d’analyser des données massives d’une entreprise, appelées par les professionnels du domaine « Big data ».

Ils sont des spécialistes en traitement de données, en statistiques, en programmation informatique, bref tout ce qui se rapporte aux chiffres et consorts. Ils collaborent côte à côte pour former une sorte de travail à la chaîne. Pour dire, en effet, que le travail de l’un est indispensable à l’autre. Qu’en est-il exactement de ces experts de la data science et qu’est-ce qui en fait la différence ?

Qu’est-ce qu’un Data engineer ?

Le data engineer est un technicien spécialisé en développement de logiciel. Il a pour mission principale de concevoir des systèmes de Big data, des plateformes ou entrepôts de données pour faciliter leur traitement. Il développe ainsi la structure qui entoure l’exploitation de ces dernières. Il se charge donc du stockage des données via des outils performants tels que les bases de données NoSQL. Doté d’une forte expertise en SQL et en langages de base de données, il est en mesure de créer des pipelines de données fiables qui aident les entreprises dans la gestion opérationnelle de leur data pour ainsi assurer leur qualité et leur conformité.

Pour faire simple, il prépare les données collectées, c’est-à-dire qu’il trie les données brutes issues de différents canaux afin d’en exclure celles qui font défaut. Après transformation de ces dernières, il en résulte des données propres et valides qui seront par la suite envoyées au scientifique des données pour être appliquées en machine learning. Le traitement de ces big data passe soit par Hadoop, Spark ou MapReduce. Ainsi, on peut dire que son travail entre dans la phase préparatoire du traitement de données, tout au début de la chaîne.

Il peut être formé par une école d’ingénieur, d’informatique ou une école spécialisée comme Data ScienceTech Institute. Les compétences requises et les outils à maîtriser pour le data engineer sont : les techniques Pig, Hive, SQL, NoSQL, Hadoop, Data Lake, Big Data, Spark, Software Engineering, MapReduce,

Qu’est-ce qu’un Data scientist ?

Le data scientist, communément appelé scientifique des données, est la personne chargée de concevoir le processus de modélisation de données, de créer des algorithmes ainsi que des modèles prédictifs. Son travail tourne autour de la conception d’outils, de systèmes d’automatisation et de cadres de données. Ainsi, il est chargé de déterminer les méthodes pour collecter et analyser les données qui seront ensuite traitées par le data analyst.

Le data scientist est un maillon clé spécialisé en langages de programmation qui a pour rôle de nettoyer les données via des logiciels comme R ou Python. Il consacre donc la majeure partie de son temps à scruter des données, à explorer ces dernières à l’aide d’API, mais aussi à extraire des data à partir de sources données. Par ailleurs, il se charge de les transformer pour en construire des pipelines ETL. Il intervient également dans le développement des infrastructures de mégadonnées moyennant Hadoop et Spark ainsi que des outils performants tels que Pig et Hive. Pour l’analyse et la manipulation des données, il utilise Java et le machine learning.

Contrairement au data analyst, qui travaille sur des éléments spécifiques aux activités d’une entreprise. Le data scientist, lui, travaille sur des données émanant de plusieurs sources différentes pour ensuite les croiser. Il dispose d’une triple compétence : il est doué non seulement en statistiques, mais également en informatique et en marketing.

Qu’est-ce qu’un Data analyst ?

En fin de chaîne se trouve le data analyst ou analyste de données. Il a pour mission de collecter les données déjà traitées et classées dans les centres de données (Data Lake ou data Warehouse) et de les trier selon leur pertinence. C’est après qu’il va effectuer une analyse approfondie de ces dernières qui vont être interprétées sous forme de visuels graphiques (camembert, histogrammes, diagrammes à barre, etc.). De là, il pourra en faire un rapport détaillé montrant des statistiques ainsi que des indicateurs de performance (KPIs) qui serviront pour l’amélioration de l’entreprise.

Les analystes travaillent sur des connaissances historiques menant quelquefois à des mêmes résultats, tandis que les scientifiques, eux, travaillent sur des connaissances prophétiques dans le sens que l’analyse de ces données aide l’entreprise à envisager les perspectives d’avenir face à telle ou telle décision.

Pour faire court, l’objectif principal du data analyst est donc d’optimiser des scénarios susceptibles d’améliorer la production de l’entreprise. Ainsi, en fonction de l’analyse des indicateurs fournis par le data scientist, il sera en mesure de définir comment l’entreprise devrait fonctionner. En termes de compétences, il doit savoir utiliser les logiciels R, Python, SQL, SAS, SAS Miner.

Qu’est-ce qui diffère ces trois métiers de la data science exactement ?

Il y a en réalité une forte ressemblance entre le métier de data engineer, de data analyst et de data scientist. La différence repose sur les types de données à traiter, le processus d’analyse à effectuer, les résultats attendus et les objectifs des procédés. L’ingénieur de données est l’« architecte » des big data de l’entreprise, il traite des données brutes, assure l’exactitude de ces dernières et procède à une veille technologique. Le data scientist est, quant à lui, le « bâtisseur » du plan « architecte ». Il analyse et gère les données issues des travaux du data engineer, dont les résultats obtenus seront pris en compte dans le processus décisionnel et pour résoudre les problèmes de l’entreprise. Le dernier et non le moindre, le data analyst, cet expert en mathématiques et en statistiques se charge de définir la stratégie data driven, crée et maintient les bases de données de l’entreprise. Ces trois forment un tout indissociable pour une amélioration continue des performances de l’entreprise.

Loïc Frissard

Passionné par le web et l’entrepreneuriat, j’ai fondé Digitiz en 2016. Mon objectif est de vous transmettre mon expérience et de pouvoir vous faire gagner du temps dans le choix de vos outils.

Pin It on Pinterest

Share This