Chapitre 1 Les Métiers de la Data PDF
Document Details
Uploaded by Deleted User
Dr. Ing. Rihab LAAJILI
Tags
Summary
"Présentation des métiers en sciences des données." Ce chapitre introduit les concepts fondamentaux du traitement des données, avec des exemples de problématiques et la liste des techniques liées à l'analyse et la mise en place du big data.
Full Transcript
Data Processing Dr. Ing. Rihab LAAJILI 5ème GI – AU 24/25 Présentation des métiers en sciences des données 1 INTRODUCTION Ce chapitre présente la Data et de ses métiers, qui ont connu une évolution rapide au cours des...
Data Processing Dr. Ing. Rihab LAAJILI 5ème GI – AU 24/25 Présentation des métiers en sciences des données 1 INTRODUCTION Ce chapitre présente la Data et de ses métiers, qui ont connu une évolution rapide au cours des deux dernières décennies, en raison de la prolifération massive de données et de la montée en puissance du numérique. Ces deux tendances ont engendré la nécessité de développer de nouveaux outils d'analyse, tels que la datavisualisation, d'accroître les capacités de stockage et d'accès aux données grâce au big data et au cloud, ainsi que de perfectionner les techniques d'apprentissage algorithmique, notamment le Machine Learning et le Deep Learning. Dans cette partie, nous allons explorer les rôles clés liés au traitement de données et à la science des données et comprendre les différences et les similitudes entre ces métiers. 2 ANALYSE DE DONNEES : CONCEPTS ET TECHNIQUES Le tableau 1 récapitule les principales problématiques que peuvent résoudre les nombreuses méthodes d'analyse et de traitement de grandes masses de données. Il résume en quoi consistent les différentes phases possibles de traitement, du prétraitement des données à l'implémentation finale d'une règle de décision. Les données peuvent être issues de capteurs, textes, images, vidéos, sons, nuages 3D, tableaux, réseaux... Problé- Description Exemple Techniques matique Résumé de masses de données, telles Alerte grâce à la surveillance -Data Mining descriptive ou exploratoire quelles si elles sont quantitatives, sinon en temps réel de grandeurs -Représentation de données Analyse à partir de caractéristiques quantitatives clés (énergie, pics d'intensité, -Prétraitement (features) jugées pertinentes par métier...) en analysant le signal issu ou extraites des données numérisées de capteurs (Quantitatifs) Recherche dans un ensemble de données Détection d'évènement, -Reconnaissance de forme Détection ou recherche d'un évènement rare (attaque sur un d'anomalie, de nouveauté, de -Traitement d'image réseau informatique), d'un motif signaux faibles dans le -Moteur de recherche complexe à détecter (pattern, un visage comportement d'une dans une image) installation Construction et calibration, parfois hors Prédiction souvent en temps -machine learning ligne, d'une règle de décision (une réel du comportement d'un -classification prédictive Analyse fonction, un calcul) basée soit sur système, prédiction de panne -segmentation -moteur de ciblage /scoring l'expérience, via des systèmes de règles (maintenance prédictive) -moteur de numérisant le savoir-faire métier, soit recommandation sur un algorithme d'apprentissage -régression /prévision Planification de la maintenance Prescription de maintenance, -problème inverse prescriptive d'infrastructures voire aide au design de planification d'opérations de -optimisation Analyse l'architecture de systèmes optimisant maintenance (timing, -moteur de recherche performance et risque sur leur cycle de ordonnancement) vie Tableau 1 : Analyse de données : concepts et techniques 1 5ème GI AU 23/24 3 VERS DES ORGANISATIONS DATA CENTRIC Certaines entreprises adoptent de plus en plus une approche centrée sur les données, en formant des équipes spécialisées, en investissant dans des technologies dédiées, et en encourageant une culture axée sur les données à tous les niveaux de l'entreprise. Cependant, toutes les entreprises ne sont pas au même stade de maturité en matière de gestion des données, ce qui dépend en grande partie de leur secteur d'activité et de leur taille. Les industries telles que la banque, l'assurance, les télécoms., la grande distribution et les grandes entreprises manufacturières sont en avance dans cette approche, tandis que les petites entreprises peuvent être moins enclines à investir dans le big data en raison de coûts initiaux élevés. Cependant, celles qui investissent dans la gestion des données ont compris que cela peut renforcer leur compétitivité sur le marché. Ci-après des exemples non exhaustifs. 3.1 SECTEUR DU E-COMMERCE ET TRANSPORT Ces entreprises utilisent les données recueillies en ligne pour analyser et modéliser les comportements des utilisateurs et des consommateurs. Cela leur permet d'améliorer l'expérience client en offrant des recommandations et des services personnalisés. Les données sont devenues essentielles pour gérer la satisfaction client, le service après-vente, réduire les invendus et optimiser les prix en temps réel. 3.2 SECTEUR FINANCIER Dans ce secteur, les données sont employées pour repérer en temps réel des signaux de fraude, ce qui permet aux professionnels (agents bancaires, contrôleurs permanents, etc.) d'être rapidement alertés et de déclencher les procédures nécessaires sans délai. 3.3 SECTEUR SANTE Dans le domaine de la santé, les applications et les objets connectés ouvrent de nouvelles opportunités, notamment la surveillance en temps réel des patients souffrant de maladies chroniques, la prévention des risques et les systèmes d’aide à la décision. 3.4 SECTEUR ASSURANCE Dans le secteur de l'assurance, la technologie blockchain (La blockchain est une technologie permettant de stocker et de transmettre des informations de manière sécurisée et décentralisée, offrant ainsi une rapidité des transactions et des gains de productivité.) est utilisée pour réduire les coûts administratifs liés au règlement de cas simples. Par exemple, quelqu'un ayant souscrit une assurance annulation de voyage pourrait être automatiquement indemnisé dès qu'un retard ou une annulation de vol ou de train est enregistré. Cette automatisation est rendue possible grâce à la mise en relation automatique des données de toutes les parties impliquées. 3.5 SECTEUR INDUSTRIEL Dans l'industrie, l'essor des objets connectés est bénéfique. Par exemple, l'intégration de capteurs dans les équipements de production permet d'améliorer la sécurité et la maintenance sur les sites. Grâce à la collecte automatisée et à l'analyse des données, la prédiction des pannes devient courante, anticipant les problèmes avant qu'ils ne surviennent. 4 TROIS FAMILLES DE METIERS AU CŒUR DE L'UNIVERS DE LA DONNEE Les entreprises doivent rassembler un éventail de compétences diverses, incluant l'informatique, la statistique, le droit, etc., pour exploiter efficacement les données, tout en faisant face à des contraintes Dr. Ing. Rihab LAAJILI 2 5ème GI AU 23/24 technologiques grandissantes en termes de volume, variété et vitesse de traitement des données. Les activités liées aux données se divisent en trois familles de métiers interconnectées au sein des grandes entreprises, avec l'émergence des Chief Data Officers (CDO) pour coordonner ces activités. Ces professionnels jouent un rôle clé en reliant les équipes techniques et opérationnelles, et la demande d'emploi dans ces domaines a considérablement augmenté à partir de 2017, soulignant leur importance croissante sur le marché du travail. Les activités de « la data » s’organisent en 3 grandes familles de métiers : 1- Lorsqu’un besoin apparaît à un niveau opérationnel ou au niveau du pilotage de l’entreprise, l’équipe cliente se tourne vers son équipe « data » lorsque celle-ci est constituée. Formée d’architectes data et de data engineers, cette dernière assure la collecte et le stockage des données répondant à ces besoins ; les premiers préconisant et homogénéisant des solutions techniques que les seconds développent ensuite. 2- Une fois les données collectées, vient le temps du traitement et de l’analyse des données. Les données sont mises à disposition des data scientists et des data analysts qui les restructurent si besoin. Les premiers construisent alors des modèles de machine learning, qui sont ensuite industrialisés, tandis que les seconds élaborent les tableaux de bord, produisent des modèles statistiques à partir de nombreux d’indicateurs… 3- Deux autres métiers entrent également en jeu quand il s’agit d’utiliser les big data. Ils concernent la protection et la sécurité des données, et font intervenir des délégués à la protection des données (DPO - Data Protection Officer-) ou assimilés, et des spécialistes de cybersécurité. Ils vont travailler de manière transverse avec toutes les équipes utilisatrices des big data afin de s’assurer que les solutions développées sont garantes des normes de sécurité. Tous ces domaines sont souvent interdépendants dans les entreprises, principalement de grande taille, toutes les parties prenantes avançant ensemble selon les projets. Figure 1 : Cartographie des familles de métiers de la donnée 5 LA DATA : ENJEUX ET COMPETENCES RECHERCHEES PAR LES ENTREPRISES Dans la lignée de sa progression constatée l’an dernier, l’emploi IT demeure à un haut niveau, conséquence d’une augmentation de 27% de la demande en profils technologiques. Ainsi, selon l’APEC, les métiers du Big Data affichent la progression la plus forte en termes d’offres d’emploi au Dr. Ing. Rihab LAAJILI 3 5ème GI AU 23/24 1er semestre 2022 par rapport à l’an passé avec +65%. Face à cette tension, les rémunérations des métiers de la Data et de l’IA continuent de devenir de plus en plus attractives. Figure 2 : Top 5 des familles de métiers en informatique ayant la progression la plus forte par rapport au 1er semestre 2021 6 PRESENTATION DES METIERS EN SCIENCES DES DONNEES Du fait de leur relative nouveauté et peut-être de leur technicité, les métiers de la donnée ne sont pas toujours bien connus. Ce cours s’intéresse alors aux principaux grands profils des métiers de la data que sont les analystes, les métiers techniques tels que data engineers, data architects et data scientists, ainsi que les managers. Par ailleurs, il est important de préciser qu’en fonction de la taille de l’entreprise, son secteur ou son mode d’organisation, les périmètres de chaque métier Data peut différer. En effet, certains profils peuvent “cumuler” les rôles, ou au contraire, il peut exister au sein d’une organisation beaucoup d’autres rôles plus spécifiques. Ainsi, la liste suivante n’est pas exhaustive, mais plutôt un glossaire commun de toute entreprise “Data Centric”. 6.1 CHIEF DATA OFFICER (CDO) Responsable de la gestion globale des données au sein d'une organisation, garantissant la qualité, la sécurité et l'exploitation optimale des données. 6.2 EXPERT SECURITE Spécialiste de la sécurité des données, chargé de protéger les informations sensibles contre les menaces et les cyberattaques. 6.3 DATA PROTECTION OFFICER (DPO) Professionnel en charge de veiller à la conformité des pratiques de gestion des données avec les réglementations sur la protection de la vie privée. 6.4 ARCHITECTE BIG DATA Conservateur de l'infrastructure et de l'architecture des systèmes de gestion de données massives (Big Data) pour assurer un stockage, un traitement et une analyse efficaces. 6.5 INGENIEUR BIG DATA Spécialiste de la mise en œuvre et de la maintenance des solutions Big Data, travaillant sur l'ingestion, la transformation et l'analyse des données massives. Dr. Ing. Rihab LAAJILI 4 5ème GI AU 23/24 6.6 HEAD OF DATA Responsable de la stratégie globale de gestion des données au sein d'une entreprise, supervisant les équipes de données et les initiatives de traitement. 6.7 CHEF DE PROJET DATA Gère les projets liés aux données, de la collecte à l'analyse, en veillant au respect des délais et des budgets. 6.8 CONSULTANT DATA & ANALYTICS Fournit des conseils en matière de données et d'analyse aux entreprises, aidant à prendre des décisions basées sur les données. 6.9 EXPERT DATA VISUALISATION Crée des représentations visuelles des données pour faciliter leur compréhension, souvent à l'aide d'outils et de logiciels de visualisation. 6.10 DATA JOURNALISTE Utilise des compétences en données pour enquêter, analyser et présenter des informations sous forme de reportages et d'articles. 6.11 MACHINE LEARNING ENGINEER Se spécialise dans le développement et le déploiement de modèles d'apprentissage automatique pour automatiser des tâches et générer des prédictions à partir des données. 6.12 DATA INGENIEUR (DATA ENGINEER) : Ce métier d’expert de la gestion des données – de leur ingénierie au sens propre –, apparu très récemment, est vite devenu indispensable. Polyvalent, le data ingénieur un acteur clé des projets. Le data ingénieur joue un rôle essentiel dans la gestion des données, tant en amont qu'en aval des projets. Il commence par comprendre l'environnement numérique du client, collecte, prépare, nettoie, normalise et stocke les données, en veillant à ce que les infrastructures nécessaires soient adaptées. Il est responsable de la mise en place de l'ETL (Extract, Transform, Load), qui permet le chargement de données depuis différentes sources vers l'entrepôt de données de l'entreprise. Dans la phase finale des projets, le data ingénieur accompagne les data scientists en les aidant à industrialiser leurs modèles. Il relit leur code, l'optimise, assure leur exploitabilité, les met à l'échelle en suggérant des tests automatisés, et déploie les traitements nécessaires. C’est l’accompagnateur technique de A à Z. Au quotidien, ses responsabilités incluent la collecte de données en explorant le système d'information du client et ses sources de données, la gestion des données manquantes, l'ajustement des formats et la normalisation des bases de données, ainsi que le stockage des données dans un Notes Clé : Rôle principal : Gérer et préparer les données pour une utilisation analytique. Compétences requises : Ingénierie des données, compétences en bases de données, développement de pipelines. Tâches : Collecte de données, nettoyage, transformation, construction de pipelines. Objectif : Assurer que les données sont disponibles, de haute qualité et prêtes à être analysées par les Data Scientists et les Data Analysts. format homogène. Dr. Ing. Rihab LAAJILI 5 5ème GI AU 23/24 6.13 ANALYSTE DE DONNEES (DATA ANALYST) : Le data analyst travaille en général sur un type spécifique de données issues d’une source unique et connue, qu’il analyse avec un regard marketing ou finance selon le secteur afin d’orienter les prises de décisions stratégiques de l’entreprise. Il utilise les techniques statistiques et informatiques afin d’explorer, d’organiser, de synthétiser et de traduire les données brutes de l’entreprise, qu’elles soient issues des réseaux sociaux, du e-commerce, de l’IoT ou bien liées à ses clients, à ses produits, à ses propres performances, à son marché ou à sa concurrence. À partir de cette analyse menée à l’aval de la chaîne de traitement de la donnée, en collaboration avec le data scientist sur les aspects technico-scientifiques, le but du data analyst est de faciliter les prises de décision de l’entreprise lui permettant de prendre un avantage compétitif. Il définit notamment des indicateurs clés de performance (KPI - Key Performance Indicator-) pour vulgariser et restituer ses résultats aux décideurs sous un format exploitable, notamment au travers de data visualisations. Au quotidien, il analyse les données pour les transformer en informations exploitables, participe à la stratégie Data-Driven de l’entreprise, assure la création et la maintenance des bases de données de l’entreprise et élabore les critères de segmentation. Notes Clé : Rôle principal : Explorer les données, générer des rapports, fournir des informations pour des décisions tactiques. Compétences requises : Analyse de données, visualisation de données, compétences en SQL. Tâches : Nettoyage des données, création de rapports, création de tableaux de bord, suivi des KPI. Objectif : Comprendre les tendances actuelles, répondre à des questions spécifiques avec les données. 6.14 DATA SCIENTIST : Le data scientist est expert en mathématiques, statistique et informatique. Ce métier d’explorateur de la donnée relève, selon les profils – plutôt orientés mathématique ou informatique –, de la recherche, du développement d’algorithmes, voire de l’industrialisation de solutions. Il peut travailler sur des problèmes appliqués ou de recherche, développant des algorithmes pour résoudre des enjeux stratégiques. Il collabore avec les équipes métier, collecte et nettoie les données, crée des modèles prédictifs et des algorithmes, et intervient à toutes les étapes de la gestion des données : définition du problème, collecte des données, nettoyage, mise en place des modèles prédictifs et création des algorithmes. Au quotidien, les tâches d'un data scientist incluent l'exploration de nouvelles perspectives au sein des jeux de données, la vérification d'hypothèses, la création de modèles de données innovants, et la conception ainsi que l'implémentation d'algorithmes basés sur la machine Learning. Notes Clé : Rôle principal : Analyser les données pour générer des informations exploitables et créer des modèles prédictifs. Compétences requises : Statistiques avancées, Machine Learning, compétences en programmation. Tâches : Exploration des données, développement de modèles, création d'algorithmes, résolution de problèmes complexes. Objectif : Fournir des informations stratégiques pour la prise de décision et développer des modèles de Machine Learning. Dr. Ing. Rihab LAAJILI 6 5ème GI AU 23/24 7 COMPARAISON ET DISTINCTION : Les profils de Data Scientist, Data Analyst et Data Engineer sont souvent les plus discutés et mis en avant car ce sont les rôles les plus courants et cruciaux dans le domaine du traitement de données. Bien que ces trois métiers exercent des responsabilités distinctes, ils travaillent souvent en collaboration pour tirer le meilleur parti des données dans une organisation. La figure 3 présente leurs rôles sur l’organigramme du traitement du données : Tous les trois travaillent avec des données, mais leurs objectifs diffèrent : Data Scientists pour les insights, Data Analysts pour les rapports et les tableaux de bord, Data Engineers pour la préparation des données. Les Data Scientists et les Data Analysts utilisent souvent des compétences en programmation pour analyser les données, bien que les langages et les objectifs puissent différer. Les Data Engineers et les Data Scientists peuvent collaborer pour créer des pipelines de données pour le Machine Learning. Les Data Analysts et les Data Engineers peuvent collaborer pour garantir que les données sont nettoyées et préparées correctement. Figure 3: Les métiers en sciences des données 7.1 ROLES TRANSVERSAUX : Collecte de Données : L'étape initiale consiste à rechercher, sélectionner et acquérir des données pertinentes auprès de diverses sources. Nettoyage des Données : Cette phase implique la détection et la correction d'erreurs, d'incohérences et de valeurs manquantes dans les données pour assurer leur fiabilité. Gestion de la Qualité des Données : Maintenir la cohérence, la précision et la mise à jour des données est essentiel pour prendre des décisions éclairées. Sécurité des Données : Les données sensibles doivent être protégées contre les menaces internes et externes grâce à des mesures de sécurité solides. Conformité Réglementaire : Les pratiques liées aux données doivent être conformes aux réglementations en constante évolution, telles que le RGPD en Europe, qui concernent la protection de la vie privée et la sécurité des données. Dr. Ing. Rihab LAAJILI 7 5ème GI AU 23/24 7.2 TECHNOLOGIES ET OUTILS COMMUNS Bases de Données : Les DBMS (systèmes de gestion de bases de données) sont essentiels pour stocker et interroger les données, qu'elles soient relationnelles, NoSQL ou basées sur des graphiques. Langages de Programmation : Python et R sont les langages clés en analyse de données, offrant polyvalence et puissance statistique. Outils de Visualisation : Tableau, Power BI et Matplotlib permettent de créer des visualisations interactives pour mieux comprendre les données. Outils de Gestion de Projet : Des plates-formes comme Jira et Trello aident à planifier et à suivre les projets liés aux données de manière efficace. 8 CONCLUSION Ce chapitre nous a permis de plonger dans l'univers des métiers liés au traitement des données. Nous avons exploré les rôles cruciaux de ces métiers en mettant l'accent sur le Data Scientist, le Data Engineer et du Data Analyst, en discutant leurs différences fondamentales et leurs synergies au sein d'une équipe de données. Dans les chapitres à venir, nous approfondirons notre compréhension de ces trois métiers et des compétences requises pour exceller dans ce domaine en constante évolution. Dr. Ing. Rihab LAAJILI 8