Séance 1 - Introduction PDF

Reconnaissance des Formes Réseaux de neurones Apprentissage Automatique à partir des données Qui suis-je ? Cécile Mallet Pr UVSQ-Paris-Saclay-LATMOS Quartier des Garennes 11, boulevard d'Alembert 78280 Guyancourt. tel +33 (0) 1 80 28 52 16 email : [email protected] Jaxa earth graphy Enseignement Licence 2 - PPEI 2 Licence 3 de Physique – Analyse statistique des données Master 2 TRIED (Mention E3A) – Réseaux de neurones Master 2 Newspace (Mention Stepe) – IA appliquée à l’observation spatiale Depuis 1996 - Responsable Master 2 TRIED – Mention E3A de Paris-Saclay Groupe Master TRIED Recherche Réseaux de neurones appliqués à la télédétection spatiale/ Variabilité spatiale et temporelle des Précipitations à différentes échelles 2 Organisation de l’UE RN&RF Enseignants Bernadette Dorizzi Reconnaissance des Formes (RF et JC) Nd’eye Niang (ACP et TP ACP) Cécile Mallet (Apprentissage statistique- RN et JC) Supports en ligne sur la plateforme ecampus de Paris-Saclay quand elle fonctionnera Créneaux généralement https://docs.google.com/spreadsheets/d/1JrC570AR6oUZcWR6YPSGKZK1 3umaOqZE/edit?usp=sharing&ouid=107511970516256059620&rtpof=true& sd=true Cours RN & RF &ACP du 16 Sept au 4 Nov. TP les Mardi à TSP UE Analyse statistique de jeux de données réelles de Sept à Décembre Evaluation du cours RN & RF 2/3 Examen final Ecrit en Janvier sur article + Exercices 1/3 Contrôle Continu : Exposés, Quiz en ligne, Mini projets, question sur articles 3 Bibliographie et liens utilisés Livres de cours en ligne Le livre d'introduction de machine learning : http://cazencott.info/dotclear/public/lectures/IntroML_Azencott.pdf Apprentissage Profond , New York University CENTER FOR DATA SCIENCE, Yann LE CUN et Alfredo Canziani https://lbourdois.github.io/cours-dl-nyu/ avec Notebook en français et en anglais https://github.com/lbourdois/pytorch-Deep-Learning-Notebooks-in-French Deep Learning, An MI T Press book, I. Goodfellow, Y. Bengio and A. Courville, 2017 Version pdf accessible : http://www.deeplearningbook.org/ Andrew Ng ML course on Coursera (cours débutant) https://fr.coursera.org/specializations/machine-learning-introduction Course In Machine Learning (CIML) http://ciml.info/ Article scientifiques https://paperswithcode.com/ https://arxiv.org/list/cs/recent https://scholar.google.com/ 4 Lecture d’article Chase, R. J., Harrison, D. R., Burke, A., Lackmann, G. M., & McGovern, A. (2022). A machine learning tutorial for operational meteorology. Part I: Traditional machine learning. Weather and Forecasting, 37(8), 1509-1529. pour le Mardi 17 septembre Lire p 1509 à 1511 pour le Mardi 30 septembre Lire en entier 5 Sujet du cours Analyse et modélisation statistique à partir des données : approche neuronale Données : observations caractérisées par les valeurs prises par un ensemble de variables Modélisation à partir des données : construction « automatique » de modèles (machine learning –ML) qui décrivent ou »expliquent » les données Modélisation décisionnelle (ou prédictive) : capable de prédire pour chaque nouvelle observation la valeur inconnue d’une variable expliquée à partir des valeurs connues de variables explicatives Les Réseaux de neurones artificiels Du perceptron au deep learning …. 6 Sujet du cours Intelligence Artificielle: Terme général pour désigner des systèmes capables de prendre des décisions. L’IA fait appel aux sciences cognitive, à l’électronique, à l’ingénierie, …. Machine Learning = Apprentissage automatique ou apprentissage statistique (des données): Technologie de l’IA pour désigner des algorithmes capables » d’apprendre à partir des données » Science des Données Machine Learning Intelligence Artificielle Réseaux de Neurones DeepLearning Statistique Inférentielle GPU ⚠ le terme IA est de plus en plus employé à la place de l’apprentissage automatique ou de de l’apprentissage profond Machine Learning (ML) Apprentissage automatique ou apprentissage statistique Qu’est-ce que l’apprentissage ? L’apprentissage est une modification d’un comportement sur la base d’une expérience (Fabien Benureau, 2015). Qu’est-ce que l’apprentissage automatique ? L’apprentissage automatique est la discipline donnant aux ordinateurs la capacité d’apprendre sans qu’ils soient explicitement programmés. (Arthur Samuel, 1959 ) Étant donné une tâche T et une mesure de performance P, on dit qu’un programme informatique apprend à partir d’une expérience E si les résultats obtenus sur T, mesurés par P, s’améliorent avec l’expérience E. (Tom Mitchell, 1997) 8 Machine Learning (ML) Apprentissage automatique, apprentissage artificiel ou apprentissage statistique Wikipédia ‘champ d'étude qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune.’ Un programme classique données + procédure explicitement programmée -> sorties 📌 Exemple : données pluviométrique -> calcul du cumul mensuel En apprentissage automatique données -> Apprentissage -> procédure/modèle détermine les paramètres de la procédure afin par exemple de modéliser un phénomène (la sortie) à partir d’exemples (l’entrée). 📌 Exemple : historique des données pluviométrique -> réalisation d’un modèle prédictif ⚠ Le modèle obtenu par apprentissage automatique est un programme classique 9 Machine Learning (ML) Apprentissage automatique ou apprentissage statistique L’apprentissage statistique peut remplacer ou compléter des approches algorithmiques traditionnelles. Les situations où l'apprentissage statistique apporte une solution fondée sur l'exploitation de données massives et de modèles probabilistes : Problèmes que l’on sait résoudre mais on ne sait pas formuler une procédure explicite : 📌 Exemple : La reconnaissance de caractères, de visages dans des images, Les réseaux de neurones convolutifs (CNN), apprennent à identifier des motifs dans les images et sont capables de résoudre ce problème. 📌 Exemple : Reconnaissance vocale (transcription de la parole en texte) Les modèles de réseaux de neurones récurrents ou les modèles transformers permettent d’effectuer cette tâche. 10 Machine Learning (ML) Apprentissage automatique ou apprentissage statistique Problèmes que l’on ne sait pas résoudre par une procédure explicite mais qui ont une solution précise 📌 Exemple : Prédiction des structures tridimensionnelles des protéines La relation entre la séquence d'acides aminés (information en 1D) et la structure tridimensionnelle (information en 3D) est gouvernée par des règles extrêmement complexe et influencée par de nombreux facteurs physico- chimiques et dynamiques impossible à modéliser via des algorithmes classiques. Les modèles AlphaFold développé par DeepMind, a réussi à prédire la structure 3D des protéines 📌 Exemple : Analyse de sentiments dans des textes. Il n’existe pas de règles explicites que nous pourrions programmer pour déduire automatiquement l’émotion d’un texte, car cela dépend de nombreux facteurs comme le contexte, le ton, les subtilités linguistiques, les sarcasmes, etc. Les modèles de traitement du langage naturel, permettent de résoudre ce problème en apprenant à partir de grands corpus de texte annotés. 11 Machine Learning (ML) Apprentissage automatique ou apprentissage statistique Problèmes que l’on sait résoudre théoriquement par des procédures explicites qui posent des problèmes pratiques 📌 Exemple : Résolution des systèmes d’équations linéaires est un problème pour lequel il existe des procédures explicites. Cependant, lorsque le système devient très grand (simulations mécanique avec des milliers ou millions de variables), les méthodes classiques peuvent devenir impraticables en raison des limitations de mémoire et du temps de calcul. Les modèles ‘appris’ de compression de données, de réduction de dimension ou d’approximation peuvent fournir des solutions approchées plus rapides et économes en ressources suffisamment précises pour certaines applications. 📌 Exemple : La résolution de systèmes d'équations non-linéaires de grande dimension, comme dans la prévision de l’évolution de systèmes physiques chaotiques. Bien que les modèles de prévisions météorologiques soient théoriquement bien compris (basés sur les équations de Navier-Stokes), leur résolution explicite pour faire des prévisions précises à grande échelle est extrêmement coûteuse en temps et en ressources. De plus, les limites sur la précision des données initiales ( température et la pression de tous les points de la Terre) rendent ces calculs de plus en plus imprécis à mesure qu’on essaie de prévoir à long terme. 12 Machine Learning (ML) Apprentissage automatique ou apprentissage statistique Problèmes d'optimisation sur des critères multiples ou dynamiques Pas nécessairement aussi complexes que les précédents mais de nature très dynamique et évolutives 📌 Exemple : Gestion des ressources en temps réel. Dans des domaines comme les réseaux électriques intelligents (smart grids) ou les chaînes d'approvisionnement, l’objectif est d'optimiser l'allocation des ressources (énergie, stocks, etc.) en fonction en fonction de variables externes imprévisibles comme la météo, les habitudes de consommation ou des événements économiques. Les modèles prédictifs et les méthodes de renforcement, peuvent résoudre ces problèmes en adaptant les décisions en temps réel à l’évolution des conditions. 13 Machine Learning (ML) Apprentissage automatique ou apprentissage statistique Problèmes nécessitant une réponse en temps réel Exigent que le système apprenne et s’adapte en continu aux changements 📌 Exemple : Détection d'anomalies dans des systèmes dynamiques, dans les systèmes de cybersécurité ou la maintenance prédictive, le défi est d’identifier rapidement des anomalies ou des pannes potentielles. Les comportements normaux et anormaux peuvent varier avec le temps, ce qui rend difficile l'utilisation de règles explicites figées. Les autoencodeurs ou les méthodes de détection d'anomalies basées sur l’apprentissage non supervisé, peuvent apprendre en permanence et s'ajuster aux nouvelles données pour détecter les changements dans les comportements. 14 Machine Learning (ML) Apprentissage automatique ou apprentissage statistique Problèmes qui n’ont pas de solution bien définie ou dépendent fortement de contextes flous ou incertains 📌 Exemple : Recommandation de contenu personnalisé (films, musiques, produits) Dans le cadre des systèmes de recommandation, l'objectif est de recommander des éléments (films, musiques, produits) susceptibles de plaire à un utilisateur. Ce problème n'a pas de procédure explicite ni de solution parfaitement claire, On peut ‘résoudre’ ce type de problème en apprenant à partir de grandes quantités de données comportementales et en proposant des recommandations de manière probabiliste qui semblent correspondre aux préférences de l'utilisateur. 15 Machine Learning (ML) Apprentissage automatique ou apprentissage statistique Problèmes émergents et mal définis 📌 Exemple : Analyse de tendances sur les réseaux sociaux (prévision de mouvements d'opinion ou de marchés) Les algorithmes d’apprentissage statistique peuvent être utilisés pour analyser les interactions sociales, identifier des tendances ou prédire des événements sociaux en fonction de données de réseaux sociaux ou de moteurs de recherche. Ces problèmes sont émergents et mal définis et ne disposent pas de formalisations explicites ou théoriques préexistantes. 16 Machine Learning (ML) Apprentissage automatique ou apprentissage statistique Les situations où l'apprentissage statistique apporte une solution fondée sur l'exploitation de données massives et de modèles probabilistes Problèmes que l’on sait résoudre mais on ne sait pas formuler une procédure explicite Problèmes que l’on ne sait pas résoudre par une procédure explicite mais qui ont une solution précise Problèmes que l’on sait résoudre théoriquement par des procédures explicites qui posent des problèmes pratiques Problèmes d'optimisation sur des critères multiples ou très dynamiques Problèmes nécessitant une réponse en temps réel Problèmes qui n’ont pas de solution bien définie ou dépendent fortement de contextes flous ou incertains Problèmes émergents et mal définis 17 Machine Learning (ML) Apprentissage automatique ou apprentissage statistique ⚠ L’apprentissage à partir des données est inadapté pour certains problèmes qui requièrent de l'intuition, de la subjectivité, de la créativité, ou encore des formes de raisonnement qu'on ne peut pas modéliser simplement avec des données. Problèmes impliquant des décisions éthiques, morales ou des jugements subjectifs nuancés 📌 Exemple : Juger de la qualité artistique d'une œuvre ou prendre des décisions en matière de bioéthique ne peuvent pas être effectué par apprentissage statistique. Ces décisions reposent sur des normes culturelles, des contextes sociaux, des valeurs personnelles ou des dilemmes moraux qui ne peuvent pas être résolus uniquement à partir de données passées ou de règles logiques. 18 Machine Learning (ML) Apprentissage automatique ou apprentissage statistique ⚠ L’apprentissage à partir des données est inadapté pour certains problèmes. Problèmes de logique ou de raisonnement mathématique pur 📌 Exemple : La démonstration d'un théorème mathématique dépasse les capacités actuelles des algorithmes d'apprentissage statistique, qui se basent sur des données et non sur des preuves formelles. Problèmes nécessitant une créativité ou une innovation humaine pure : La création d'une œuvre artistique, la conception d'une nouvelle invention ou la génération d'idées entièrement nouvelles qui n'ont pas de base dans des exemples passés ne peuvent pas être résolues par apprentissage statistique ni par des procédures explicites. Si l'on considère les modèles génératifs (réseaux adverses génératifs (GANs), les transformers (par exemple GPT), ou les diffusion models), ils peuvent générer des idées ou des objets en combinant des éléments déjà connus de manière nouvelle ou inattendue (créativité combinatoire). mais ils ne sont pas capables d’une intention consciente ou d’une réflexion profonde sur un problème, ils ne comprennent pas les concepts d'intention ou de finalité 19 Machine Learning (ML) Apprentissage automatique ou apprentissage statistique Données + Algorithme d’apprentissage -> modèle La qualité du modèle obtenu dépend des données et de l’algorithme d’apprentissage qui va produire un modèle à partir des données «apprendre » un modèle à partir des données consiste à définir un objectif (une mesure de performance P à améliorer) et à optimiser le modèle en fonction de cet objectif. L’apprentissage du modèle peut être formulé comme un problème d’optimisation 📌 Exemple historique des données pluviométrique -> réalisation d’un modèle prédictif qui minimise l’écart entre les taux précipitants prédits par le modèle et ceux observés 20 Machine Learning (ML) Apprentissage automatique ou apprentissage statistique Nouvelles Données -> modèle appris -> Bonne performance Le défi central est que le modèle obtenu doit être performant sur les données nouvelles non observées et non utilisées pour le mettre au point. La capacité du modèle appris à partir des données à avoir de bonnes performances sur des données non observées est appelée généralisation. Le modèle doit avoir appris la structure sous-jacente aux données 📌 Exemple historique des données pluviométrique -> Le défi est de savoir dans quelle mesure le modèle prédictif appris sur des données observées en île de France entre 1980 et 2000 peut être utilisé pour les JO en 2024 avec des données issues d’un autre réseau de capteur. 21 Machine Learning (ML) Apprentissage automatique ou apprentissage statistique La qualité du modèle obtenu dépend des données d’apprentissage et de l’algorithme d’apprentissage (optimisation) qui va produire un modèle à partir des données et de la stratégie d’apprentissage et le choix des hyperparamètres du modèle qui va faire en sorte que le modèle soit susceptible de permettre une bonne généralisation. 22 Prérequis au cours RN & RF ML repose sur les mathématiques (inférence à partir des données, optimisation) informatique (manipulation des données, implémentation efficace des algorithmes) En mathématique o Connaissance de base en statistique : indicateurs classiques, histogrammes o Connaissances de base probabilité : variable aléatoire, densité de probabilité, probabilité conditionnelles, espérance , variance, règle de bayes o Connaissances de base en algèbre linéaire : Calcul vectoriel et matriciel Normes, décomposition en valeurs propres o Connaissances de base en analyse numérique : optimisation à partir de gradient En informatique o Connaissance de base en programmation o Langage Python En langue o Français : rédiger un rapport en science des données o Anglais : lire et analyser un article scientifique 23 Séance 1 Les données Prérequis en statistique et probabilité Ø Statistique descriptive en dimension 1 Résumé numérique Résumé graphique Ø Probabilité Espérance, Variance , densité de probabilité Ø Estimation–Théorème Central Limite Estimation de la moyenne (ponctuelle et par intervalle ) 24 Les données 25 Apprentissage à partir des données Collecte des données /Data collection Etape la plus longue Exhaustivité ? Représentativité ? Qualité ? Nettoyage des données/Pre-processing: cleaning Supprimer les valeurs aberrantes ou Traiter les valeurs manquantes Représentation des données X(n,p) matrice d’observation Modélisation seulement 20 % du temps Apprentissage/Validation/Test Choix de la technique Réalisation du modèle Evaluation Comparaison avec les Généralisation Analyse des erreurs modèles de référence Suivi et mesure de la dérive Evolution des erreurs dans le temps Mise à jour des modèles 26 q Les données 📌 Un exemple de jeu de données : Exploitations agricoles Quantitative Qualitative Variable Variable n cases Data : X(n,p) La collection "TECHNIQUES DE LA STATISTIQUE " est un ouvrage collectif en ligne Sat@Net http://www.agro-montpellier.fr/cnam-lr/statnet/ 27 q Les données Nature des données variables Quantitative Categorial quantitative qualitative continue discrète nominale ordinale -pluviométrie -nombre de pièces -couleur -réponse à une -surface défectueuses dans -situation enquête (très -âge un lot météorologique satisfait, statisfait, -hauteur -nombre d’enfants -Affiliation peu statisfait, pas -poids dans un foyer politique satisfait) -température -nombre annuel de -sexe d’une -Taille des -pression crues d’une rivière personne vêtements -puissance …. -pays … -tension -département …. … Mesure d’une Comptage d’un Modalité ou Catégorie quantité évènement 28 Introduction q Les données à la science des données 📌 Nature des données Absence/Présence de pluie Qualitative nominale (binaire) Evénements convectifs/ stratiformes/ Qualitative nominale (multiple) bruine/… Année très sèche/sèche/…/pluvieuse/très Qualitative Ordonnée pluvieuse Nombre de gouttes de pluies/ Nombre Quantitative Discrète d’évènements précipitant par an Taux précipitant en mm/h Quantitative Continue 29 q Les données Terminologie de l’analyse de données classique issue des recensements démographiques/ concept correspondant utilisé en calcul des probabilités L’ensemble des objets équivalents étudiés s’appelle la population/espace fondamental Chaque objet s’appelle un individu/événement élémentaire Les caractéristiques ou attribus des individus s’appellent les variables /variables aléatoires Les mesures des variables qui caractérisent les individus sont les observations/réalisation d’un événement élémentaire La série des observations recueillie est une série statistique elle est retranscrite dans un tableau de données Recensement :Observation de tous les individus d’une population Sondage -Echantillon: Observation d’un sous ensemble de la population La taille de l’échantillon n est le cardinal du sous-ensemble correspondant. 30 q Les données Terminologie du ML Le ‘dataset’ ou jeu de données complet désigne l’ensemble des données disponibles Chaque objet ou individu s’appelle un exemple ou une instance Une ‘feature’ est une variable ou un attribut utilisé pour décrire un aspect particulier d’un individu ou exemple (colonne du jeu de données) Le ‘label’ ou la ‘cible’ (l’étiquette ou la classe) est une variable cible que le modèle doit prédire dans un problème supervisé. Il représente la sortie du modèle Le ‘feature vector’ ou vecteur de caractéristiques est la représentation numérique de toutes les varaibles caractéristiques d’unindividu sous forme de vecteur La ‘Ground Truth ‘ ou Vérité terrain sont les valeurs réelles ou étiquettes correctes des données auquelles les prédictions du modèle sont comparées. 31 q Les données Terminologie du ML ‘Sparse Data’ ou données clairsemées qui contiennent beaucoup de valeurs nulles ou zéros ‘Dense Data’ ou données denses sont l'opposé des données clairsemées, avec peu ou pas de valeurs nulles ‘Imbalanced Data’ dans un ensemble de données déséquilibré, une ou plusieurs classes sont sous- représentées par rapport à d'autres. ‘Features Engineering’ ou Ingénierie des caractéristiques) est le processus de création, transformation ou sélection de features pertinentes à partir des données brutes pour améliorer la performance du modèle. ‘One-Hot Encoding ‘ désigne une méthode pour représenter des variables catégorielles en vecteurs binaires. 32 qLes données multi dimensionnelles La matrice d’observation X(n,p) ⎛ x11 x12 x1 j x1p ⎞ vecteur variable ⎜ ⎟ ⎜ x21 x22 x2 j x2 p ⎟ 𝑥"! ⎜ ⎟ 𝑋! = 𝑥#! ∈ ℝ$ ⎜ ⎟ 𝑥$! X =⎜ ⎟ ⎜ xi1 xi2 xij xip ⎟ ⎜ ⎟ ⎜ ⎟ ⎜⎜ xn1 xn2 xnj xnp ⎟⎟ ⎝ ⎠ Chaque variable Xj est décrite par n individus, formant un vecteur de dimension. n, appelé vecteur variable Chaque individu xi est décrit par p variables, formant un vecteur de dimension p, appelé vecteur individu ( ⎛ ⎞ p vecteur individu xi = ⎜ xi1 xi2 xij xip ⎟∈ R ⎝ ⎠ ⚠ Dans le cas ou xi est une image les caractéristiques xij sont les valeurs des pixels de l’image 33 q Les données multi dimensionnelles La matrice d’observation X(n,p) 📌 Exemple : Températures mensuelles de différentes villes Variable : moyenne des températures du mois de Janvier Population : l’ensemble des villes de France Individu : ‘Brest’ Echantillon : le sous ensemble de 15 villes Tableau des observations ( : les 12 variables (12 mois) mesurées dans 15 villes françaises p variables Janv Fev Mars Avril Mai Juin Juillet Aout Sept Oct Nov Dec [ 5.6 6.6 10.3 12.8 15.8 19.3 20.9 21. 18.6 13.8 9.1 6.2] 'Bordeaux’ [ 6.1 5.8 7.8 9.2 11.6 14.4 15.6 16. 14.7 12. 9. 7. ] 'Brest’ [ 2.6 3.7 7.5 10.3 13.8 17.3 19.4 19.1 16.2 11. 6.6 3.6] 'Clermont’ [ 1.5 3.2 7.7 10.6 14.5 17.8 20.1 19.5 16.7 11.4 6.5 2.3] 'Grenoble’ [ 2.4 2.9 6. 8.9 12.4 15.3 17.1 17.1 14.7 10.4 6.1 3.5] 'Lille’ [ 2.1 3.3 7.7 10.9 14.9 18.5 20.7 20.1 16.9 11.4 6.7 3.1] 'Lyon’ [ 5.5 6.6 10. 13. 16.8 20.8 23.3 22.8 19.9 15. 10.2 6.9] n individus 'Marseille’ [ 5.6 6.7 9.9 12.8 16.2 20.1 22.7 22.3 19.3 14.6 10. 6.5] 'Montpelleir’ [ 5. 5.3 8.4 10.8 13.9 17.2 18.8 18.6 16.4 12.2 8.2 5.5] 'Nantes’ [ 7.5 8.5 10.8 13.3 16.7 20.1 22.7 22.5 20.3 16. 11.5 8.2] 'Nice’ [ 3.4 4.1 7.6 10.7 14.3 17.5 19.1 18.7 16. 11.4 7.1 4.3] 'Paris’ [ 4.8 5.3 7.9 10.1 13.1 16.2 17.9 17.8 15.7 11.6 7.8 5.4] 'Rennes’ [ 0.4 1.5 5.6 9.8 14. 17.2 19. 18.3 15.1 9.5 4.9 1.3] 'Strasbourg’ [ 4.7 5.6 9.2 11.6 14.9 18.7 20.9 20.9 18.3 13.3 8.6 5.5] 'Toulouse’ [ 2.4 3.4 7.1 9.9 13.6 17.1 19.3 18.8 16. 11. 6.6 3.4]] 'Vichy' Données : X(n,p) 34 q Les données Les données structurées Les séries temporelles Les images Imagenet Les vidéo Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S.,... & Fei-Fei, L. (2015). Les données textuelles Imagenet large scale visual recognition challenge. International journal of computer vision, 115(3), 211-252. 35 q Les données Les ressources Toy dataset https://scikit-learn.org/stable/datasets/toy_dataset.html https://paperswithcode.com/datasets ML repository du Center for Machine Learning and intelligent Systems de l’UCI(University de Californie à Irvine) https://archive.ics.uci.edu/ Plateforme de compétition Kaggle : https://www.kaggle.com/datasets 36 q Les données multi dimensionnelles Les contraintes rencontrées dans la vrai vie : les modèles développés en computer vision sont supervisés et validés sur de grande bases d’images labelisées Le volume des données tel que les ‘standard frameworks’ ne peuvent être utilisés La dimension et la nature : plusieurs centaines de caractéristiques dont certaines sont qualitatives avec des centaines de catégories Les données incomplètes Les données aberrantes ou biaisées Les processus différents dans le même jeu de données (instruments de mesure différents) Les erreurs de labelisation (souvent faite manuellement) …. 37 Prérequis en statistique et probabilité 38 q Statistique descriptive Première étape avant la modélisation statistique des données Faire la statistique descriptive de chaque variable (unidimensionnelle) Pour résumer numériquement et décrire graphiquement chaque variable Pour identifier les propriétés importantes de la variable consiédrée (distribution) Pour partager l’information à propos des données, pour pouvoir échanger à propos des données Pour identifier les problemes ( valeurs extremes , valeurs manquantes, valeurs incorrectes) 39 Ø Pré-requis de statistique en dim 1 En ligne Sta@net http://www.agro-montpellier.fr/cnam-lr/statnet/cours1.htm module statistique descriptive Leçon 1 - Vocabulaire usuel Leçon 2 - Tableaux et graphiques Leçon 3 - Paramètres statistiques Leçon 5 - Exemples de synthèse Vérifier que vous n’avez pas de difficultés Leçon 1 Exercices 1 variétés de blé Leçon 2 Exercices 1 Tension artérielle Leçon 3 Exercices 1 Tension artérielle 40 q Statistique descriptive en dim 1 📌 Exemple : 198 surfaces agricoles Résumé numérique et graphique de la variable Taille (ha) 41 q Statistique descriptive unidimensionnelle q Résumé numérique Descriptor of central tendency of a distribution 1 n For each variable The Arithmetic mean (Mean) x = ∑ xi The Median n i =1 The Mode Numérical descriptors to Descriptor of dispersion (variability) of a distribution summarize and describe the € main characteristics of a set Range 1 n s2 = ∑ (x i − x ) 2 of data Variance n i=1 Standard deviation Descriptor of relative standing of a distribution € points dividing the observations sample into continuous intervals with Quantiles (cut equal number of data) Quartile Decile Percentile Descriptor of the shape of a distribution 1 n ∑ (x − x ) i 3 m n 3 = 0 for symetric distribution i=1 Skewness (measure of the asymmetry) γ = s =1 3 s 3 1 n Kurtosis (measure of the "tailedness" ) ∑ (x i − x ) 4 42 m n γ 2 = 44 = i=1 4 =3 for normal distribution € s s q Statistique descriptive unidimensionnelle 📌 Résumé graphique Bar graph Histograms Box plot (discrete variable) (continuous variable) Pie chart empirical distribution function (discrete variable) reversed cumulative histogram Violin plot 43 q Statistique descriptive unidimensionnelle Variable quantitative discrète 📌 Exemple : Nombre de galles d'un échantillon de 750 feuilles d'arbre No X 1 5 2 7 échantillon de données 3 4 4 2 Bar Graph … … 750 2 réduction sans perte d’information Tables statistiques Pour chaque nombre de galles: effectif, fréquence relative, fréquence cumulée Xi 0 1 2 3 4 5 6 7 8 9 10 Ni 364 198 92 56 24 10 4 2 0 2 0 fi 0,485 0,261 0,123 0,075 0,032 0,13 0,005 0,003 0 0,003 0 ficum 0,485 0,746 0,869 0,944 0,976 0,989 0,994 0,997 0,997 1 1 44 q Statistique descriptive unidimensionnelle pétale Variable quantitative continue sépale 📌 Exemple : Description des iris de Fisher à partir de 4 variables NO HS LS HP LP Classe 1 4,5 2,5 1,8 0,4 setosa 2 5,5 3,3 4,8 1,4 versicolor …… 150 6,4 2,5 5,8 1,9 virginica échantillon de données HS LS réduction avec perte d’information HP LP Tables statistiques [Hsi-1 Hsi[ [4 ; 5[ [5 ; 6[ [6 ; 7[ [7 ; 8[ histograms Ni 15 68 52 15 : setosa : versicolor fi 0,1 0,46 0,34 0,1 : viginica 45 ficum 0,1 0,56 0,9 1 Ø Prérequis de probabilité En ligne Sat@Net http://www.agro-montpellier.fr/cnam-lr/statnet module Calcul de probabilité Leçon 1 - Notion d'Expérience Aléatoire Leçon 2 - Définition d'une probabilité Leçon 3 - Probabilités conditionnelles et Evénements Indépendants Leçon 4 - Formule de Bayes Vérifier que vous n’avez pas de difficultés Leçon 1 Exercices 1 roulette Leçon 2 Exercices 1 Le démarcheur 46 Ø Prérequis de probabilité En ligne Sat@Net http://www.agro-montpellier.fr/cnam-lr/statnet module variable aléatoire Leçon 1 - Notion de Variable Aléatoire Leçon 2 - Espérance et Variance Leçon 4 - Principales Lois Discrètes Leçon 5 - Principales Lois Continues Vérifier que vous n’avez pas de difficultés Leçon 1 Exercices 1 Lancement de 2 dés Exercice 6 Diamètre d’une pièce mécanique Leçon 2 - Exercices 1 Comparaison de densité Exercice 2 Quelques calculs pour appliquer les formules Leçon 5 Exercice 1 Somme de loi uniforme Exercice 2 ApplIcation directe de loi Normale Exercice 8 Lancé de dé TCL 47 Ø Prérequis de probabilité Deepbook Chapitre 3 sections 3.1 à 3.11 (http://www.deeplearningbook.org/) (variable aléatoire, lois de probabilité, lois marginale, lois conditionnelle,Espérance,Variance, Covariance, Règle de Bayes) En ligne en français et en anglais rappels de Probabilités et Statistiques https://stanford.edu/~shervine/l/fr/teaching/cme-106/ 48 q Prérequis de probabilité Ø Rappel de probabilités Variable aléatoire le résultat d’une expérience aléatoire peut se traduire par un nombre X X variable aléatoire discrète est caractérisée par l’ensemble des valeurs possibles X ∈ x1,.., x n { }xi ∈ ℜ la loi de probabilité de X : P(X=xi) X v.a continue est caractérisée par une densité de probabilité f(x) P(X=xi)=0 et b P(a < X < b) = ∫ a f (x)dx € 0,18 0,16 0,14 0,12 0,1 Série1 0,08 0,06 € 0,04 0,02 0 1 2 3 4 5 6 7 8 9 10 11 loi de probabilité d’une variable discrète densité de probabilité d’une variable continue 49 q Prérequis de probabilité Ø Rappel de probabilités : Espérance Mathématique X variable aléatoire discrète Espérance mathématique E( X) = ∑ xi P(X = xi ) i E(X) est la moyenne arithmétique des différentes valeurs possibles pondérées par les probabilités. 1 Si chaque valeur est équiprobable: E( X) = ∑ xi n i Moyenne pour l ’ensemble des valeurs possibles de X X v.a continue E( X) = ∫ℜ x f ( x) dx PROPRIETES ELEMENTAIRES Si a est une constante E(a) = a E(aX) = aE( X) E( X + a) = E( X) + a Si X1 et X2 sont deux v.a distinctes: E( X1 + X2 ) = E(X1 ) + E( X2 ) indépendantes: E( X1 X2 ) = E( X1 )E(X2 ) Variable centrée Xc=X-E(X) E(Xc)=0 V(Xc)=V(X) 50 q Prérequis de probabilité Ø Variance On appelle Variance de X : V(X)=s2=E(X-E(X))2 V(X) mesure la dispersion de X autour de l ’espérance E(X) s est l ’écart type de X PROPRIETES/ V( X) = E( X 2 ) − E( X) 2 Si a est une constante : V( X − a) = V( X) V(aX) = a 2 V( X) V( X1 + X2 ) = V( X1 ) + V (X2 ) + 2( E( X1 X 2 ) − E( X1 )E(X2 )) covariance de X1, X2 cov( X1 , X2 ) = ( E(X1 X2 ) − E( X1 )E(X 2 )) = E[( X1 − E(X1 ))( X2 − E( X2 ))] X1, X2 indépendantes => V( X1 + X2 ) = V( X1 ) + V (X2 ) E( X − a)2 = V (X ) + ( E( X) − a)2 Variable centrée Xc=X-E(X) E(Xc)=0 V(Xc)= V(X) Variable centrée réduite Xr=(X-E(X))/ s(X) E(Xr)=0 V(Xr)=1 51 q Prérequis de probabilité Ø Densité de probabilité la densité de probabilité de deux La densité de probabilité de variables aléatoire ayant une variance deux variables aléatoire ayant une différente espérance différente 52 Ø Pré-requis Estimation-Inférence statistique à partir des données En ligne Sat@Net http://www.agro-montpellier.fr/cnam-lr/statnet module Echantillonage-Estimation leçon 1 fluctuation d’échantillonnage leçon 2 base de l’estimation leçon 3 estimation d’une proportion leçon 4 estimation d’une moyenne et d’un écart-type leçon 5 sondages Vérifier que vous n’avez pas de difficultés Leçon 1 Exercice 4 : Sacs de pommes de terre Leçon 2 Exercice 1 : Estimation moyenne et variance Exercice 3 : Qualités d'un estimateur Exercice 7 : Estimation d'une moyenne Leçon 4 Exercice 2 : Diamètre 53 Ø Pré-requis Estimation-Inférence statistique à partir des données Deepbook Chapitre 5 sections 5.4 notions de biais et variance d’un estimateur 54 q Prérequis Estimation – Inférence statistique Variable aléatoire X Paramètres : mean E(X)=µ variance V(X) = s2 Densité de probabilité Population Inférence statistique Collecte des données Echantillon Histogramme Normalisé Statistique descriptive: mean 𝑥& variance s2 55 q Prérequis Estimation – Inférence statistique Estimation ponctuelle de la moyenne (espérance) et de la variance Estimation ponctuelle de la moyenne: 𝑥& est un estimateur de µ Estimation ponctuelle de l’écart type (standard deviation) : s est un estimateur de s {xi ; i=1…200} sample data s=4,56 s= 5 Data collection 𝑥& = 2,12 µ=2 Echantillon (Sample) Population 56 q Prérequis Estimation – Inférence statistique Estimation ponctuelle : fluctuation d’échantillonnage Variable aléatoire Deux échantillons {xi ; i=1…200} {xi ; i=1…50} loi uniforme entre -6 et 10 µ=2 s= 4,6 Min =-6 Max=10 𝑥& = 1,73 𝑥& = 1,68 Median=2 s=4,8 s=4,68 Q1: -2 Min =-5,99 Min =-5,91 Q2: 2 Max=9,77 Max=9,97 Q3: 6 Median=1,76 Median=2,04 Q1: -3.06 Q1: -2,65 Q2: 1.76 Q2: 2,04 Q3: 5,9 Q3: 5,01 57 q Prérequis Estimation – Inférence statistique fluctuation d’échantillonnage et Théorème Central Limite Population moyenne E(X)=µ variance V(X) = s2 Différents échantillons de la même taille provenant de la même population App1 = {xi ; i=1…200} 𝑥1 = 2,12 App2 = {xi ; i=1…200} 𝑥2 = 2,39 … … Appk-1= {xi ; i=1…200} 𝑥k−1 = 2,33 Appk = {xi ; i=1…200} 𝑥𝑘 = 1,99 Théorème Central Limite : Quel que soit la forme de la distribution de la population, la distribution des moyennes 𝑥𝑖 des échantillons tends vers une distribution normale N(µ,σ2/n) 58 q Prérequis Estimation – Inférence statistique La moyenne empirique : c’est-à-dire calculée sur un échantillon de taille n 1 N Moyenne empirique calculée sur N X = ∑ Xi X observations N i=1 1 N L’espérance de la moyenne empirique est E(X) = ∑ E(Xi ) = E(X) = µ égale à la moyenne de la population N i=1 1 N V(X) σ 2 La variance de la moyenne empirique est V(X) = 2 ∑ V(Xi ) = = égale à la variance de X divisée par N N i=1 N N σ La moyenne empirique converge en σ (X) = N probabilité vers µ (parmi tous les échantillons de valeurs possibles, ceux dont la moyenne ∀ 𝜀 > 0 𝑜𝑛 𝑎 lim 𝑃( 𝑋5 − 𝜇 ) > ε) = 0 $→ %& s’éloigne de m sont rares, cette rareté s’accentue avec la taille de l’échantillon) 𝑃( lim 𝑋5 = 𝜇) = 1 $→ %& La moyenne empirique converge vers µ presque surement Théorème Central Limite : Quand N tends ves l’infini X tends vers une variable dont la distribution est gaussienne de moyenne E(X) de variance V(X)/N 59 q Prérequis Estimation – Inférence statistique estimateur de la moyenne La variable moyenne empirique X approche E(X) (moyenne de la population) c’est un estimateur de E(X). Il est : -sans biais Ø Si un nombre k d’échantillons de taille n et que l’on calcule leur moyenne, la moyenne des k valeurs moyennes ainsi obtenue vaut à peu près E(X) -asymptotiquement efficace Ø la variance de ces k valeurs moyennes est d’autant plus faible que n est grand -convergent Ø Parmi les k valeurs moyennes, celles qui s’éloignent de E(X) sont rares, cette rareté s’accentue quand n est grand -fortement convergent Ø Lorsque la taille n de l’échantillon prélevé est très grande les k moyennes valent presque toutes E(X) -la loi de l’erreur d’approximation est approximativement gaussienne lorsque n est grand Ø Si l’on prélève un grand nombre k d’échantillons de grande taille n et que l’on calcule leurs moyennes renormalisées l’histogramme des k valeurs est proche de la densité de la loi normale centrée réduite 60 q Prérequis Estimation – Inférence statistique Estimation ponctuelle de la moyenne: 𝑥& est un estimateur de µ Estimation par intervalle : estimation ponctuelle + marge d’erreur 𝜇𝜖 𝑥̅ − Δ; 𝑥̅ + Δ 𝜇𝜖 2,12 − Δ; 2,12 + Δ {xi ; i=1…200} sample data Data collection 𝑥& = 2,12 µ=2 s=4,56 Les intervalles de confiance sont construits en utilisant un niveau de confiance donné. Pour un nombre infini de statistiques d'échantillon indépendantes, la proportion d'intervalles de confiance contenant la valeur vraie du paramètre sera égale au niveau de confiance. 61 q Prérequis Estimation – Inférence statistique estimateur de la moyenne : intervalle de fluctuation 𝑃(𝜇 − 𝑡𝑎 'B ( ̅ 𝜇 + 𝑡𝑎 'B ()= 1-a < 𝑥< Loi Gaussienne de moyenne µ et d’écart type 'B ( 𝑃(𝑥̅ − 𝑡𝑎 'B ( < 𝜇

Séance 1 - Introduction PDF

Document Details

Tags

Related

Summary

Full Transcript