Big Data Introduction - ISEN Course Notes
Document Details

Uploaded by Égaleo
ISEN Brest
Benoit Lardeux
Tags
Summary
These are course notes on Big Data, covering topics like correlation, statistical learning, linear regression, and other advanced statistical methods. The material is inspired by course notes from M. Saumard at ISEN Brest. Topics include covariance, Pearson correlation coefficient, and multiple linear regression.
Full Transcript
Big Data Introduction [email protected] Inspiré des notes de cours de M. Saumard, ISEN Brest A3 – Big Data Plan du cours Introduction: 1- Corrélations 2- L’apprentissage statistique Régression linéaire...
Big Data Introduction [email protected] Inspiré des notes de cours de M. Saumard, ISEN Brest A3 – Big Data Plan du cours Introduction: 1- Corrélations 2- L’apprentissage statistique Régression linéaire Régression logistique Analyse en composantes principales 2 A3 – Big Data Corrélation 3 A3 – Big Data Corrélation Objectif: analyser la liaison Soient X et Y deux grandeurs statistiques quantitatives observées. On souhaite Déterminer s’il existe une relation entre X et Y Caractériser la forme de la liaison (la relation) entre X et Y (positive ou négative, linéaire ou non linéaire, monotone ou non monotone) Tester si la liaison est statistiquement significative Quantifier l’intensité de la liaison Valider la liaison identifiée. N’est-elle pas le fruit d’un simple artefact ou le produit d’autres informations sous-jacentes dans les données? 4 A3 – Big Data Exemples de liaisons linéaires 5 A3 – Big Data Exemples de liaisons non-linéaires 6 A3 – Big Data Absence de liaisons 7 A3 – Big Data Covariance Objectif de la covariance Quantifier la liaison entre deux variables X et Y De manière à mettre en évidence le sens de la liaison Et son intensité Définition de la covariance Soient X et Y deux variables 8 A3 – Big Data Covariance: Interprétation On peut maintenant quantifier le sens de la liaison: : la relation est positive, c’est-à-dire lorsque X est plus grand que son espérance, Y a tendance à l’être également : absence de relation monotone : la relation est négative, c’est-à-dire lorsque X est plus grand que son espérance, Y a tendance à être plus petit que sa propre espérance 9 A3 – Big Data Covariance: propriétés Symétrie Distributivité Covariance avec une constante Covariance avec une variable transformée (transformation affine) Variance de la somme de deux variables aléatoires Covariance de deux variables indépendantes X, Y indépendants => 10 A3 – Big Data Estimation de la covariance Définition (Covariance empirique) Sur un échantillon de taille n, Où 11 A3 – Big Data Estimation de la covariance La covariance empirique est un estimateur biaisé de la covariance 12 A3 – Big Data Coefficient de corrélation de Pearson Définition (coefficient de corrélation) (,) () 13 A3 – Big Data Coefficient de corrélation de Pearson: propriétés est de même signe que la covariance (avec les mêmes interprétations) X et Y sont indépendants, alors . (réciproque fausse en général) Lorsque le couple de variables (X,Y) suit une loi normale bi-variée, et uniquement dans ce cas là, nous avons l’équivalence X et Y sont indépendants Le coefficient de corrélation constitue une mesure de l’intensité de liaison entre 2 variables. Il peut être égal à zéro alors qu’il existe une liaison fonctionnelle entre les variables. C’est le cas lorsque la liaison est non monotone 14 A3 – Big Data Corrélation: liaisons linéaires 15 A3 – Big Data Corrélation: liaisons non linéaires 16 A3 – Big Data Corrélation: absence de liaisons 17 A3 – Big Data Exemples de corrélation (wikipedia) 18 A3 – Big Data L’apprentissage statistique 19 A3 – Big Data Qu’est ce que l’apprentissage statistique? Exemple: Problème de reconnaissance automatique des chiffres manuscrits 20 A3 – Big Data Qu’est ce que l’apprentissage statistique? Solution: Apprendre à partir d’exemples Propriété attendue: Capacité à généraliser sur de nouvelles données 21 A3 – Big Data Exemples de questions pouvant être traitées par apprentissage statistique Quels sont les gènes impliqués dans une maladie? Peut-on prévoir un taux de pollution en fonction de conditions météo? Quel pourrait-être le prix d’une maison en fonction de ces caractéristiques? Peut-on prévoir les défaillances d’un procédé industriel? L’objectif dans tous ces exemples est de minimiser une erreur de prévision ou risque 22 A3 – Big Data Apprentissage supervisé: bases mathématiques Soit une observation appelée prédicteur (ou covariable, feature) On lui associe une autre variable qui est la variable à expliquer, prédire = + Objectif: Trouver une fonction optimale, au sens d’un critère à définir, qui reproduit aux mieux la variable ayant observé . ɛ est l’erreur associé au modèle (ou erreur de mesure) 23 A3 – Big Data Mise en place du problème Echantillon d’apprentissage: Avec , où est quelconque, en général Et , où peut être qualitatif (c’est-à-dire prend des valeurs comme {Homme, Femme} ou {Vert, Jaune, Rouge} ou {0,1} ou quantitatif (c’est-à-dire ) Les sont des variables aléatoires indépendantes identiquement distribuées (iid) Y Y qualitatif Discrimination quantitatif Classement Reconnaissance Régression de forme 24 A3 – Big Data Fonction de coût Définition: (fonction de coût, appelée aussi de perte) Une fonction est une fonction de coût si et pour Exemples de fonction de coût: 1- Perte quadratique 2- Perte avec 3- En discrimination binaire 25 A3 – Big Data Risque Définition: (règle de prévision) C’est une fonction qui associe la sortie à l’entrée. L’ensemble des règles est Ƒ Définition: (risque) C’est le comportement moyen de la fonction de perte choisie. Le risque d’une règle de prévision est défini par Définition: (algorithme de prévision) C’est une application qui associe à un échantillon d’apprentissage une règle de prévision Ainsi, le résultat de l’algorithme de prévision est une estimation de Reformulation du problème: Trouver une règle de prévision telle que son risque soit minimal 26 A3 – Big Data Rappels 27 A3 – Big Data Maximum de vraisemblance Définition On appelle vraisemblance de l’échantillon en , la variable aléatoire définie par étant la densité de probabilité Si les variables sont indépendantes et identiquement distribuées, on a 28 A3 – Big Data Maximum de vraisemblance Définition On appelle estimateur de vraisemblance (EMV), la statistique , telle que ∈ L’EMV peut être calculé en minimisant la fonction inverse de log-vraisemblance ∈ ( ) Ce minimum peut être calculé analytiquement en 29 A3 – Big Data Maximum de vraisemblance: propriétés Convergent: , où désigne la vraie valeur du paramètre, et la loi de probabilité Invariant: Si est l’EMV de θ alors est l’EMV de Asymptotiquement normal: Où est l’écart type de . En clair 30 A3 – Big Data Question? 31 Big Data Régression linéaire [email protected] Inspiré des notes de cours de M. Saumard, ISEN Brest A3 – Big Data Exemple de cas d’application Vente d’un produit (en milliers d’unités) En fonction du budget publicitaire (en milliers d’euros) pour la TV, la radio, les journaux (papiers) Objectif: Optimiser le budget publicitaire pour en vendre le plus Questions: Existe-t ’il une relation entre les ventes et le budget publicitaire? Quel média contribue aux ventes? Peut-on prédire les futures ventes? 2 A3 – Big Data Modélisation du problème marketing Première approche: représente les ventes représente le budget pub pour la tv et sont des paramètres à déterminer du modèle 3 A3 – Big Data Les étapes d’une régression linéaire Formulation et hypothèses du modèle Estimation des paramètres Qualité d’ajustement Tests d’hypothèses 4 A3 – Big Data Hypothèses du problème pour fixe erreur centrée et (homoscédasticité) et sont constants (pas d’évolutions, pas de rupture de modèle) Pour l’inférence, on supposera de plus Remarque: On parle d’homoscédasticité lorsque la variance des erreurs stochastiques de la regression est la même pour chaque observation i (de 1 à n observations) 5 A3 – Big Data Estimation des paramètres Moindres carrés , Résolution Posons et , , et Alors et 6 A3 – Big Data Exemple 7 A3 – Big Data Prédiction, résidus et variance estimée Prédiction Résidus estimés Variance du modèle estimée par 8 A3 – Big Data Précision des estimateurs Question: ces estimations sont-elles précises? Calcul de l’erreur standard de et : ̅ ∑ , ( ̅ ) ∑ , ( ̅ ) où 9 A3 – Big Data Précision des estimateurs Intervalles de confiance à 95% pour et : 10 A3 – Big Data Etude de cas Imaginons que, pour les données publicitaires, on ait les intervalles de confiance suivants: Alors, on peut dire qu’en absence de publicité, les ventes en moyenne tomberont entre 6,130 et 7,935 unités. De plus, pour chaque 1000 € investis en pub, il y aura en moyenne une augmentation des ventes de 42 à 53 unités 11 A3 – Big Data Tests d’hypothèses sur les coefficients Testons : Il n’y a pas de relation entre et versus : Il y a une relation entre et Cela correspond mathématiquement à tester : versus : 12 A3 – Big Data Tests d’hypothèses sur les coefficients On utilise la statistique : ( ) Sous , suit une loi de Student à degrés de liberté On calcule et on compare à 5% Si a est supérieur à 0,05, on ne refuse pas Si a est plus petit que 0,05, on rejette l’hypothèse 13 A3 – Big Data Etude de cas 14 A3 – Big Data Précision du modèle 2 types d’indicateurs concernant la précision du modèle RSE (erreur standard des résidus) (coefficient de détermination) 15 A3 – Big Data Précision du modèle RSE , où où RSS est la somme des résidus au carré 16 A3 – Big Data Précision du modèle ) où TSS est la somme totale des carrés ( Plus est proche de 1, mieux le modèle explique les données 17 A3 – Big Data Régression linéaire multiple , pour Où Les sont des nombres connus, non aléatoires Les paramètres du modèle sont inconnus, mais non aléatoires Les sont des variables aléatoires inconnues Remarque: Pour avoir une constante, on peut prendre 18 A3 – Big Data Forme matricielle Le modèle s’écrit sous forme matricielle: Où est un vecteur aléatoire de dimension n est une matrice de taille n x p connue, appelée matrice du plan d’expérience est le vecteur de dimension p des paramètres inconnus du modèle est le vecteur de dimension n des erreurs Hypothèses du modèle Les erreurs sont centrées, de même variance et non corrélées entre elles 19 A3 – Big Data Moindre carrés ordinaires (MCO) L’estimateur des MCO du vecteur inconnu est Il vérifie ∈ℝ 20 A3 – Big Data Des propriétés de l’estimateur Estimateur sans biais: Parmi les estimateurs sans biais, il est de variance minimum et: 21 A3 – Big Data Régression linéaire multiple Estimateur de : | | Cette statistique est un estimateur sans biais de 22 A3 – Big Data Etude de cas Etude de la concentration d’ozone (O) dans l’atmosphère en fonction de la température (T), du vent (V) (phénomène d’advectance) et de la nébulosité (N) 10 données journalières de température, vent, nébulosité et ozone 23 A3 – Big Data Résultats 24 A3 – Big Data Question? 25