Machine Learning - Data Prep PDF
Document Details
Uploaded by CoherentCornflower1351
Politecnico di Milano
Tags
Summary
These notes cover various aspects of machine learning, particularly data preparation, transformations, and considerations for dealing with noisy or inconsistent data, and data reduction. Techniques like data standardization, and removing outliers, and handling missing data are presented. The document also discusses different methods for analyzing data based on characteristics and distributions.
Full Transcript
MACHINE LEARNING DATA PREP I principali problemi durante l'analisi del data set sono: - Missing values - Noise che porta ad avere outliers - Inconsistency: discrepanze nei dati Le possibili soluzioni sono +-----------------+-----------------+-----------------+-----------------+ |...
MACHINE LEARNING DATA PREP I principali problemi durante l'analisi del data set sono: - Missing values - Noise che porta ad avere outliers - Inconsistency: discrepanze nei dati Le possibili soluzioni sono +-----------------+-----------------+-----------------+-----------------+ | | Descrizione | Vantaggi | Problematiche | +-----------------+-----------------+-----------------+-----------------+ | Eliminazione | Rimuovere un | Semplicità | Perdita di | | | parametro | | informazione | | | (colonne) o | | | | | intere righe | | | +-----------------+-----------------+-----------------+-----------------+ | Ispezione | Comprendere | Dona maggiore | Arbitrario e | | | perché un | accuratezza | soggettivo. | | | valore è | | | | | mancato e | | Molto costoso | | | inserire un | | in termini di | | | adatto | | tempo | | | sostituente | | | +-----------------+-----------------+-----------------+-----------------+ | Identificazione | Utilizzare un | | | | | valore | | | | | convenzionale | | | | | per segnalare i | | | | | dati mancanti | | | +-----------------+-----------------+-----------------+-----------------+ | Sostituzione | Rimpiazzare il | | Non | | | valore mancante | | raccamandato | | | in base a | | perché | | | valori | | inserisce | | | calcolati con | | inaccuratezze o | | | gli attributi | | rumore nel data | | | rimanenti. | | set | | | | | | | | (referenze | | | | | statistiche, | | | | | solo su | | | | | attributi | | | | | numerici) | | | +-----------------+-----------------+-----------------+-----------------+ DATI AFFETTI DA RUMORE Rumore= perturbazioni casuali all'interno di valori numerici che risultano in evidenti anomalie à E' necessario identificare gli outliers per poi correggerli e regolarizzarli o eliminarli Il modo più facile per identificare il rumore è utilizzando la *dispersione*. (approcci statistici) 1. Distribuzione normale/Bell shape Utilizza il central limit theorem (i valori centrali non possono essere troppo lontani dalla media usando la varianza) Formula media+ quantili 96% Ha lo svantaggio di essere applicabile con accuratezza solo a distribuzioni statistiche 1. Chebyshev's theorem Descrive qual è la percentuale di dati che si trova entro un determinato numero di deviazioni standard della media e questo funziona per qualunque curva di distribuzione. (slide 16) Un approccio consiste nell'utilizzare tecniche di clustering (3) le quali consistono nel trovare degli agglomerati di gruppi di valori in base alle distanze tra essi per poi evidenziare come outliers quelli che non appartengono a nessun cluster Queste tecniche offrono il vantaggio di considerare simultaneamente più attributi, mentre i metodi basati sulla dispersione possono solo prendere in considerazione ogni singolo attributo separatamente. DATA TRASFORMATION E' necessario applicare una serie di trasformazioni al data set per migliorare l'accuratezza, trasformando i valori per portarli tutti sulla stessa scala e facilitare gli algortimi (alcuni lo fanno in automatico ex. SVM). Per fare ciò, si utilizzano tecniche di *standardizzazione*: 1. Scala decimale: è basata sulla divisione in appropriate potenze di 10. Ci interessa portare tutti i valori in una scala tra 0 e 1. Formula (slide 18) 1. Minimi e massimi: utilizza una proiezione del segmento originale in quello finale che va generalmente da -1 a 1 o da 0 a 1. Formula E' generalmente il metodo più usato. 1. Z-index: usa la trasformazione (formula) Questo metodo però porta a risultati meno prevedibili. DATA REDUCTION Quando si lavora con grandi dataset è opportuno ridurre la sua grandezza per riuscire a generare algoritmi più efficienti, senza però sacrificare la qualità del risultato ottenuto. Gli obbiettivi sono: - Aumentare l'efficienza nella parte di model identification, infatti, dovendo provare diversi algorritmi avere un subset più piccolo per poter testare il numero più alto nel minor tempo possibile è un notevole vantaggio. - Preservare l'accuratezza del modello - Ottenere modelli più semplici E vengono ottenuti in 3 diversi modi: - Riduzione nel numero di osservazioni tramite *sampling* - Riduzione nel numero di attributi tramite *selezione* e *proiezione* - Riduzione nel numero di valori tramite *discretizzazione* e *aggregazione* SAMPLING Scegli un subset di quello iniziale. La riduzione viene ottenuta estrapolando un set di osservazioni significative dal punto di vista statistico. Si suddivide a sua volta in: - Simple = non tiene conto della proporzione nel data set originale della distribuzione degli attributi - Stratified = estrae dal tipo di dato la quantità necessaria in modo da mantenere la proporzione Generalmente un campione di 1000 osservazione è adatto per allenare la maggior parte dei modelli. FEATURE SELECTION L'obiettivo della feature selection è di eliminare dal dataset un subset di variabili non rilevanti per lo scopo del data mining (trovare pattern tra i dati forniti). I metodi di feature selection possono essere classificati in 3 categorie: 1. Filter methods = l'utilizzatore sceglie gli attributi da utilizzare senza prima allenare l'algoritmo. Gli attributi vengono valutati secondo la loro significatività. Possono essere per esempio decisi un target e un indicatore statistico di paragane, in modo tale che l'attributo in considerazione venga valutato in base a metriche oggettive. In particolare, il metodo più diffuso consiste nel valutare la correlazione con il target. 2. Wrapped methods = l'algoritmo viene eseguito per ogni set di valori selezionando successivamente il set di attributi che garantisce il miglior risultato in termini di accuratezza. In questo caso la nostra influenza per la scelta si sposta al tipo di algoritmo con cui abbiamo i risultati più vicini a quelli desiderati. 3. Embedded methods = in cui la selezione degli attributi è intrinseca all'algoritmo. L'esempio diretto sono i classification tree in cui a ogni nodo l'algoritmo utilizza funzioni per stimare il valore predittivo di ogni attributo o una combinazione lineare di attributi. PCA Metodo più diffuso di riduzione degli attributi tramite proiezione. DATA DISCRETIZATION Può essere utilizzato solo per attributi numerici. E' il principale metodo di riduzione e ha come obbiettivo quello di ottenere una diminuzione del numero di valori distinti assunti da uno o più attributi. Tra le tecniche di discretizzazione più utilizzate ci sono: - Subjective subdivision = è la più popolare nonché intuitiva. Le classi sono suddivise in base all'esperienza di esperti nel dominio di applicazione - Subdivision into classes = consiste nell'automazione della suddivisione in più classi ordinando gli attributi in maniera crescente e aggruppandoli in K gruppi, scelti in base a size o width - Hierarchicak discretization = si basa su relazioni gerarchiche intrinseche all'attributo (paese, provincia, regione...). È l'unica che può essere applicata ad attributi categorici. Data una relazione gerarchica da uno a molti è possibile sostituire ogni valore di un attributo con il corrispondente valore trovato ad un livello gerarchico più alto. EDA Lo scopo dell'exploratory data analysis è di evidenziari le features più rilevanti per ciascun attributo del dataset, utilizzando metodi grafici e calcolando statistiche, e per identificare le relazioni intrinsiche ai diversi attributi. Tendenzialmente l'analisi si divide in tre fasi: univariata, bivariata e multivariata per indagare prima le proprietà del singolo attributo e successivamente di più attributi tra loro. UNIVARIATA (su cui ci concentriamo) L'interesse principale è la tendenza degli attributi di concentrarsi attorno un valore centrale (location) per misurare la propensione della variabile di assumere un range di valore più o meno ampio vicino ad esso (dispersion) e per estrarre informazioni sulla probabilità di dispersione. Lo scopo è quello di poter trarre conclusioni intuitive dai *grafic*i e in evidenziare in una variabile anomalie e valori non standard. - Grafici per attributi categorici: rappresentazione delle distribuzioni empiriche delle osservazioni. La rappresentazione è principale per questa categoria di attributi è la vertical bar chart, la quale ha sull'ordinata l'attributo e sull'ascissa la frequenza con cui si presenta. La frequenza empirica è il numero di osservazioni del data set che corrisponde ad ogni osservazione assunto da un attributo. (formula 'e' + frequenza empirica relativa e foto slide 33) Per campioni sufficienti ampi la frequenza empirica relativa è approssimabile alla densità probabilistica dell'attributo. (formula) - Grafici per attributi numerici: in questi casi viene applicata una discretizzazione andando a suddividere l'intero range di valori continui in intervalli di uguale misura, andando a costruire graficamente un istogramma. Il numero di osservazioni in ogni intervallo viene contato e l'altezza relativa corrisponde alla densità probabilistica definita come (formula librkk pag128) Assegnazione del valore centrale (location) per attributi numerici - *Media:* il metodo più noto è la media aritmetica definito come (formula pag 130. Dato che tutte le osservazioni sono utilizzate per calcolare la media, essa è molto suscettibile agli outliars. Inoltre non sempre coincide con un valore effettivo, risultando più astratta. - *Mediana:* può essere definita come il valore centrale, assumendo che le osservazioni siano ordinate. E' molto adatta per le disttibuzioni asimmetriche in quanto è influenzata solo dal numero di osservazioni nella serie e non da valori estremi (foto131) - *Moda:* viene definita come il valore che corrisponde all'apice della densità empirica della curva di attributi. In distribuzioni con più punti di moda essa assume poca rilevanza e non ha nessuna rilevanza statistica in campioni piccoli. - *Midrange* - *Media Geometrica* Misura della dispersione per attributi geometrici Foto slide 35 - *Range:* è il più semplice metodo della misura di dispersione ed è definito come la differenza tra il massimo e il minimo delle osservazioni (formula slide36). Non è in grado di cogliere la reale dispersione dei dati nel caso in cui due dispersioni abbiano uguali max e minimo ma diverse dispozioni dei valori. (foto esempio) - *Mean Absolute Deviation:* la deviazione (s) di un valore, in sé, è definita come la differenza tra il valore e la media aritmetica (formula). Da questa possiamo esprimere la formula della MAD (formula) - *Varianza:* è il metodo più utilizzato. (formula) La deviazione standard è ottenuta come la radice quadrata della deviazione standard - *Coefficiente di variazione:* è definito come il rapporto tra deviazione standard e valor medio espresso in termini percentuali (formula pag136). Viene utilizzato per comparare due o più gruppi di dati, solitamente ottenuti da distribuzioni differenti. MISURA DELLA LOCATION RELATIVA AGLI ALTRI ATTRIBUTI E' utilizzata per esaminare la localizzazione di un valore rispetto agli altri valori. Quantili Il quantile di ordine p, con 0\