Summary

Questi appunti trattano le tecniche di analisi dei dati, descrivendo algoritmi e formule.  Vengono presentati diversi esempi e concetti, come la matrice bersaglio, la matrice riprodotta e l'analisi delle differenze tra questi elementi.  Il documento esplora anche le tecniche a bersaglio fisso e mobile, evidenziando quando la tecnica si applica a dati modificati e trasformati e quando si applica a dati non modificati.

Full Transcript

LEZIONE 8: TECNICA DI ANALISI DATI In prima approssimazione, una Tecnica di Analisi dei Dati (T.A.D.) è un algoritmo che: esamina una matrice bersaglio Y estrae da essa un set parsimonioso di k parametri incogniti la riproduce al meglio mediante una formula di ricostit...

LEZIONE 8: TECNICA DI ANALISI DATI In prima approssimazione, una Tecnica di Analisi dei Dati (T.A.D.) è un algoritmo che: esamina una matrice bersaglio Y estrae da essa un set parsimonioso di k parametri incogniti la riproduce al meglio mediante una formula di ricostituzione r(k) Se esiste una soluzione univoca, l’algoritmo assegna i valori numerici alle k incognite, basandosi sul contenuto di Y e, in alcuni casi, su assunti distribuzionali relativi ai dati. I k valori estratti rappresentano la soluzione della tecnica. La soluzione e altre informazioni (ad es. indici di valutazione della soluzione) costituiscono l’output della tecnica. Applicando la funzione r() ai valori estratti dei k parametri si ottiene Ŷ(la matrice riprodotta). La differenza tra bersaglio e riprodotta genera una matrice dei residui: D = Y - Ŷ. →Relazione che lega le matrici bersaglio e riprodotta: Y = Ŷ +D = r(k)+ D o ancora più sinteticamente: Ŷ = r(k) ≅ Y Talvolta Y coincide con l’input minimo X. In altri casi è una sua trasformazione per renderlo più facilmente riproducibile, o è solo una sua parte: si dice che Y è una mappa di X e si indica con m(X). (→rinvio bersaglio fisso e mobile) Quando Y è solo una parte dell’input minimo X, la restante parte viene detta supporto (la indichiamo con s) ed entra nella formula di ricostituzione. In altri termini: il supporto, quando è presente, è irrilevante a fini dell’individuazione di Y (matrice bersagliio), ma serve a costruire Ŷ (matrice riprodotta). Formula generale di una T.A.D. : m(X) = Y ≅ Ŷ = r(k;s). 1 ***Testo bersaglio fisso e mobile m(X) è una opportuna trasformazione dell’input detta mappa della tecnica, che trasforma l’input minimo X nel bersaglio Y […] Nel caso strutturalmente più semplice, m(X) è la trasformazione identica (quindi Y=X) Per tecniche a bersaglio fisso si intende che la funzione m(X) è uguale alla trasformazione identica oppure è una trasformazione nota a priori (ad es. standardizzazione), e quindi è una parte banale della soluzione. Per tecniche a bersaglio mobile si intende il fatto che, entro limiti ben definiti, la tecnica può operare sull’input (o su una sua porzione) per renderlo più facilmente riproducibile. Tutte le TAD concepite prima della “rivoluzione empirista” degli anni Sessanta erano a bersaglio fisso. È solo a partire dal 1962 che comincia a svilupparsi una famiglia di tecniche a bersaglio mobile, come lo scaling non metrico, la regressione robusta e le tecniche basate sui minimi quadrati alternati 1962 e il 1964 Shepard e Kruskal pubblicano due articoli che segnalano la nascita delle tecniche a bersaglio mobile: anziché cercare di riprodurre le prossimità tra oggetti così come si presentano [nelle percezioni degli intervistati] (matrice di input X), si potrebbe cercare di riprodurre una matrice di disparità Y ottenuta trasformando opportunamente X, ossia di modificare il bersaglio della tecnica con una funzione m(X) (la mappa della tecnica) 1 Es di TAD sy excel da riguardare dopo aver studiato regressione lineare semplice) Anziché cercare di rendere più flessibile la forma del meccanismo generatore, studiosi come Shepard e Kruskal decidevano di rendere flessibili i dati stessi. Una volta accettato un determinato input, si tratta di trasformarlo, con i vincoli detti, finché si riesce a renderlo riproducibile nel modo più accurato possibile. Cambiamento concezione dell’errore: nell’ottica classica, razionalista, il dato non si tocca non già perché sia “vero”, ma perché i modelli con cui si cerca di tenerne conto incorporano esplicitamente l’errore. Proprio perché contiene “rumore”, il dato non può essere ripulito con trasformazioni deterministiche (come quelle previste dalle tecniche a bersaglio mobile), il cui solo effetto è quello di alterare la distribuzione statistica degli errori. E proprio perché il rumore è irriducibile, nell’ottica classica il problema non è di rendere trascurabile (piccola) la discrepanza tra matrice osservata (bersaglio) e matrice riprodotta, ma solo di renderla non troppo più ampia di quella che “ragionevolmente” ci si può aspettare. Con le architetture post-classiche (empiriste) si comincia, invece, a pensare che se le nostre soluzioni non riproducono accuratamente i dati non è perché questi incorporano una fonte di errore irriducibile, ma perché il tipo di scala dei dati non è noto a priori ma può essere scoperto attraverso l’analisi, costruendo il bersaglio ottimale attraverso la mappa della tecnica. Da qui l’idea che, opportunamente “massaggiati”, i dati divengano facilmente riproducibili e che l’entità della discrepanza tra matrice bersaglio e matrice riprodotta possa diventare trascurabile. Di qui, infine, la possibilità di fare a meno della statistica e dei modelli probabilistici. Es del Multidimensional scaling Estrazione dei parametri In alcuni casi i valori dei k parametri sono estratti con: - metodi analitici: si esplicitano le k incognite nel sistema di equazioni e si assegnano loro i valori che rendono massima o minima una certa funzione obiettivo (ad es. il metodo dei Minimi Quadrati). - metodi numerici. Un esempio è un algoritmo che dà un valore provvisorio a ogni parametro (starting values) poi, in ulteriori passi (iterazioni), modifica i valori di partenza cercando, per approssimazioni successive, quelli che ottimizzano la funzione obiettivo. Quando si ha un passo in cui il miglioramento è marginale per soglie date (convergenza), l’algoritmo si ferma e dà la soluzione. SCHEMI MODELLI Si considera solo la scissione Y= Ŷ + D dove Incorporano assunti sulla distribuzione dell’errore. Y - Y è la matrice bersaglio, = Y  +  è la scissione virtuale del dato osservato in - Ŷ è la matrice riprodotta una parte sistematica e una parte aleatoria: - D è la matrice dei residui (o scarti) - la prima, Y , è ciò che interessa, il segnale, - la seconda,  , è il rumore (errore di Gli algoritmi non incorporano alcun tipo di assunto misurazione ecc.). relativo alle tre matrici. Conta solo la capacità della Su questo processo generatore dei dati vengono fatti T.A.D. di riprodurre al meglio la matrice bersaglio Y assunti statistici; es. E( ) = 0 ; d(  ) Nor La (livello di adattamento). scissione effettivamente operata dalla tecnica è ancora Y = Ŷ + D ma gli algoritmi incorporano assunti sul processo e la valutazione dei risultati si avvale dell’inferenza statistica. La differenza tra schemi e modelli è importante solo i modelli si possono sottoporre a una logica falsificazionista (usando gli strumenti della statistica inferenziale). In uno schema, la differenza Y - Ŷ è confrontata con valori-soglia scelti soggettivamente dal ricercatore, al più sulla base di convenzioni consolidate. La soluzione non è giudicabile in termine di falsità-verità ma solo in termini di capacità euristica. In un modello, dopo aver controllato che D abbia una struttura simile a , si considera Ŷ come una stima di Y  ; prima di commentare i valori stimati occorre valutarne la significatività statistica. Nelle simulazioni, in cui Y  è nota, si può valutare la fedeltà di Ŷ. TECNICHE 1. Le Tecniche di Analisi Multivariata (TAM) che parlano il linguaggio delle variabili e si usano per esaminare relazioni tra variabili (es. definire indici di dipendenza o di covariazione). A queste appartiene l’analisi fattoriale. Detto altrimenti, i casi sono un semplice supporto per il manifestarsi delle variabili, delle quali si studiano le relazioni intercorrenti. Il loro scopo può variare molto, ma in linea generale si può dire che “il nucleo logico essenziale di una soluzione prodotta da una tecnica di analisi multivariata è un insieme di coefficienti di dipendenza (o di impatto), che descrivono in che modo i cambiamenti su una variabile, manifesta o nascosta, sono collegati ai cambiamenti sulle altre” Alcune tecniche di analisi multivariata 2. Le Tecniche di assegnazione (TAss): parlano il linguaggio degli oggetti e servono a studiare le relazioni tra oggetti per sintetizzare nuove variabili (e talvolta ad aumentare il livello di scala). Prendendo come esempio una matrice CxV, servono ad assegnare dei valori ai casi in nuovi vettori-colonna. L’input comunque è in genere costituito da una matrice che descrive le relazioni fra un certo numero di oggetti (quindi una matrice OxO – Oggetti per Oggetti); la tecnica riscrive tali relazioni come il risultato degli stati che gli oggetti stessi assumono su un certo numero di proprietà latenti. Le tecniche di assegnazione si riconoscono facilmente perché, a differenza delle tecniche multivariate, nelle soluzioni che producono non si rintracciano coefficienti di dipendenza o di impatto, bensì i valori di una o più variabili derivate, relative a una o più famiglie di oggetti. Nel quadro di tali tecniche, è possibile distinguere tre canoni di operazioni di ricerca: la classificazione, l’ordinamento e la misurazione. A queste corrispondono altrettante famiglie di tecniche di assegnazione, rispettivamente: le tecniche di clustering, di scaling ordinale e di scaling cardinale. Un aspetto interessante delle tecniche di assegnazione è la loro capacità di far compiere alle strutture dei dati il cosiddetto salto di scala, ossia il passaggio da una struttura dei dati contenente variabili di livello basso (ad esempio una matrice di giudizi binari di in/distinguibilità tra stimoli) a una struttura di dati in cui il livello di scala è più alto del livello di partenza 2.1 Cluster analysis(clustering)→ classificazione: ampia gamma di algoritmi (diverse centinaia) che servono a suddividere automaticamente un insieme di oggetti in un certo numero di gruppi, possibilmente non troppi, in modo tale che vi sia alta omogeneità entro i gruppi (within) e alta eterogeneità tra i gruppi (between). Gli algoritmi di clustering si raggruppano in due famiglie: - k-means: richiedono una specificazione a priori del numero di cluster in cui raggruppare i casi; - gerarchici: più utili per chi fa ricerca sociologica su dati di disegno, soprattutto quando non si sa a priori quanti sono i cluster. Produce una gerarchia di cluster basata sulla loro numerosità. Il livello gerarchico più basso è quindi quello in cui ogni caso è un cluster a sé, il livello più elevato è quello in cui tutti i casi fanno parte di un unico raggruppamento. Si distinguono due procedure: agglomerativa e divisiva. Da una matrice CxV in cui le variabili (dummy) sono aspetti dell’UE condivisi o non condivisi e i casi sono elettori di partiti italiani (per semplicità consideriamone uno solo per partito), deriviamo una matrice di consonanza C1 , l’input minimo della tecnica Esempio di cluster analysis gerarchico-agglomerativa Supponiamo di fermarci al terzo step di agglomerazione, abbiamo quindi tre cluster. Dall’esame dei profili e sulla base di conoscenze pregresse potremmo ad esempio definirli: «antieuropeisti» (ItalExit), «europeisti convinti» (+Europa, PD), «euroscettici» (FdI, Lega, Forza Italia). 2.2 Multidimensional scaling metrico→ misurazione Esempio: Si è chiesto agli intervistati quanto ritengano simili (prossimi) i partiti sul tema «difesa delle libertà». 3. Le tecniche ibride combinano gli obiettivi dell’analisi multivariata (TAM) con quelli dell’assegnazione (TAss), quindi producono sia coefficienti di dipendenza sia nuove variabili. In linea di principio, possono essere combinati diversi canoni, ma in gran parte si tratta di impieghi di tecniche multivariate per la costruzione di variabili derivate. Due esempi che ci riguardano: - costruzione dei residui di regressione (combiniamo spiegazione e misurazione); - stima dei punteggi fattoriali individuali nell’analisi fattoriale (interpretazione e misurazione). Poiché adottano sia il linguaggio degli oggetti sia quello delle variabili, le tecniche ibride operano su matrici di Profili.

Use Quizgecko on...
Browser
Browser