Analisi Dei Dati PDF

Summary

This document provides an outline of data analysis techniques including concepts like deviation, variance, correlation, and linear regression.

Full Transcript

ANALISI DEI DATI Testo: “sta s ca per la psicologia I”...

ANALISI DEI DATI Testo: “sta s ca per la psicologia I” Varianza= media degli scar eleva al quadrato fra o il numero delle osservazioni Devianza= numeratore varianza ed è la somma del quadrato degli scar Deviazione standard= quanto i valori si discostano dalla media Punteggi z: descrivono un punteggio avvalendosi di media e ds. Il punto z è il numero di deviazioni standard sopra (o so o se nega vo) che un dato punteggio ha rispe o alla media della propria distribuzione di riferimento. Media=0 e DS=1 Indici di tendenza centrale: moda (valore che si presenta piu spesso e può essere usata su da di ogni scala), mediana (valore che occupa la posizione centrale per da di scala da ordinale in su), media (per da su scale a intervalli o a rappor ) Capitolo 3 – Relazioni tra variabili Il conce o che è alla base della correlazione è quello di covarianza e non quello di causalità. Date due variabili x e y, misurate sugli stessi sogge , de niamo covarianza la tendenza di x e y a variare insieme. Il ricercatore è interessato a conoscere il po di relazione, l’intensità e la sua direzione. Il po di relazione è de nito dalla sua forma es. il po lineare (pun sul gra co rientrano in un’ellisse, signi ca che sono molto vicini alla re a che divide il quadrante). L’intensità riguarda l’en tà della relazione e si parla di: relazione nulla (assoluta indipendenza tra variabili) e concordanza o discordanza (sistema cità nel variare insieme). La direzione della relazione può essere posi va (crescono o diminuiscono insieme) o nega va (una cresce e l’altra diminuisce). Per visualizzare queste info è molto u le il diagramma di dispersione. Rappresentazione gra ca: il diagramma di dispersione Supponiamo di essere interessa a studiare il po di relazione che lega due variabili (x e y). Il primo passo è quello di rappresentare gra camente la loro relazione. A questo scopo è molto u le costruire quello che viene chiamato diagramma di dispersione (sca er-plot). Questo po di gra co consente di visualizzare la tendenza di due variabili a variare insieme. Si disegna riportando i valori delle osservazioni su un sistema di assi cartesiani, in cui l’asse x (ascisse) rappresenta una delle due variabili e l’asse y (ordinate) l’altra variabile. Per ciascuna coppia di punteggi si tracciano i segmen paralleli ai due assi no al loro punto di intersezione. La forma della nuvola di pun cosi o enuta consente una valutazione visiva dell’associazione tra le due variabili (forma, direzione e intensita) La misurazione della relazione tra due variabili Su scale a intervalli o a rappor equivalen , per sinte zzare l’intensità e la direzione di una relazione si u lizza il coe ciente di correlazione r di Bravis-Pearson, che rappresenta il grado di concordanza o discordanza della posizione dello stesso individuo in due variabili e può assumere tu i valori compresi tra -1 e +1 con il seguente signi cato: →r= +1. Concordanza posi va perfe a (i pun si dispongono formando una re a). ti tti fi ti tt tt t ti ti ti ti fi fi ti fi ti ffi ti ti fi ti ti ti ti tt fi tt ti ti tt ti ti ti ti tt ti ti fi ti ti ti tt fi tt ti ti tti ti tt ti fi ti →r compreso fra +1 e.50. Relazione posi va elevata (i pun si dispongono intorno alla re a). Al crescere di un’unità di misura per le modalità della x, cresce di una quan tà costante il corrispondente valore delle modalità della y →r compreso fra.50 e.20. C’è una tendenza alla relazione posi va. →r compreso fra.20 e -.20. Indica totale assenza di relazione per r=0 o comunque molto leggera. →r compreso fra -.20 e -.50. C’è una tendenza alla relazione nega va. →r compreso fra -.50 e -1. Indica una relazione nega va molto elevata. →r= -1. Concordanza nega va perfe a. Al crescere di un’unità di misura per le modalità della x, decresce di una quan tà costante il corrispondente valore delle modalità della y Un valore assoluto basso o nullo di correlazione non va interpretato come assenza di una qualsiasi forma di relazione tra le due variabili: è assente solo una relazione di po lineare. Un’elevata correlazione fra due variabili non implica una relazione causa-e e o. Un alto valore posi vo del coe ciente di correlazione r di Pearson indica che ciascun individuo dovrebbe o enere piu o meno lo stesso punteggio z su ambedue le variabili. Nel caso di correlazione posi va perfe a (r=1), no indiviso o errà esa amente lo stesso punteggio z su ambedue le variabili. Analogamente, nel caso di una r altamente nega va, ciascun indizio dovrebbe o enere approssima vamente lo stesso punteggio z sulle due variabili, ma di segno opposto. Non è una buona misura di associazione se: la relazione è non-lineare o ci sono valori estremi. Formula per il calcolo: dove con zxi e z yi si intendono i punteggi standardizzati delle variabili x e y. Se mol plichiamo i valori associa dei punteggi z e quindi li sommiamo, o eniamo il massimo solo quando il coe ciente di correlazione è 1. Infa , mano a mano che il coe ciente di correlazione si avvicina a 0, la somma dei prodo delle variabili z associate si avvicina anche essa a zero. Da notare che quando la correlazione è perfe a, la somma dei prodo dei valori z appaiate è uguale a n, ossia il numero delle coppie stesse. Un altro modo per analizzare r è quello di esprimere tale coe ciente in termini di covarianza (varianza dell’intersezione tra x e y, cioè la parte di varianza in comune alle due variabili). È la media del prodo o degli scar di ciascuna variabile dalla propria media, cioè: tt tti ti tt tt ti ti tt ti ffi ti tt ffi ti ti ti tt tt ti ffi ti tt ti tti ti tt ffi ff ti ti tt ti ti ti tti tt Coe ciente di determinazione r2 È un indice che misura l’ammontare della variabile Y che viene spiegata dalla sua relazione con la variabile X. È la percentuale di variazione di una variabile che può essere a ribuita alla variazione dell’altra. Invece, per le scale ordinali, si u lizza il coe ciente r di Spearman rs, che fornisce un indice di correlazione tra ranghi. Questo può essere usato anche quando una variabile è misurata su scala ordinale e l’altra su scala a intervalli o a rappor equivalen , riconducendo la seconda ad una scala ordinale; si può passare da scale di livello superiore a quelle di livello inferiore ma non il contrario. rs varia tra -1 e +1 e i valori hanno lo stesso signi cato dei corrisponden valori di r. A ribuire un ordine di rango signi ca associare ad ogni elemento di un gruppo un numero appartenente ai numeri reali che corrisponde al posto che il sogge o occupa rispe o ad altri nel gruppo. Si da al rango 1 al primo elemento della graduatoria, rango 2 al secondo… Se due sogge appartengono allo stesso rango si assegna ad ogni sogge o la media dei ranghi che si sarebbero dovu avere se le posizioni fossero state di eren. L’ul mo elemento della graduatoria avrà rango pari al numero totale degli elemen della graduatoria stessa. il calcolo si basa sulle di erenze (d) riscontrate tra i ranghi a ribui allo stesso sogge o (i) nelle due variabili; la formula è: Quindi si ha una correlazione posi va perfe a quando di= 0, mentre si o ene una correlazione nega va perfe a quando per ogni sogge o si hanno posizioni in graduatoria opposte. Tu avia, esiste anche un altro coe ciente di correlazione per le scale ordinali tra ranghi ovvero il tau di Kendall, che varia tra -1 e 1 e viene applicato quando ci sono mol ranghi uguali. Calcolo: 1)si me ono in ordine crescente i valori di x; 2)si considerano i corrisponden valori di y; 3)iniziando dal primo si confronta ogni valore con tu quelli che lo seguono; 4)ogni volta che la coppia di valori si trova nell’ordine corre o si a ribuisce +1, altrimen -1; 5)tu i valori vengono somma e la somma (S) viene messa in relazione con il valore che si o errebbe se fosse sempre rispe ato l’ordine. Formula di calcolo: Quando si vuole calcolare la misura della relazione tra una variabile misurata su scala a intervalli o rappor equivalen e una variabile è categoriale a due soli livelli (dicotomica), si usa il coe ciente di correlazione punto biseriale rpb la cui formula è: tt ffi ti tt ti tt ti tti tt ti ti fi ff ti ti ffi tt tt ffi tt ti tt fi tt tti ff ti ti tt ti tt ti ti ti tt ti ti tti tt tt ti tti tt tt ffi Dove: n= numero tot di sogge ; x= variabile con nua; y= variabile dicotomica; sx= scarto quadra co medio di x; xa= media in x di coloro che in y hanno valore a; xb= media in x di coloro che in y hanno valore b; na/n= proporzione di sogge che in y hanno valore a; nb/n proporzione di sogge che in y hanno valore b. Questo è molto u lizzato in psicologia, specialmente quando si vuole calcolare la correlazione di ciascun item dicotomico (risposte SI-NO, giuste-sbagliate ecc.) con il punteggio totale del test e per valutare la coerenza interna dello strumento. Per misurare, in ne, la relazione tra due variabili entrambi categoriali a due livelli (dicotomiche) es. associazione tra due item di uno stesso test, entrambi dicotomici si usa il coe ciente di correlazione tra variabili dicotomiche rphi e si basa sulla costruzione di una tabella di con ngenza. Formula di calcolo: La regressione Questo conce o è stre amente correlato a quello di correlazione. Per parlare di regressione occorre de nire una variabile indipendente (x) e una variabile dipendente (y) e impostarle in una relazione di causa-e e o: date due variabili x e y, la relazione è veramente dovuta al fa o che x è causa di y. Tu avia, bisogna sempre considerare che non ci siano terze variabili che sono causa di x e y e spiegano la loro relazione. Elevando al quadrato i termini della formula del coe ciente di correlazione o engo il coe ciente di determinazione (in una relazione causale esprime la porzione di varianza della VD causata da VI). Quindi 1-r2 sarebbe la proporzione di varianza della VD non causata da VI de a varianza residua. Nel caso di correlazione perfe a, la varianza spiegata (r2) sarà il 100% della varianza totale, infa , per r=1, r2= 1, 1-r2= 0. Regressione lineare= insieme di procedure sta s che che consentono di usare le informazioni che si hanno su una variabile per predirne un’altra. È una tecnica che esamina e studia la relazione tra una o più variabili indipenden e una variabile dipendente (variabile criterio). Perme e di comprendere gli e e delle VI sulle VD in funzione di un modello teorico (esplica vo) e perme e di individuare una combinazione lineare di VI per predire il valore della VD (predi vo). Lo studio della relazione tra X e Y serve a veri care se e quanto la variabile indipendente spiega o in uenza la variabile dipendente. Quando il legame tra due variabili è molto stre o e l’ipotesi della ricerca ci consente di de nire le variabili come dipendente o indipenden , dato un valore di X (variabile indipendente) è possibile prevedere, con un margine di errore più o meno grande, il corrispondente valore di Y (variabile dipendente). Si u lizza l’equazione di regressione (una sorta di formula predi va) che è un’equazione di una re a (perché si tra a di relazioni lineari). Dato un certo valore di X è possibile determinare il valore di Y’ (Y prede o). Y’= a + bx Tu avia, la re a di regressione è la migliore tra tu e le in nte re e che si possono far passare a raverso i punto del diagramma di dispersione. Si trova con il criterio dei minimi quadra , che consiste nello scegliere quella re a che rende minima la somma delle distanze al quadrato tra le Y (v. osservate) e le Y’ (v. s mate): tt tt tt ti tti ti fi tt tt tt tt tt fi fi ti ff tt ff tti tt tt ti tt ffi tti ti tt fi tti ti tti ti ti tt fi ti tti tt tt tt ffi tti ti ffi tt tt ti ti fl tt Data la generica equazione di una re a y= a + bx + e [(errore di previsione o residuo)) Se la relazione fosse perfe a tra X e Y, per ogni osservazione su X si avrebbe una e una sola osservazione su Y. Nella realtà le relazioni tra le variabili non sono perfe e, quindi nell’equazione di regressione bisogna incorporare un termine di errore ( o residuo) per ogni caso. e = (y-y’) deviazione del punteggio osservato y dal punteggio teorico y’] nella quale a e b sono parametri igno e x è il valore della variabile nota, nella re a di regressione a e b si de niscono: →b è il coe ciente di regressione (inclinazione della re a, cioè l’angolo che essa forma con l’asse delle ascisse e indica la quan tà di cambiamento in y che si prevede per 1 unità di cambiamento in x) e si calcola: oppure →a è l’interce a sull’asse delle y (distanza tra l’asse delle x e il punto di incontro della re a di regressione con l’asse delle ordinate) (altezza della linea e corrisponde al valore a eso di Y quando X =0) e si calcola: oppure I pun sulla re a di regressione y’ rappresentano i punteggi che in media possiamo aspe arci di osservare in y nella popolazione per un certo valore di x. Testo : “sta s ca per la psicologia II” Capitolo 1 – La probabilità È necessario fare una dis nzione tra: probabilità frequen sta dove la probabilità che si veri chi un certo evento è uguale alla frequenza rela va con cui l’evento si veri ca in un numero di prove su cientemente grande, ripetute nelle medesime condizioni, quindi, consente di conoscere la probabilità solo a posteriori P (A) = lim (n-♾ ) Fa / n e probabilità teorica dove la probabilità viene de nita come il rapporto tra i casi favorevoli e quelli ugualmente possibili. Es. se vogliamo sapere qual è la probabilità che lanciando un dado venga 5, secondo la probabilità frequen sta è pari a 2/10 se ci basiamo su 10 lanci, mentre secondo la probabilità teorica è pari ad 1/6 perché ci basiamo sugli even possibili (6 facce). ffi ti tt ti ti fi ti ffi tt tt tt ti ti ti tt ti ti fi tt ti tt fi tt tt tt fi Eventi indipendenti e teoremi relativi Si de nisce evento uno dei possibili risulta di una prova P(A) ma c’è anche l’evento contrario P(non A) e insieme de niscono tu i possibili esi della prova che è uguale ad 1 (evento certo) P(A) + P(non A)= 1 e P(non A) = 1 - P(A) = Q(A) Inoltre, due even sono de indipenden se il veri carsi dell’una non in uenza il veri carsi dell’altro e mutualmente escluden si se il veri carsi dell’uno non consente il veri carsi dell’altro. Principio della somma= la probabilità di veri carsi di due even mutualmente escluden si è uguale alla somma delle probabilità di veri carsi dei singoli even : P(A o B)= P(A) + P(B) Principio del prodo o o delle probabilità composte= quando due even si veri cano simultaneamente o in successione allora: P(A e B) = P(A) x P(B). Questo principio è estendibile agli even dipenden (il modi carsi dell’uno modi ca la probabilità di veri carsi dell’altro) e diventa: P(AB)= P(A) P(B/A)= P(B) P(A/B). Esempi di applicazione dei principi della somma e del prodo o: la probabilità uguale a 1 è la probabilità dell’evento cosidde o certo: siamo infa sicuri che per esempio lanciando due dadi, o erremo un numero tra 2 e 12 come somma delle due facce. Gli even non sono tu ugualmente probabili: l’evento “somma=2“ si può veri care solo se ciascuno dei due dadi si presenta con la faccia 1, mentre l’evento più probabile è l’evento “somma= 7“ La distribuzione binomiale Ad ogni evento è associabile una probabilità che assume una distribuzione de nita sulla base dell’evento stesso. Un evento dicotomico x (es. testa o croce) ha una distribuzione teorica di probabilità che assume una forma binomiale. Serve per calcolare la probabilità di avere X successi in N prove indipenden (non in uenzata dalla prova del precedente e che non in uenza la prova successiva). Fa in modo che passando da una prova all’altra la probabilità non cambi Si tra a di una distribuzione discreta, cioè dove x assume solo valori interi, simmetrica con i valori centrali più probabili e quelli estremi meno probabili: la simmetria deriva dal fa o che p = 0.50; (per p < ,50 è asimmetrica posi va e per p > ,50 è asimmetrica nega va). La somma di tu e le probabilità è uguale a 1. Inoltre, ha una media e una varianza o deviazione standard calcolabili: Media: μ = n × p Varianza: σ2 = n × p × q DS: √ npq Concludendo la distribuzione binomiale è una distribuzione di probabilità che si applica nel caso di variabili discrete e dicotomiche. Calcolo combinatorio= considerando n elemen , si dicono permutazioni semplici di tali elemen le possibili combinazioni e e uabili in cui conta l’ordine in cui gli elemen sono dispos e non si possono ripetere gli stessi elemen all’interno di ogni permutazione. Si chiama permutazione di un insieme di N ogge ogni serie ordinata di tali ogge , in formula: Si chiama fa oriale di un numero naturale n, il prodo o di tu i numeri naturali compresi fra tt fi ti tt tt t ti tti tt fi ti ff fi tti tt tt ti fl tti ti ti t ti fi fi fi fi ti ti tti tti fi tt fi tt tti ti ti ti fi ti ti ti fl fi tt fi fl fi tti fi ti ti tt ti 1 e n: n fa ori interi decrescen da n a 1. Il fa oriale di n si indica col simbolo n! e indica il numero di permutazioni semplici: n! x (n-1) x (n-2)… Esempio: n = 4 (numero di ripe zioni) x = 2 (numero di even favorevoli) x-1 = 2 (numero di even sfavorevoli) nCx = 4C2 = 4! / (2!) (2!) = 4 x 3 x 2 x 1 / (2 x 1) x (2 x 1) La distribuzione normale La sua distribuzione è simmetrica e unimodale e i valori centrali hanno probabilità più elevata. La probabilità decresce spostandosi a destra e a sinistra, quindi allontanandosi dal centro. L’area so o la curva è uguale ad 1 perché indica tu e le probabilità dell’evento. Si applica a variabili con nue, questo vuol dire che la funzione viene de nita su tu o l’asse dei numeri reali da -♾ a + ♾. Equazione: La curva è: asinto ca all’asse dell’ascisse (la funzione tende ad annullarsi senza mai raggiungere lo zero), simmetrica rispe o a μ, moda, mediana e media coincidono, presenta due essi in corrispondenza delle ascisse μ ± σ e non dipende dal numero di osservazioni, essendo gli unici parametri di de nizione media e deviazione standard. Ogni distribuzione normale può essere standardizzata con il calcolo dei pun z. L’unica distribuzione tabulata è quella con μ= 0 e σ2 = 1 (distribuzione normale standardizzata). I punteggi di variabili su scale intervallo o rapporto possono essere facilmente trasforma in pun Z: la media e la varianza di questa nuova scala corrispondono appunto alla media e la varianza della distribuzione normale standardizzata, si u lizzano le tavole per trasformare X in Z. Entro 1 deviazione standard so o o sopra la media cade il 68% delle determinazioni della variabile, entro 2 deviazioni standard cade il 95%, entro 3 deviazioni standard cade il 99% dei casi. NO FINO ALLA FINE DEL CAPITOLO Altre distribuzioni Distribuzione del chi quadro (χ2)= è una distribuzione di valori al quadrato dove μ e σ2 sono valori no di una variabile casuale normale e il parametro ν varia. Tale distribuzione viene generata dalla somma dei quadra di valori indipenden di una variabile normale standardizzata; se ques valori non sono indipenden bisogna stabilire quan sono i vincoli che li condizionano. Quando si so rae il numero di vincoli dai valori che sono somma si o engono i gradi di libertà (gdl). Il parametro ν coincide con i gdl quando esistono vincoli tra valori. La distribuzione F di Snedecor= è de nita dal rapporto tra due variabili χ2 indipenden : tt ti tt tt fi ti ti ti tt ti ti ti ti ti fi tt ti fi ti ti tt tt ti tt fl ti ti ti ti ti tt Si tra a di una famiglia di distribuzioni de nite sulla base dei due parametri ν1 e ν2. Inoltre, sono tabulate per cui è possibile sapere il valore di F conoscendo la probabilità P e i due valori ν1 e ν2. Capitolo 2 – La veri ca delle ipotesi Popolazioni e campioni Viene de nita popolazione o universo l’insieme degli elemen cui si rivolge il ricercatore per la sua indagine mentre il campione è un so oinsieme di n elemen estra o dalla popolazione. Un campione è rappresenta vo se possiede tu e le cara eris che più importan della popolazione da cui proviene e ci è u le il campionamento casuale perché ci perme e di stabilire che le di erenze tra campione e popolazione sono dovute solo al caso e tu gli elemen della popolazione hanno la stessa probabilità di essere estra. Il campionamento casuale può essere con reinserimento (se ogni elemento estra o viene reinserito nella popolazione dalla quale può essere estra o nuovamente) o senza reinserimento (se la popolazione cambia ad ogni estrazione e con essa la probabilità che ciascun elemento ha di essere estra o). Parametri e indicatori L’ogge o di studio è una cara eris ca posseduta dagli elemen della popolazione. Su questa cara eris ca si calcolano indici sta s ci quan ta vi (medie, frequenze, deviazioni standard ecc.) e tali quan tà sono de parametri. Quando l’indice è calcolato nel campione invece che nella popolazione si chiama indicatore o sta s ca e sinte zza la cara eris ca ogge o di esame nel campione estra o. Se calcoliamo l’indicatore su ciascuno dei possibili campioni estra dalla popolazione, ques assumerebbero una distribuzione chiamata distribuzione campionaria es. se l’indicatore fosse la media avremmo una distribuzione delle medie dei campioni, che è di po gaussiano. La sta s ca inferenziale si occupa della s ma dei parametri della popolazione a raverso gli indicatori raccol nei campioni e del controllo delle ipotesi. Per inferire in termini probabilis ci i parametri è necessario individuare le distribuzioni campionarie. La distribuzione campionaria della media È consuetudine chiamare errore standard la deviazione standard delle distribuzioni campionarie. La prima proprietà di cui gode è la seguente: la media delle medie dei campioni coincide con la media della popolazione dalla quale i campioni sono sta estra , cioè: μ x = μ. Anche se le due medie sono uguali, non è de o che la forma delle due distribuzioni coincida perché dipende dall’ampiezza n dei campioni. Inoltre, all’aumentare di n la variabilità della distribuzione campionaria delle medie diminuisce no a tendere a 0 e questa relazione si chiama legge dei grandi numeri: Var (x) = σ2 / n (se la varianza della popolazione è conosciuta). Il teorema del limite centrale dimostra che, per campioni di ampiezza abbastanza grande (con n > 30), la distribuzione campionaria delle medie si approssima alla distribuzione normale qualunque sia la forma della distribuzione della popolazione. La veri ca delle ipotesi: principi generali tt tt tt tt ff fi ti fi ti ti tt tt ti ti ti tti fi ti tt tt ti ti ti ti tt ti ti ti fi tt ti tt ti ti ti tti ti tt ti ti ti ti tt tti tt tt ti tti tt ti tt tti ti ti fi Ci si domanda se il valore o enuto è su cientemente vicino al valore a eso in funzione dell’ipotesi. Tale distanza può essere dovuta al caso (allora l’ipotesi formulata è vera) o non al caso (allora l’ipotesi formulata è falsa). Nel caso l’ipotesi venga ri utata (ipotesi nulla), possiamo ritenere come vera un’ipotesi alterna va. La probabilità e la sta s ca ci devono aiutare a decidere quando due valori sono su cientemente distan : si considera come probabilità cri ca quella pari al 5%, quindi, tu i risulta che hanno probabilità di veri carsi minori di tale livello sono considera signi ca vi (non in grado di veri care l’ipotesi nulla quindi si può acce are quella alterna va). α è anche indicata come “Livello di signi ca vità” (solitamente viene scelto un valore di α pari a 0.05, cioè si è dispos a ri utare l’ipotesi nulla con una probabilità di errore del 5 %). Il livello di signi ca vità può essere rappresentato come la regola decisionale che ci perme e di acce are o ri utare l’ipotesi nulla. Il livello di signi ca vità (α) rappresenta la regione di ri uto o regione cri ca dell’ipotesi H0. Quando ssiamo α = 0,05 acce amo di comme ere un errore del 5% di sbagliare dicendo che H0 non è vera (errore di I po). Errore di I po: si comme e quando si decide che vi sono delle di erenze signi ca ve tra i due campioni, mentre in realtà non ve ne sono. Le di erenze trovate sono dovute esclusivamente al caso. De nizione: L’errore di primo po si comme e quando si ri uta l’ipotesi nulla quando in realtà questa è vera. I valori comunemente assegna ad α sono 0,05, 0,01, 0,001. Si cade in un errore di II po quando acce amo H0 quando l’ipotesi alterna va è vera (β). Errori di II po: si comme e quando si decide di acce are l’ipotesi nulla quando in realtà è falsa. In altre parole si decide che non ci sono di erenze tra i due gruppi quando in realtà il tra amento ha avuto un e e o. 1 - β indica l’area probabilis ca in cui si acce a H1 quando è vera =decisione corre a (potenza del test). Veri ca delle ipotesi: unidirezionale e bidirezionale Un esempio di ipotesi unidirezionale ( o a una coda) si ha quando si ipo zza un cambiamento della variabile dipendente in una direzione SOLA; o aumenta (es. la prestazione) o diminuisce. Un esempio di ipotesi bidirezionale (o a due code) si ha quando si ipo zza un cambiamento in QUALSIASI direzione della variabile dipendente. H0 vera H0 falsa H0 accettata Decisione giusta (1- Errore di II tipo (falso α) negativo) β H0 rifiutata Errore primo tipo Decisione giusta (falso positivo) α (1-β) La potenza di un test statistico Tra il livello di signi ca vità α e la potenza del test sta s co 1 - β (valore che va da 0 a 1 e piu si avvicina ad 1 piu il test è potente) esiste un rapporto inverso: al diminuire degli errori di primo po aumentano quelli di secondo po. Con i valori di α via via più stringen il potere sta s co di un test diminuisce. La potenza di un test è la probabilità che il test produrrà un risultato sta s camente signi ca vo quando H1 è vera. La potenza del test dipende però anche da altri fa ori: livello di signi ca vità α (rischio di comme ere errore di primo po); numerosità del campione; grandezza dell’e e o (di erenza tra risultato a eso e quello sperimentale); a endibilità delle misure. fi ti ff ff fi ff tt tt ti fi ti fi fi fi fi tti fi tt tt ti ti ti fi ti ti ti ti tt ti ffi tt ti ti ti ti tti ff fi ti ti ti ffi fi tti fi tt tt ti tt fi ti tt fi tt ti ti fi fi ti ti ti tt ti ti ti tt ti ti ti ti ff tt tt tt tt ti ti ti fi ff fi tt tt ti ti ti Per aumentare la potenza del test non si può ricorrere al primo fa ore (aumentare α e quindi aumentare la probabilità di incorre in errore di primo po) ed è pericoloso anche aumentare la numerosità del campione perché ci porterà ad acce are e e molto deboli. Dunque, bisogna soppesare il ruolo del terzo e quarto fa ore mentre incidiamo sul secondo. Capitolo 3 – Test parametrici e non parametrici Test statistici parametrici= postulano ipotesi su parametri della distribuzione quali media e varianza, ma ques hanno senso solo se sono veri cate alcune condizioni: disponibilità di un livello elevato di misurazione, almeno su scale a intervalli (su cui è possibile calcolare media e varianza); normalità delle distribuzioni, omogeneità delle varianze, omoschedas cità (condizione che le popolazioni da cui si suppone provengano i campioni abbiano la stessa varianza, una maggiore varianza di una popolazione porterebbe ad una minore precisione della media, la varianza del termine d’errore è costante per tu i valori della X). Necessitano di campioni grandi. In tu i casi in cui queste condizioni non sono soddisfa e, si può ricorrere ai test non parametrici= pongono delle condizioni meno restri ve per un loro corre o u lizzo perché prescindono dai parametri della distribuzione e consentono di veri care le ipotesi anche quando si ha a che fare con variabili di po ordinale o nominale. Consentono di veri care ipotesi sulle distribuzioni di frequenze o mediane e sono la scelta più opportuna nel caso di campioni rido. Se i test parametrici hanno un maggiore potere sta s co (maggiore garanzia di ri utare l’ipotesi nulla quando è falsa), quelli non parametrici mostrano una minore potenza sta s ca e quindi una maggiore probabilità di acce are l’ipotesi nulla quando questa non è in realtà adeguata. Al crescere della numerosità campionaria, i test non parametrici più poten (quelli appropria per la veri ca di ipotesi su misure di po ordinale) garan scono una potenza pari al 95% rispe o al t test e test F. Veri ca delle ipotesi nel caso di un campione I parametri su cui si fanno le ipotesi sono media e varianza (da ad un livello elevato di misura, almeno su scala intervallo), se si tra a di livelli di misura meno eleva si formulano ipotesi sulla distribuzione delle frequenze. Ipotesi sulla media= Si vuole capire se le cara eris che del campione sono analoghe a quelle della distribuzione teorica. Anzitu o è importante avere un campione su cientemente grande perchè la distribuzione campionaria della media ha forma pressoché normale (teorema del limite centrale), consentendo così di sfru arne le proprietà per la veri ca delle ipotesi e quindi per poter u lizzare metodi sta s ci più so s ca. Per veri care un’ipotesi sulla media bisogna conoscere la media stessa e la varianza o la deviazione standard. Supponiamo di conoscere media e ds della variabile x nella popolazione (es. media= 100 e ds= 12), estra o un campione di n=80 sogge vogliamo sapere se il campione è estra o da una popolazione con quella media e quella ds. Ora bisogna stabilire il modello probabilis co: sapendo che la distribuzione campionaria della media ha forma normale quando la sua media è uguale a 100, possiamo u lizzare le proprietà (media delle medie dei campioni coincide con la media della popolazione dalla quale i campioni sono sta estra , cioè: μ x = μ) della distribuzione normale per calcolare la probabilità di o enere fi tti fi ti ti ti tti tti fi tt ti tt ti tt ti tt fi ti tt fi tt ti tt ti tt ti ti tt ti fi ti tt tti ff ti tti ti tt fi ffi