Matematica PDF
Document Details
Uploaded by AdventuresomePluto
Cattolica
Tags
Summary
These notes cover mathematical concepts, including indices, summations, and the representation of coordinate pairs on a Cartesian plane. The text also introduces simple and composite indices, and provides formulas for calculations.
Full Transcript
MATEMATICA (Nozioni di base) Indice: UTILIZZO DI INDICI SOMMATORIE RAPPRESENTAZIONE DI COPPIE DI VALORI (X e Y) SUL PIANO CARTESIANO UTILIZZO DI INDICI INDICI = Si tratta di rapporti sta...
MATEMATICA (Nozioni di base) Indice: UTILIZZO DI INDICI SOMMATORIE RAPPRESENTAZIONE DI COPPIE DI VALORI (X e Y) SUL PIANO CARTESIANO UTILIZZO DI INDICI INDICI = Si tratta di rapporti statistici che permettono di studiare come un determinato fenomeno si evolve/cambia nel tempo Vengono utilizzati quando si studiano fenomeni che variano nel tempo (= serie storiche) Es: popolazione di un territorio, disoccupazione, inflazione Serie storica = è una sequenza di osservazioni quantitative (a1, a2, a3…An) relative ad un certo fenomeno (X) che varia nel tempo La costruzione dei numeri indici nasce dall’esigenza di confrontare nel tempo, nello spazio o, più in generale, in situazioni differenti la variazione dell’intensità di un fenomeno di tipo sociale, economico, demografico 2 TIPI di INDICI: SEMPLICI COMPOSTI o COMPLESSI Si studia l’evoluzione di un solo fenomeno Si esaminano contemporaneamente più per volta in due situazioni differenti fenomeni che possono essere in relazione tra = si mettono a confronto due dati loro relativi ad uno stesso fenomeno in due > L’obiettivo in questo caso è quello di periodi diversi descrivere in modo sintetico la variazione di un gruppo di fenomeni Si dividono in: (N beni e/o N servizi) INDICI a BASE FISSA simultaneamente, in due “situazioni” Si sceglie un periodo di riferimento differenti fisso (base) e si confrontano tutti gli altri periodi con questo Es: il costo della vita, che considera i prezzi di diversi beni e servizi INDICI a BASE MOBILE Si confronta ogni periodo con il periodo immediatamente precedente NUMERI INDICI SEMPLICI Si tratta di numeri puri = sono svincolati dall’unità di misura nella quale è espresso il fenomeno originario > per definizione sono sempre positivi d INDICI SEMPLICI A BASE FISSA In questo caso il confronto avviene tra differenti anni ed un anno scelto come base (che rimane sempre la stessa) = Si confronta ogni periodo con un periodo di riferimento fisso È inoltre possibile confrontare tra loro tutte le diverse situazioni presentate Formula: ESIGENZA: Confrontare ognuno degli anni con una situazione scelta come base (e dunque, indirettamente, anche tra loro, visto che il “denominatore” è sempre lo stesso) Esempio: INDICE FISSO: DATI: Popolazione nel 2018: 59 937 769 Popolazione nel 2019: 59 816 673 Popolazione nel 2020: 59 641 488 l’INDICE diventa più piccolo Ciò significa che la popolazione è in diminuzione rispetto al 2018 ` INDICI SEMPLICI A BASE MOBILE In questo caso il confronto viene effettuato tra i differenti anni e la base cambia al variare dell’indice Si confronta ogni periodo con il periodo immediatamente precedente È quindi possibile rilevare una variazione relativa tra la situazione “X” e l’anno immediatamente precedente Formula: ESIGENZA: Confrontare ogni valore con quello immediatamente precedente Esempio: DATI: Popolazione nel 2019: 59 816 673 Popolazione nel 2018: 59 937 769 Popolazione nel 2020: 59 641 488 Popolazione nel 2019: 59 816 673 INDICE MOBILE: = l’INDICE diventa più piccolo Ciò significa che la popolazione dell’anno 2019 è in diminuzione rispetto al 2018 = l’INDICE diventa più piccolo Ciò significa che la popolazione dell’anno 2020 è in diminuzione rispetto al 2019 È possibile trasformare una serie di indici a base fissa in una serie di indici a base mobile, e viceversa Da base fissa a base mobile > si divide ciascun indice della serie a base fissa per l'indice immediatamente precedente Da base mobile a base fissa > si moltiplicano progressivamente gli indici a base mobile @ INDICI COMPOSTI o COMPLESSI Gli indici compositi o complessi cercano di esprimere la variazione complessiva di molti valori > esaminano, quindi, più fenomeni correlati insieme, offrendo un quadro complessivo, per farlo: 1. Innanzitutto, bisognerà considerare quali aggregati (ossia, quali beni e/o servizi) inserire all’interno del numero indice che vogliamo costruire = Viene preso in esame un paniere di beni es: paniere che rappresenta le spese di una famiglia > cibo, vestiti, servizi, ecc… 2. Si aggregano gli indici per ottenere un indice composito L’aggregazione può avvenire mediante 3 metodi: Media aritmetica > Si calcola la media aritmetica dei rapporti Media ponderata (o pesata) > Si assegna un valore maggiore (ad es) ai beni di prima necessità e minore a quelli meno importanti Indici aggregati di: Laspeyres, Paa-sche e Fisher > che considerano prezzo e quantità scambiate > sistema di pesi Laspeyres Si basa sull’utilizzo, come sistema di ponderazione, delle quantità scambiate all’anno scelto come base Paa-sche Si basa sull’utilizzo, come sistema di ponderazione, delle quantità scambiate all’anno più recente Fisher È dato dalla media geometrica dei numeri indici di Laspeyres e di Paa-sche SOMMATORIE Si tratta di un simbolo matematico che permette di scrivere in modo compatto la somma di un numero finito o infinito di termini COMPONENTI: Simbolo di sommatoria (Σ) = Indica che stiamo sommando una serie di termini Indice della sommatoria (k) = è la variabile che cambia valore all'interno del range specificato Intervallo di valori (n e m) = Indicano gli estremi tra cui varia l'indice k > come estremo m si può anche usare il simbolo infinito ♾ Espressione algebrica (f(k)) = Funzione dei termini da sommare, dipendente dall'indice k. SOMMATORIE FINITE Si tratta di sommatorie in cui l’indice è un numero finito e si possono presentare come segue: Sommatoria di numeri interi Sommatoria di funzioni Sommatoria di quadrati Ci sono poi le SOMMATORIE INFINITE > Si tratta di sommatorie con indice che può variare in un insieme con infiniti valori Per calcolare tali somme non è possibile procedere per sostituzione diretta dei valori dell'indice, in quanto essi sono infiniti. PROPRIETÀ DELLE SOMMATORIE Le sommatorie, intese come somme di un certo numero di addendi, godono di svariate proprietà che spesso agevolano il calcolo della somma Proprietà associativa > se siamo in presenza di due o più sommatorie in cui gli indici hanno lo stesso intervallo di definizione, allora la somma algebrica delle sommatorie è uguale alla sommatoria della somma algebrica Proprietà dissociativa > la sommatoria di una somma algebrica equivale alla somma algebrica delle singole sommatorie Proprietà distributiva > si può estrarre un fattore che non dipende dall'indice dalla sommatoria o, equivalentemente, un fattore esterno alla sommatoria può essere portato al suo interno Scomposizione degli indici > una sommatoria si può scomporre nella somma di due o più sommatorie suddividendo in maniera opportuna l'intervallo di definizione dell’indice Traslazione degli indici > si può cambiare a piacimento l'intervallo di definizione dell'indice, a patto di far variare di conseguenza l'espressione algebrica della sommatoria RAPPRESENTAZIONE DI X e Y FUNZIONE = Si tratta di una relazione che associa: i possibili valori della variabile X a un singolo valore della variabile Y Si scrive: Y= f(X) Per ogni valore che diamo a X possiamo calcolare il corrispondente valore di Y Esempio: Y= 2X X Y In questo caso Y equivale al doppio della variabile X 1 2 2x1=2 A(1;2) - 2 4 2x2=2 B(2;4) Perché Y è = a 2 x X -1 -2 -1 x 2 = -2 C(-1;-2) - 0 0 2x0=0 D(0;0) A seconda del valore che attribuiamo a X avremo Tale tabella ci fornisce una serie di coordinate cartesiane diversi valori di Y = cioè le coordinate di una serie di punti che possono essere riportati su un piano cartesiano Sui du assi sono riportati tutti i valori che possono assumere X e Y - Se uniamo tutti i punti trovati, abbiamo una retta passante per tutti i punti descritti dalla funzione In questo modo abbiamo rappresentato quello che si chiama grafico della funzione Esempio Y= 2X+1 X Y 0 1 2 x 0+1 = 1 A(0;1) 1 3 2 x 1+1 = 3 B(1;3) Y= -X+5 X Y 0 5 0+5 = 5 A(0;1) 1 4 -1+5 = 4 B(1;4) STATISTICA (Nozioni di base) Indice: CARATTERI QUALITATIVI e QUANTITATIVI DISTRIBUZIONI DI FREQUENZA RAPPRESENTAZIONE GRAFICA DEI DATI DEFINIZIONE DEGLI INDICI DI POSIZIONE E DI VARIABILITÀ: - MODA - MEDIANA - PERCENTILI - MEDIA ARITMETICA - VARIANZA CARATTERI QUALITATIVI e QUANTITATIVI VARIABILI Le variabili rappresentano ciò che si intende misurare e permettono di definire le caratteristiche di una tipologia di ambiti = la variabile è la proprietà di un oggetto di ricerca tradotta in termini operativi la quale può indicare e avere diversi stati > definiti MODALITÀ = cioè diverse declinazioni che possono essere date come risposte (se vi è un solo stato non è più una variabile, ma una COSTANTE) Le variabili possono essere classificate in diversi modi a seconda delle caratteristiche del fenomeno a cui fanno riferimento: VARIABILI CATEGORICHE VARIABILI NUMERICHE > Si riferiscono ai dati qualitativi > si riferiscono ai dati quantitativi I quali appartengono a gruppi o categorie I quali assumono valori numerici che forniscono delle risposte > Con essi non si può attribuire nessuna > Con essi c’è un significato misurabile differenza tra coppie di numeri nella differenza numerica Si dividono in: Si dividono in: NOMINALI ORDINALI DISCRETE CONTINUE VARIABILI CATEGORICHE VARIABILI CATEGORICHE NOMINALI ORDINALI Tali variabili si riconducono a fenomeni Gli stati sono ordinabili secondo una inerenti a certi tipi di categorie gerarchia universalmente riconosciuta > esprimono stati del mondo descrivibili > l’unica operazione possibile è che sono descritti e raggruppati al suo l’ordinamento interno > non sono ordinabili Indicano un ordine gerarchico degli elementi Queste variabili permettono di stabilire classificazioni e relazioni di uguaglianza Esempi di scala ordinale: titolo di studio (licenza media, diploma, laurea), o differenza voto scolastico, livello di soddisfazione > non si possono eseguire operazioni matematiche Si tratta quindi di etichette che descrivono le categorie o le classi di risposta > la classifica numerica è scelta per pura convenienza Esempi di scala nominale: stato civile (celibe, nubile, sposato), sesso, cittadinanza, orientamento VARIABILI NUMERICHE VARIABILI NUMERICHE DISCRETE CONTINUE Misurano fenomeni che presentano solo Si riferiscono a fenomeni utilizzando numeri interi numeri infiniti > non hanno virgole > con la virgola Hanno un numero finito di valori Possono assumere qualsiasi valore > generano risposte che derivano da un all’interno di un determinato intervallo processo di conteggio Esempi: numero di numeri reali di figli, numero di dipendenti, studenti > sono generati da una misurazione iscritti, numero di azioni, volumi di Esempi: reddito, fatturato di vendita. un’azienda, altezza, peso, temperatura, distanza. Esempi di scala non rapporto/intervalli: numero di figli, numero di dipendenti, studenti Esempi di scala rapporto: iscritti, numero di azioni, volumi di vendita reddito, fatturato di un’azienda, altezza, peso, > 2, 3, 12 … temperatura, distanza Tali variabili sono collocate in una scala gerarchica Ai gradini più alti le variabili contengono un maggior numero di informazioni > queste possono essere elaborate in maniera più raffinata e approfondita tramite la statistica È possibile trasformare una variabile “superiore“ in una “inferiore“ > no viceversa VARIABILI NUMERICHE CONTINUE È possibile effettuare ogni tipo di operazione matematica e statistica Contengono il maggior numero di info possibili VARIABILI NUMERICHE DISCRETE Le proprietà da registrare assumono stati numerici ordinabili VARIABILI CATEGORIALI ORDINALI Teoricamente dovrebbero essere analizzate con tecniche specifiche per le variabili ordinali. Tuttavia, visto che sono rare, le categorie sono spesso numerate e analizzate come se fossero variabili NUMERICHE > Bisogna essere molto cauti in questo processo VARIABILI CATEGORIALI NOMINALI Le proprietà assumono stati discreti non ordinabili, che sono mere etichette senza alcun ordine gerarchico tra loro ** I dati non organizzati o sintetizzati vengono chiamati GREZZI I dati in forma grezza non son facili da usare quindi sono necessarie tabelle e/o grafici > La tipologia di grafico o tabella dipende dalla variabile che vogliamo utilizzare VARIABILI CATEGORICHE VARIABILI NUMERICHE Utilizzano Utilizzano - le distribuzioni di frequenza - le distribuzioni di frequenza - il diagramma a barre - il grafico per serie storica - il diagramma a torta - l’istogramma - il diagramma di Pareto - L’ogiva Negli studi, di solito si studiano variabili, di cui è possibile fare un certo numero di osservazioni, che costituiscono i dati Per studiare i dati è necessario dividere i dati stessi in classi e determinare chi appartiene a ciascuna classe - DISTRIBUZIONI DI FREQUENZA Le distribuzioni di frequenza sono uno strumento essenziale per l'analisi dei dati e prevedono l’organizzazione dei dati all’interno di una tabella** L’analisi delle distribuzioni di frequenza implica il conteggio delle modalità (valori) con cui si presentano le diverse variabili prese in esame Questo processo non solo aiuta a comprendere la qualità dei dati, ma anche a identificare e correggere: - errori di imputazione: valori che non risultano nel libro codice - valori mancanti non codificati: a cui il candidato non ha risposto ** sappiamo che esistono due tipi di variabili per questo motivo per ognuna c’è un modo diverso di utilizzare le distribuzioni di frequenza VARIABILI CATEGORICHE Si utilizza una tabella di questo tipo: SX: Unità ospedaliera Numero di pazienti DX: Contiene modalità e Cardiologia 1,052 12% Contiene l’elenco delle Emergenza 2,245 25% classi di misura frequenze per ogni Cura intensiva 340 4% > comprende tutte le Maternità 552 6% classe possibili risposte relative Chirurgia 4,630 53% alla variabile oggetto di studio VARIABILI NUMERICHE Anche in questo caso è presente una tabella contenente i valori discreti e le relative frequenze > Qualora ci fossero molti valori è necessario utilizzare classi di intervallo alle quali associare le frequenze Per costruire una distribuzione di frequenza con variabili numeriche si devono seguire tre passaggi: 1. Determinare il numero delle classi di intervallo (K) > le quale devono essere decise in modo arbitrario 2. Determinare l’ampiezza dell’intervallo > che spesso viene arrotondata a un numero intero 3. Le classi di intervallo devono essere collettivamente esaustive e mutamente esclusive > ciascuna osservazione deve appartenere a una e una sola classe > i limiti di ciascuna classe devono essere definiti chiaramente Da come si può evincere esistono diversi tipi di frequenze FREQUENZA ASSOLUTA Prevede il semplice conteggio delle modalità con cui si distribuiscono i casi presenti nel campione Caratteristiche: - Offre informazioni ricche ma potenzialmente spurie poiché non considera la numerosità del campione - si guarda al campione in termini assoluti, senza approfondire - Può essere calcolata su tutti i tipi di variabili: nominali, ordinali o numeriche > poiché per qualsiasi variabile è sempre possibile contare quanti sono i casi che mostrano le diverse modalità con cui si esprime FREQUENZA RELATIVA In questo caso l’informazione che viene fornita è relativa allo specifico campione interessato > e si procede approfondendo e delineando con certezza Si caratterizza da più sottotipi: 1. PROPORZIONE o FREQUENZA RELATIVA (proporzionale) Si tratta del rapporto tra la frequenza assoluta e il numero di casi > si può calcolare su tutti i tipi di variabile - Una volta ottenuta la frequenza assoluta - Deve essere rapportata al totale dei casi - Per poi calcolare facilmente la frequenza relativa Frequenza assoluta : N° complessivo di casi presenti nel campione x 100 2. FREQUENZA RELATIVA CUMULATA In tale frequenza si cumulano le frequenze relative e prevede la somma di tali frequenze > si ottiene sommando alla frequenza della classe corrente le frequenze di tutte le classi precedenti > anch’essa può essere calcolata su tutti i tipi di variabile - Una volta ottenuta la frequenza relativa proporzionale - Deve essere moltiplicata x 100 - Otteniamo così la percentuale Frequenza relativa x 100 = % %+%+%…= In questo caso le frequenze contengono il numero totale di osservazioni con valori minori del limite superiore di ciascuna classe In una distribuzione delle frequenze relative cumulate si cumulano le frequenze relative > se si cumulano le frequenze percentuali si ottiene la distribuzione di frequenze percentuali cumulate 3. FREQUENZA RELATIVA RETRO-CUMULATA Non si può calcolare su tutti i tipi di variabile ma solo con variabili di tipo ordinali, poiché richiede l'ordinamento delle modalità Per ottenerla è necessario sommare le frequenze percentuali > secondo un ordine stabilito Una volta ricavati tutti i tipi di frequenza, l'analisi vera e propria viene fatta calcolando gli indici statistici descrittivi di base Questi indici includono: misure di posizione > come: media, moda e mediana misure di dispersione > come: varianza, deviazione standard e range Tali misure aiutano a riassumere e comprendere meglio le caratteristiche principali del dataset, facilitando la rilevazione di tendenze, anomalie e pattern significativi L'organizzazione dei dati attraverso le tabelle di frequenza è fondamentale per una buona gestione e analisi dei dati, garantendo che l'informazione sia accurata e significativa RAPPRESENTAZIONE GRAFICA DISTRIBUZIONE DI FREQUENZA Tabella per organizzare i dati DIAGRAMMA A BARRE È utile per attirare l’attenzione sulla frequenza di ogni categoria analizzata nella distribuzione di frequenza Viene utilizzato per le variabili categoriali di tipo qualitativo V.C. ORDINALE - NOMINALE Può essere anche a: DIAGRAMMA A TORTA Viene utilizzato nel caso in cui si vuole focalizzare l’attenzione sulla proporzione delle frequenze di ogni categoria, perché esso evidenza la suddivisione di tutto l’insieme nelle sue relative parti Viene utilizzato per le variabili categoriali di tipo qualitativo V.C. ORDINALE - NOMINALE DIAGRAMMA DI PARETO Si tratta di un diagramma a barre in cui le categorie sono rappresentate in ordine decrescente di frequenza Viene usato per separare le cause rilevanti da quelle numerose ed insignificanti Esso rappresenta le frequenze delle cause di difettosità Barra più a SX: Barra più a DX: Indica la causa più Indicano le cause con frequente frequenze decrescenti GRAFICO PER SERIE STORICA Esso rappresenta una serie di dati (= serie storica) in istanti di tempo diversi Viene utilizzato per le variabili numeriche di tipo quantitativo V.N. DISCRETE L’asse verticale considera le quantità numeriche oggetto della misurazione L’asse orizzontale è considerato l’asse temporale Per ogni osservazione si ottiene un punto sul piano cartesiano Il grafico si ottiene congiungendo i vari punti con una linea spezzata DISTRIBUZIONE DI FREQUENZA Tabella per organizzare i dati Esempio: Un produttore di isolante seleziona a caso 20 giorni invernali e registra la temperatura massima giornaliera: 24,35,17,21,24,37,26,46,58,30,32,13,12,38,41,43,44,27,53,27 Ordinare i dati grezzi in ordine decrescente: 12,13,17,21,24,24,26,27,27,30,32,35,37,38,41,43,44,46,53,58 Trovare il campo di variazione: 58 - 12 = 46 1. Determinare il numero di classi dell’intervallo (solitamente fra le 5 e le 15): 5 2. Calcolare l’ampiezza dell’intervallo 58 - 12 = 46 46 : 5= 9,2 (si arrotonda per eccesso) = 10 3. Determinare i limiti dell’intervallo 12,13,17, 21,24,24,26,27,27 30,32,35,37,38 41,43,44,46 53,58 20 3 6 5 4 2 10 ma meno di 20 20 ma meno di 30 30 ma meno di 40 40 ma meno di 50 50 ma meno di 60 Si contano le osservazioni e si assegnano alle classi FR = FA : N° complessivo di casi presenti nel campione 3 : 20 = 0,15 6 : 20 = 0,30 5 : 20 = 0,25 4 : 20 = 0,20 2 : 20 = 0,10 % = (FA : N° complessivo di casi presenti nel campione) x 100 0,15 x 100 = 15 0,30 x 100 = 30 0,25 x 100 = 25 0,20 x 100 = 20 0,10 x 100 =10 Intervallo Frequenza Frequenza relativa Percentuale 10 ma meno di 20 3.15 15 20 ma meno di 30 6.30 30 30 ma meno di 40 5.25 25 40 ma meno di 50 4.20 20 50 ma meno di 60 2.10 10 Totale 20 1,00 100 (3+6+5+4+2) (0,15+0,30+0,25+0,20+0,10) (15+30+25+20+10) ISTOGRAMMA Viene utilizzato per le variabili numeriche di tipo quantitativo V.N. CONTINUE Si tratta di un grafico composto da rettangoli verticali adiacenti costruiti su una linea orizzontale sulla quale sono delimitate le stesse classi di intervallo individuate nella distribuzione di frequenze (no spazio fra le barre) L’area del rettangolo è proporzionale al numero di osservazioni della classe corrispondente Se le e le classi hanno tutte la stessa ampiezza: l’altezza di ciascun rettangolo è proporzionale al numero di osservazioni della classe > altrimenti sarà uguale alla densità di frequenza Distribuzione simmetrica = un istogramma è simmetrico se le osservazioni sono bilanciate o distribuite in modo approssimativamente regolare intorno al centro Distribuzione Asimmetrica = una distribuzione è asimmetrica o obliqua se le osservazioni non sono distribuite in modo simmetrico rispetto al centro Una distribuzione è asimmetrica positiva Una distribuzione è asimmetrica negativa (obliqua a DX) quando ha una coda che (obliqua a SX) quando ha una coda che si si estende a destra, nella direzione dei estende a sinistra, nella direzione dei valori positivi valori negativi Per rappresentare le relazioni tra due variabili si possono utilizzare: DIAGRAMMA DI DISPERSIONE Tale diagramma associa a un punto del piano cartesiano a ogni coppia di valori che costituiscono un’osservazione congiunta delle due variabili. Esso evidenzia: - la relazione tra le due variabili - la presenza di valori anomali 1. Una variabile viene rappresentata sull’asse verticale 2. e una su quello orizzontale Viene utilizzato per le variabili numeriche di tipo quantitativo V.N. DISCRETE Volume giornaliero Costo giornaliero 23 125 26 140 29 146 33 160 38 167 42 170 50 188 55 195 60 200 TABELLA A DOPPIA ENTRATA Questa tabella elenca il numero di osservazioni per ogni combinazione di valori per le due variabili che vengono indicate come R x C 1. R categorie per la prima variabile (righe) 2. C categorie per la seconda variabile (colonne) Viene utilizzato per le variabili categoriali di tipo qualitativo V.C. ORDINALE INDICI DI POSIZIONE E VARIABILITÀ INDICE = Un indice è un valore numerico che sintetizza una grande quantità di informazioni INDICI DI POSIZIONE Anche noti come INDICI di TENDENZA CENTRALE Forniscono una misura sintetica delle caratteristiche o delle dimensioni di una variabile Dopo aver ricavato le frequenze, si possono calcolare gli indici descrittivi di base Ne esistono 3 tipi: 1. MODA (caratteri qualitativi ++) La moda è quel valore che si presenta con la maggiore frequenza in un insieme di dati Es: Ipotizziamo di studiare la variabile “colore di capelli”: abbiamo 20 persone con capelli biondi, 30 mori e 40 castani. La moda corrisponde alla modalità castani. > ci può essere più di una moda o essa può anche non esistere La moda mostra la frequenza più elevata, ovvero la modalità espressa dal maggior numero di casi È l'unico indice di frequenza che può essere applicato a tutte le variabili (anche a quelle nominali) Fenomeno bimodale = si tratta di un fenomeno che presenta 2 mode, quindi due modalità che hanno la stessa frequenza assoluta > di solito si presenta quando il campione è costituito da un numero ristretto di casi 2. MEDIANA Si tratta del valore che occupa il posto centrale in una serie di dati disposti in ordine > tali osservazioni (= dati) sono ordinate in modo ne decrescenti e ne crescenti - Se N dimensione del campione è dispari > la mediana è l’osservazione (=dato) centrale - Se N dimensione del campione è pari > la mediana si ottiene dalla media delle due osservazioni centrali Prevede che la distribuzione di frequenza venga, prima, ordinata e poi divisa in due parti uguali > ad essere ordinate sono le modalità con cui si esprime la variabile e non le relative frequenze Non può essere applicata alle variabili nominali, perché non sono ordinabili È un INDICE ROBUSTO = è l’unico indice di tendenza centrale che non è influenzato dalla presenza di valori anomali Es: valore centrale > dati dispari Ipotizziamo di avere 3 persone con età pari a 20, 22 e 23 anni: la mediana è 22 anni Es: valore centrale anomalo Se al posto del 23 ci fosse stato un valore anomalo, come 60: la mediana sarebbe stata comunque 60 Es: valore centrale > dati pari Ipotizziamo di avere 4 persone con età pari a 20, 22, 23 e 24 anni: (22 + 23) : 2 = 22,5 3. MEDIA (solo a caratteri quantitativi = variabili numeriche) Si tratta della misura di tendenza centrale più comune La media è: - + la somma di tutti i valori (= modalità) osservati (= relativi ai casi studiati) - : divisa per il numero di osservazioni (= casi) > non va calcolata sulle frequenze, ma sulle modalità > dipende da tutti i valori osservati e, dunque, risente dei valori anomali Si tratta dell’unico numero che ha la proprietà di minimizzare gli scarti fino a renderli uguali a 0 La sommatoria degli scarti tra i valori rilevati e il valore medio è sempre 0 Es: immaginiamo di dover calcolare la media dell’altezza di tre persone diverse, le quali misurano rispettivamente 1,60 m, 1,70 m e 1,65 m 1,60 + 1,70 + 1,65= 4,95 4,95 : 3 = 1,65 La media è uguale a 1,65 m Adesso proviamo a sottrarre la media (= 1,65) da ciascun valore: 1,60 - 1,65 = -0,5 1,70 - 1,65 = 0,5 1,65 - 1,65 = 0 Gli indici di posizione (o tendenza centrale) sono numeri che sintetizzano una grande mole di informazioni > sono importanti per descrivere i dati numerici e la loro distribuzione di frequenza > tendono a descrivere attorno a quale valore è centrato l’insieme di dati In questo senso, la mediana è preferibile alla media se ci sono valori estremi molto diversi dalla maggior parte degli altri dati INDICI DI VARIABILITÀ Utilizzare solamente gli indici di posizione non permette di avere una visione realistica della dispersione dei casi riferiti alle variabili Per questo bisogna usare una misura in grado di esprimere la variabilità di una distribuzione = Gli INDICI DI VARIABILITÀ Essi riassumono il modo in cui si presenta un fenomeno e i valori intorno ai quali esso si concentra e si struttura Vengono usati al fine di descrivere la variabilità con cui il fenomeno è distribuito nella popolazione L'elemento alla base di tutti i calcoli per l'individuazione degli indici di variabilità è lo scarto della media Gli indici di variabilità da approfondire sono: 1. QUARTILI e PERCENTILI Si tratta di indici che dividono l’insieme di dati ordinati in un dato numero di parti uguali QUERTILI Essi dividono una sequenza ordinata di dati in 4 segmenti contenti lo stesso numero di valori Dopo aver ordinato i casi della distribuzione dal valore più basso a quello più alto, si può procedere alla determinazione dei quartili (indicati con lettera Q) > per farlo è necessario dividere la distribuzione di frequenza in 4 parti: 1. Il 1° quartile (Q1) è il valore del caso che ha sotto di sé il 25% dei casi > valore per il quale 25% delle osservazioni sono minori 2. Il 2° quartile (Q2) è il valore del caso che ha sotto di sé il 50% di casi > coincide con la Mediana perché il 50% delle osservazioni sono minori e l’altro 50% sono maggiori 3. Il 3° quartile (Q3) è il valore del caso che ha sotto di sé il 75% dei casi > valore per il quale le osservazioni sono maggiori rispetto al Q1 4. Il 4° e ultimo quartile (Q4) è il valore dell'ultimo caso > valore per il quale le osservazioni sono maggiori rispetto al Q3 Differenza interquartile = si tratta della differenza tra il valore assunto dalla variabile nel Q3 e quello assunto dalla variabile nel Q1 (Q = Q3 - Q1) Se la differenza tra i 2 quartili è: ⦿ piccola = la variabilità è contenuta ◉ ampia = la variabilità è elevata Lo scopo di questo indice è stimare la dispersione di una variabile statistica intorno alla mediana (2Q) = misura la variabilità del 50% centrale dei dati PERCENTILI (o CENTILI) Sono 99 indici di posizione che dividono una distribuzione statistica in 100 parti uguali Ogni parte è un gruppo con lo stesso numero di elementi 1. Il primo percentile (P1) raggruppa a sinistra 1/100 degli elementi (1%) della distribuzione 2. Il secondo percentile (P2) raggruppa a sinistra 2/100 degli elementi (2%) della distribuzione.... 99. Il novantanovesimo percentile (P99) raggruppa a sinistra 99/100 degli elementi (99%) della distribuzione I percentili si calcolano ordinando i dati e determinandone la posizione moltiplicando il numero di dati per il percentile desiderato Es: Con 100 dati, per il 90° percentile (P90)= 100×0.90=90. Il 90° dato è P90. 2. VARIANZA Si tratta di una misura statistica che descrive la dispersione dei dati rispetto alla media aritmetica - Essa tiene conto del valore di ciascuna osservazione - e considera la media delle distanze quadrate tra: - ciascuna osservazione - e la media delle osservazioni A differenza della differenza interquartile, che si basa su due soli valori (Q1 e Q3), la varianza utilizza tutte le osservazioni disponibili nel dataset La varianza misura quanto i valori osservati si discostano quadraticamente rispetto alla media aritmetica > essa è la media dei quadrati delle differenze PROBABILITÀ (Nozioni di base) Indice: EVENTO ALEATORIO PROBABILITÀ CONDIZIONATE INDIPENDENZA STOCASTICA E PRINCIPALI REGOLE DI CALCOLO EVENTO ALEATORIO La probabilità è una branca della matematica che serve per misurare degli eventi incerti ESPERIMENTO ALEATORIO = è un processo che porta a due o più risultati incerti, senza che si possa prevedere con certezza quali di questi si realizzerà Es: l'atto di lanciare una moneta rappresenta un esperimento aleatorio, poiché i possibili risultati (Testa o Croce) sono incerti e non prevedibili in anticipo. EVENTO ELEMENTARE = è un possibile risultato di un esperimento aleatorio Es: Nell'esempio del lancio della moneta, un evento elementare potrebbe essere l'uscita di "Testa" > Questo singolo risultato è uno dei componenti fondamentali dello spazio campionario SPAZIO CAMPIONARIO = è l’insieme di tutti gli eventi elementari risultanti da un esperimento aleatorio, ed è solitamente indicato con il simbolo S Es: Nel caso del lancio di una moneta, lo spazio campionario è S = {T, C}, dove T rappresenta Testa e C rappresenta Croce Quando l'esperimento consiste nel lancio di un dado, lo spazio campionario diventa S = {1, 2, 3, 4, 5, 6} EVENTO = è un qualsiasi sottoinsieme di eventi elementari di uno spazio campionario > indicato con la lettere E Evento impossibile: quando non si verifica nessun evento elementare (ø) Evento certo: quando si verificano tutti gli eventi elementari, è quindi rappresentato da tutti gli eventi elementari (S) Intersezione = si tratta della combinazione di due o più eventi che si verificano contemporaneamente Ciò avviene quando l’evento elementare… > che rappresenta il risultato di un esperimento aleatorio …rappresenta entrambi gli eventi Essa è quindi l’insieme di eventi elementari che appartiengono a ogni evento all’interno di un gruppo L'intersezione è l'insieme di tutti gli eventi elementari che appartengono sia a un evento A sia a un evento B Se A e B sono due eventi in uno spazio campionario S, allora l’intersezione è l’insieme di tutti gli eventi elementari in S che appartengono sia ad A che a B > È possibile che l’intersezione di due eventi non presenti eventi elementari comuni e sia pertanto impossibile Indicando che i due eventi non possono verificarsi insieme Eventi mutamente esclusivi = si verifica quando due non hanno in comune nessun evento elementare Se A e B sono mutuamente esclusivi, la loro intersezione è vuota Non esistono eventi elementari comuni a entrambi Es: Il lancio di un dado con l'uscita di "1" e "2" è mutuamente esclusivo, poiché non possono uscire insieme Unione di eventi = si intende la combinazione di eventi in cui si verifica almeno uno di essi Se A e B sono due eventi in uno spazio campionario S, allora la loro unione è l’insieme di tutti gli eventi elementari di S che appartengono ad A oppure a B L'unione si indica con A ∪ B Eventi collettivamente esaustivi = quando un gruppo di eventi copre l'intero spazio campionario Se l'unione di più eventi include tutti gli eventi elementari nello spazio campionario S, questi eventi sono collettivamente esaustivi Es: Nel lancio di un dado, gli eventi "uscita di 1, 2, 3, 4, 5, 6" sono collettivamente esaustivi Evento complementare = si tratta dell’insieme degli eventi che non appartengono a un determinato evento L'evento complementare di A, indicato come A, è l'insieme degli eventi elementari che appartengono allo spazio campionario S ma non ad A Es: Se A è l'uscita di un numero pari nel lancio di un dado, A è l'uscita di un numero dispari. Variabile aleatoria = Quando i risultati di un esperimento aleatorio sono valori numerici, le probabilità associate ai diversi eventi possono essere riassunte attraverso la nozione di variabile aleatoria Si tratta di una variabile (casuale) che assume valori numerici in corrispondenza ai risultati di un esperimento aleatorio Le variabili aleatorie possono essere: discrete: se possono assumere un insieme numerabile di valori es: il risultato del lancio di una moneta può essere testa o croce continue: se possono assumere qualsiasi valore in un intervallo es: se consideriamo un esperimento in cui lanciamo una moneta più volte, allora possiamo avere un insieme di possibili risultati Oppure, il tempo di attesa alla fermata dell’autobus Una variabile aleatoria è di conseguenza una variabile che esprime i risultati di un evento aleatorio Es: Nel caso del lancio di un dado, la variabile aleatoria può assumere un valore tra 1 e 6. Questo insieme di possibili valori costituisce uno spazio campione finito S = {1, 2, 3, 4, 5, 6} PROBABILITÀ CONDIZIONATE La probabilità è la possibilità che un evento incerto si manifesti Per valutare la probabilità di un evento incerto ci sono 3 approcci: 1. La probabilità classica Si basa sul principio che tutti i risultati in uno spazio campionario sono ugualmente probabili 2. L’interpretazione frequentista Definisce la probabilità come il limite della proporzione di volte in cui l’evento A si verifica in un gran numero di ripetizioni in un esperimento 3. Probabilità soggettiva Rappresenta un opinione personale riguardo alla probabilità che un evento si verifichi, spesso usata in assenza di dati storici o sperimentali PROBABILITÀ CONDIZIONATA Si parla di probabilità condizionata quando la probabilità del verificarsi di un evento dipende dal fatto che altri eventi siano o meno verificati > accade molto spesso La probabilità condizionata di un evento A rispetto a un evento B è la probabilità che si verifichi A, sapendo che B è verificato = La PC di A > dato che B si è verificato = La PC di B > dato che A si è verificato Regola moltiplicativa Una conseguenza della probabilità condizionata è la regola moltiplicativa delle probabilità La quale esprime la probabilità dell’intersezione tra A e B > che può essere derivata da: - probabilità dei singoli eventi - e probabilità condizionate P(A∩B)=P(A∣B)⋅P(B) Questa formula può essere utilizzata anche per calcolare P(B∩A): P(B∩A)=P(B∣A)⋅P(A) INDIPENDENZA STOCASTICA Due eventi A e B sono definiti indipendenti se il verificarsi dell'uno non influenza la probabilità del verificarsi dell’altro Ovvero quando la probabilità condizionata P(A/B) oppure P(B/A) è pari rispettivamente a P(A) e P(B) P(A∣B) = P(A) se P(B) > 0 P(B∣A) = P(B) se P(A) > 0 Queste due situazioni si posso sintetizzare con la formula P(A∣B) = P(A)⋅P(B) Es: supponiamo di avere due eventi: A: Il risultato del lancio di un dado è pari. B: Il risultato del lancio di un dado è maggiore di 3. Calcoliamo le probabilità: P(A)= 3/6 = 1/2 (numeri pari: 2, 4, 6) P(B) = 3/6 = 1/2 (numeri maggiori di 3: 4, 5, 6) P(A∩B)= 2/6 = 1/3 (numeri pari e maggiori di 3: 4, 6) Confrontiamo P(A∩B) con P(A)P(B): P(A) P(B) = 1/2 x 1/2 = 1/4 P(A∩B)= 1/3 Poiché 1/3 è diverso da 1/4 gli eventi A e B non sono indipendenti.