Esercizio GIS: Sistemi di Riferimento e Analisi Dati PDF

Summary

This document details an exercise in GIS, focusing on understanding coordinate systems in QGIS. It involves importing and joining various datasets like census sections and school locations (from a Torino dataset) to analyze population data. The process includes calculations and spatial joins in QGIS.

Full Transcript

Esercizio - Lavorare coi sistemi di riferimento Impostare il SR del progetto Progetto > Proprietà Impostare il SR del progetto Progetto > Proprietà SR del progetto Coordinate Cercare i dati e leggere i metadati Ogni volta che un lay...

Esercizio - Lavorare coi sistemi di riferimento Impostare il SR del progetto Progetto > Proprietà Impostare il SR del progetto Progetto > Proprietà SR del progetto Coordinate Cercare i dati e leggere i metadati Ogni volta che un layer viene caricato in QGIS, QGIS cerca di determinare automaticamente il sistema di coordinate di riferimento corretto per quel layer. In alcuni casi questo non è possibile, ad esempio quando un layer è stato fornito senza conservare questa informazione. Riproiezione on-the-fly WGS84/UTMzone32N Riproiezione on-the-fly ED50/UTMzone32N Riproiezione on-the-fly !! ATTENZIONE La riproiezione on-the- y ti permette di sovrapporre velocemente layer con SR di erente ma nel momento in cui devi implementare operazioni di calcolo la di erenza di SR non ti consente di portare a termine l’operazione con successo WGS84/UTMzone32N fl ff ff Scale di rappresentazione È il rapporto metrico che sussiste fra le dimensioni di un oggetto e quelle di una sua rappresentazione grafica Scala di rappresentazione Come scegliere la scala? La scelta di una scala è in relazione a : RAPPRESENTAZIONI A DUE SCALE DIVERSE DELLA - ciò che si deve rappresentare MEDESIMA AREA: - complessità dell’oggetto SI DEVE NOTARE LA DIFFERENZA DI PARTICOLARI VISIBILI - Informazioni da fornire ALLE DIVERSE SCALE DI RAPPRESENTAZIONE 1:100.000 PICCOLA SCALA 1:25.000 1:10.000 1:5.000 1:500 GRANDE SCALA Nomi delle carte rapportate alle scale Planisferi o mappamondi (FAO,UNICEF, 1:50.000.000 atlanti, ecc.) Carte geogra che (mappe nazionali e 1:1.000.000 - 1-25.000.000 internazionali, atlanti) Carte corogra che o regionali (PTR, 1:150.000 - 1:1.000.000 carte stradali) Carte topogra che di piccola scala 1:50.000 - 1:150.000 (Piani Territoriali, IGM, PRGI) Carte topogra che di media-piccola 1:10.000 - 1:25.000 scala (CTR, IGM) Carte topogra che (CTC, CTR, PRG, 1:1000 - 1:10.000 Catastali,ecc.) Planimetria generale, Piano 1:500 Particolareggiato, Piani esecutivi fi fi fi fi fi Primitive geometriche e scala della carta Una stessa entità geogra ca può essere rappresentata in un modello vettoriale con diverse primitive geometriche a seconda degli scopi della rappresentazione o della scala di osservazione La geometria (dimensione e forma) degli elementi rappresentati dipende quindi dalla scala della mappa. Ad esempio, al crescere della scala un punto può simboleggiare una città, un edi cio, un segnale stradale. fi fi Scala numerica Si esprime con un rapporto di numeri (frazione) in cui al numeratore c’è (di solito) il numero 1 e al denominatore il numero per cui bisogna moltiplicare le misure prese sul disegno per avere le dimensioni dell’oggetto reale È un segmento graduato che riproduce le dimensioni di una misura assunta come unità. Questo segmento si chiama anche scalimetro. N.B.: Nella scala gra ca bisogna sempre speci care: il numero; L’unità di misura (cm, m,km) Scala grafica fi fi Scala numerica o scala grafica? Scala numerica: - VANTAGGIO: è rapida nel calcolo delle dimensioni reali di un oggetto; -SVANTAGGIO: se ingrandiamo o rimpiccioliamo il disegno (fotocopiando, fotografando, scansionando, ecc.) perdiamo tutte le informazioni e rischiamo di commettere gravi errori di misura Scala gra ca: - SVANTAGGIO: più lenta nel calcolo delle dimensioni reali di di un oggetto. Bisogna prendere la misura sul disegno, riportarla sullo scalimetro e stimare la misura reale (rischiando di commettere errori) - VANTAGGIO: se ingrandiamo o rimpiccioliamo il disegno, si ingrandisce (o rimpicciolisce) anche lo scalimetro, e quindi le informazioni metriche rimangono sempre valide Nei disegni è buona norma riportare sia la scala numerica che quella gra ca. In caso di contraddizione fra le informazioni fornite dai due sistemi vuol dire che il disegno è stato ridotto (o ingrandito) e quindi bisogna considerare corrette sole le informazioni della scala gra cas fi fi fi Corso di Analisi urbanistiche e territoriali con strumenti GIS Docente: Elena Camilla Pede Esercizio in aula: Lavorare con i file di testo, eseguire JOIN (unioni) tra tabelle, applicare un filtro ad un livello vettoriale e calcolare nuovi campi 1. Andare al link https://www.istat.it/it/archivio/104317 e scaricare i file.zip: - In basi territoriali: sez. di censimento del Piemonte in WGS84 UTM Zona 32n - In Variabili censuarie: il censimento della popolazione e delle abitazioni al 2011 - Scaricare anche i file Metadati e Descrizione dei dati geografici e delle variabili censuarie sulla colonna dx 2. Il file sezione di censimento Piemonte è uno Shapefile e costituisce la base territoriale del nostro progetto. Apri QGIS e importa lo shp delle basi territoriali del Piemonte R01_11_WGS84.shp 3. Dalla casella zip scaricata in variabili censuarie –> Sezioni di Censimento --> estrarre il file R01_indicatori_2011_sezioni.csv Si tratta di un file.csv, ossia un file di testo usato per rappresentare dati in forma tabellare. 4. Aprire un nuovo progetto in QGis e impostare il Sistema di Riferimento: Progetto --> Proprietà --> SR --> WGS84/UTM zone 32 N EPSG:32632 5. Aggiungere al progetto il layer R01_indicatori_2011_sezioni.csv: Layer --> Aggiungi Layer --> Aggiungi Layer testo delimitato e selezionare i parametri corretti come da immagine. N.B. ! NON ci sono elementi utili alla geolocalizzazione in questo file, dunque selezionare “nessuna geometria” 6. Sul layer R01_11_WGS84, tasto destro Proprietà --> Join ed impostare i parametri come in figura sotto. Il join unisce orizzontalmente due tabelle, usando una campo (colonna) di corrispondenza per ogni tabella, quindi selezionare: a. La tabella da unire a quella R01_11_WGS84 b. Il campo di riferimento (SEZ2011) c. Il campo corrispondente nella tabella attributi di R01_11_WGS84 (SEZ2011) d. Selezionare i campi che si desidera aggiungere (in questo caso P1, P14, P15, P16, P17, P18, P19, P20, P21, P22, P23, P24, P25, P26, P27, P28, P29) N.B. Per sapere a cosa corrispondono questi campi facciamo riferimento ai metadati (file Descrizione dei fati geografici e delle variabili censuarie disponibile sul sito dell’Istat https://www.istat.it/it/archivio/104317) e. Scegliere il prefisso del join (J) 7. Dopo aver fatto questa operazione, potrete aprire la tabella attributi, e notare che sono stati aggiunti i campi selezionati della tabella R01_indicatori_2011_sezioni.csv nella tabella dello shapefile R01_11_WGS84 8. A questo punto non abbiamo più bisogno di lavorare sull’intera Regione Piemonte, ma lavoreremo sul solo comune di Torino. Isoleremo quindi le sezioni di censimento del Comune di Torino andando su Proprietà del layer R01_11_WGS84 --> Sorgente --> Costruttore di Interrogazioni Impostare un filtro con sintassi come da immagine e dare ok A questo punto visualizzeremo solo le sezioni di Censimento del Comune di Torino. 9. Calcoliamo ora la percentuale di popolazione in età scolare sul totale della popolazione, per ogni sezione di censimento. Per farlo, dobbiamo aggiungere un nuovo campo alla tabella degli attributi di R01_11_WGS84 utilizzando il Calcolatore di campi. Il nome del nuovo campo sarà p_pop_scol N.B. Quando si aggiungono nuovi campi è una buona abitudine evitare di lasciare spazi nel nome del campo ed evitare di usare caratteri speciali. La formula da utilizzare è ((“jP15”+”jP16”)/”jP1”)*100 Verifichiamo la riuscita dell’operazione aprendo la tabella degli attributi e controllando i valori del nuovo campo creato. Proviamo ora ad eseguire un join spaziale. 10. Per questa parte di esercizio sono necessari i dati relativi alle scuole del comune di Torino. È possibile scaricare lo shapefile puntuale con i dati delle scuole dal geoportale del comune di Torino. Andare su http://aperto.comune.torino.it/dataset/scuole e scaricare la cartella zip “scuole” contenente gli shapefile. Estrarre i dati nella cartella di progetto. 11. Importare i dati puntuali relativi alle scuole scuole_geo.shp nel progetto QGis ATTENZIONE! Il Sistema di Riferimento dei dati sulle scuole è diverso dal Sistema di Riferimento di progetto! Bisognerà quindi riproiettare i dati nel SR desiderato. Strumenti di Processing --> Riproietta layer ed impostare i parametri dello strumento come da immagine. Salvare il nuovo layer riproiettato come scuole_geo32632.shp Controllare che la riproiezione sia andata a buon fine nelle Proprietà del layer 12. Eseguire il Join spaziale tra il layer scuole_geo32632.shp e il layer R01_11_WGS84. Il Join spaziale permette di collegare due tabelle sulla base delle loro reciproche relazioni spaziali. In questo caso, andremo ad aggiungere al layer delle scuole le informazioni sulle sezioni di censimento in cui ciascuna scuola è contenuta. Vettore --> Strumenti di Gestione Dati --> Unisci attributi per posizione Impostare i parametri dello strumento come da immagine: a. Layer Base > scuole_geo32632.shp b. Join Layer (layer da unire) > R01_11_WGS84 c. Predicato geometrico: “interseca” (nel caso in cui un punto si trovi sul bordo del poligono delle sezioni in censimento) e “contenuto in” d. Campi da aggiungere --> Selezionare campo SEZ e. Tipo di unione: Crea elementi separati per ciascun elemento corrispondente (uno a molti) f. Prefisso del campo unito: J Aprire quindi la tabella degli attributi e verificare la riuscita dell’operazione. Nella prossima lezione capiremo come lavorare sulle mappe tematiche e come migliorare la visualizzazione dei dati. Gli attributi Analisi urbanistiche e territoriali con strumenti GIS Corso di Laurea in Piani cazione Territoriale, Urbanistica e Paesaggistico-Ambientale Elena Camilla Pede [email protected] fi 4. Gli attributi Variabili, campi e record, tabelle Chiavi, collegamento fra tabelle Query I modelli logici per le basi di dati Un modello logico di dati stabilisce la struttura degli elementi dei dati e le relazioni tra di essi. Tradizionalmente esistono tre modelli logici: Gerarchico Struttura ad albero I modelli gerarchico e reticolare sono più vicini alle strutture siche di memorizzazione Hanno una certa RIGIDITÀ che ne limita le potenzialità Reticolare Grafo Modello più astratto Tabelle Relazionale Si basa sui concetti relazione (dalla teoria degli insiemi) e tabella (semplice e intuitivo) fi Modello entità/relazioni (database relazionale) I GIS generalmente si basano sul MODELLO ENTITÀ/RELAZIONI Linguaggio formale basato sui concetti fondamentali di: entità attributi delle entità relazioni tra entità attributi delle relazioni cardinalità delle relazioni vincolo di integrità Entità Sono insiemi di oggetti concettualmente appartenenti a una stessa classe, avanti proprietà comuni ed esistenza autonoma rispetto agli elementi di altre entità. Dipartimento Corso di studi Studente Docente Corso Relazione È un legame concettuale tra due o più entità Possono esistere relazioni diverse che coinvolgono la stessa entità Dipartimento Corso di studi appartiene Studente appartiene Docente Insegna Corso Frequenta Attributo Attributo che identi ca univocamente l’entità Attributo Una de nita caratteristica dell’entità è detta attributo matricola Dipartimento Nome Cognome Corso di studi appartiene Studente appartiene Docente Insegna Corso Frequenta fi fi Cardinalità Attributo che identi ca univocamente l’entità Attributo La cardinalità è il numero minimo e massimo di legami che un elemento di quell’entità può formare con le occorrenze delle altre entità coinvolte matricola Dipartimento Nome (25-m) Cognome Corso di studi appartiene (n-m) Studente (1-1) appartiene (1-m) Docente (1-m) (1-1) (n-m) (10-250) Insegna Corso Frequenta fi Tabelle campo La tabella è la struttura fondamentale di un database: è l’unità di analisi Una tabella memorizza i dati per righe (record) e per colonne (campi) record (entità) Ogni record memorizza i dati relativi ad 1 entità Ogni campo ( eld) contiene l’informazione relativa ad una variabile (un attributo) Nel modello relazionale si presentano solo valori (variabile/attributo) Anche i riferimenti fra dati in strutture (relazioni) diverse sono rappresentati per mezzo dei valori stessi Riassumendo … Ogni tabella identi ca un layer Ogni campo (colonna) identi ca un metadato Ogni record (riga) identi ca una feature (entità) fi fi fi fi Variabile/attributo “Un concetto a cui siano stati assegnati diversi valori in modo da poter determinare con l’osservazione quale valore abbia quel tale concetto… in date circostanze” (Perrone L., 1977, Metodi quantitativi della ricerca sociale, Milano, Feltrinelli, 1977, p. 47) Tipi di variabili e scale di misura Variabili nominali: attribuiscono il valore a una classe. Le classi (categorie) sono nite, mutualmente esclusive e non è possibile stabilire un ordine o una gerarchia (es. genere, religione, categorie di uso del suolo,..) VARIABILI QUALITATIVE Variabili ordinali: attribuiscono il valore a classi ordinabili I valori rispettano un ordine crescente (o decrescente) delle classi (es. categoria alberghi, titolo di studio, ecc.) Variabili a intervalli o a rapporti: misurano su una scala con zero - 0 convenzionale (a intervalli) (es.:scala °F o °C) - 0 reale (a rapporti) (es.:età, numero di gli, peso, altezza) VARIABILI I numeri che identi cano le modalità della variabile non sono etichette ma hanno un pieno valore NUMERICHE numerico fi fi fi Tabelle FID Sempre presente, è un identi cativo sempre intero e non negativo che relazione ogni entità (feature) a un dato e alle rispettive coordinate. Ordina numericamente le features (N.B. se vengono eliminate delle entità il FID cambia!) FID Shape Dato A Dato B Dato C 1 Polygon Xa1 Xb1 Text 2 Polygon Xa2 Xb2 Text 3 Polygon Xa3 Xb3 Text 4 Polygon Xa4 Xb4 Text CAMPO CHIAVE PRIMARIA È un IDENTIFICATIVO UNIVOCO, campo della tabella il cui valore identi ca in modo univoco ciascuna entità (record. Questo può essere comune ad altre tabelle (deve essere identi cato e può non essere presente) fi fi fi Tabelle/campi Tipo di dato Numerico: dati numerici utilizzati in calcoli Intero (short Integer) Intero lungo (long integer) decimale (double) Testo (string): testo o combinazione di testo e numeri che non richiedono calcoli (es. numero telefonico Data/ Data e Ora Entità e relazioni spaziali: selezioni spaziali Sfruttando la relazione spaziale tra le entità, possono essere realizzate SELEZIONI SPAZIALI di due tipologie fondamentali: Selezioni che partono da attributi (select by attributes): de niscono le features partendo da operazioni su variabili note —> sfruttano la relazione tra entità dei database Selezioni che partono dalla relazione spaziale tra gli attributi (select by location): de niscono le features sfruttando le relazioni topologiche delle features fi fi CAMPO CHIAVE PRIMARIA Chiavi primarie /chiavi esterne CHIAVE PRIMARIA/ ID UNIVOCO: Un campo (o più) il cui valore identi ca in modo univoco ciascun record della tabella Dopo aver de nito un campo come chiave primaria di una tabella, per assicurare l’univocità, verrà impedito l’inserimento nel campo di valori duplicati o Null CHIAVE ESTERNA: Contenuto nella tabella A, è la chiave primaria della tabella B Viene utilizzata per mettere in relazione i record della tabella A con quelli della tabella B Dati contenuti nella chiave esterna e quelli contenuti nella chiave primaria devono corrispondere fi fi Relazioni tra tabelle Join/Integrità referenziale Non tutti i dataset che utilizziamo nel nostro lavoro si presentano in formato spaziale. I dati possono presentarsi in forma di tabella o all’interno di un foglio di calcolo e potrebbe essere necessario unirli con i nostri dati spaziali per utilizzarli nelle nostre analisi. Questa operazione è conosciuta come: JOIN —> combinazione sica di record tra tabelle diverse, quindi tra layer diversi Può essere di due tipi: Uno-a-uno —> a un elemento di A corrisponde un solo elemento di B Molti a molti —> a un elemento di A possono corrispondere più elementi di B e viceversa fi Join/Integrità referenziale JOIN uno-a-uno È possibile de nire un sistema di regole per assicurare che le relazioni tra i record delle tabelle correlate siano valide e che non vengano eliminati o modi cati per errore i dati correlati Join interno: include solo i record i cui campi collegati in entrambe le tabelle sono eguali (restituisce i record che hanno valori corrispondenti in entrambe le tabelle) Join esterno/sinistro: include tutti i record di Tabella A e solo i record di Tabella B i cui campi collegati sono eguali Join esterno/destro: include tutti i record di Tabella B e solo i record di Tabella A i cui campi collegati sono eguali fi fi Join interno Tipo di occhiali Descrizione Matricola Studente Tipo di occhiali MS Per miopia senza montatura 1037731 Rossi MS MM Per miopia con montatura 1037815 Verdi MM Da sole S 1037877 Bruni MM PS Per presbiopia senza montatura 1037878 Castano PM Per presbiopia con montatura 4x3 5x2 JOIN INTERNO —> SOLO RECORD UGUALI Matricola Studente Tipo di occhiali Descrizione 1037731 Rossi MS Per miopia senza montatura 1037815 Verdi MM Per miopia con montatura 1037877 Bruni MM Per miopia con montatura 3x4 da Franco Vico 2011 Join esterno sinistro Tipo di occhiali Descrizione Matricola Studente Tipo di occhiali MS Per miopia senza montatura 1037731 Rossi MS MM Per miopia con montatura 1037815 Verdi MM Da sole S 1037877 Bruni MM PS Per presbiopia senza montatura 1037878 Castano PM Per presbiopia con montatura 4x3 5x2 JOIN ESTERNO SINISTRO —> TUTTI I RECORD DI A E SOLO QUELLI UGUALI DI B Matricola Studente Tipo di occhiali Descrizione 1037731 Rossi MS Per miopia senza montatura 1037815 Verdi MM Per miopia con montatura 1037877 Bruni MM Per miopia con montatura 1037878 Castano 4x4 da Franco Vico 2011 Join esterno destro Tipo di occhiali Descrizione Matricola Studente Tipo di occhiali MS Per miopia senza montatura 1037731 Rossi MS MM Per miopia con montatura 1037815 Verdi MM Da sole S 1037877 Bruni MM PS Per presbiopia senza montatura 1037878 Castano PM Per presbiopia con montatura 4x3 5x2 JOIN ESTERNO DESTRO —> TUTTI I RECORD DI B E SOLO QUELLI UGUALI DI A Matricola Studente Tipo di occhiali Descrizione 1037731 Rossi MS Per miopia senza montatura 1037815 Verdi MM Per miopia con montatura 1037877 Bruni MM Per miopia con montatura Da sole Per presbiopia senza montatura Per presbiopia con montatura 6 x4 da Franco Vico 2011 Inserire una tabella di attributi non spaziali Layout di stampa Layout di stampa Elementi essenziali che devono SEMPRE essere inclusi in una rappresentazione cartogra ca, indipendentemente dalla tipologia: TITOLO: sintetizza il signi cato della mappa LEGENDA: priva di legenda una mappa è incomprensibile SCALA: con unità ssa o a scala gra ca NORD GEOGRAFICO FONTE DEI DATI e anno Altri elementi che possono essere inclusi come corredo informativo: La data di produzione della carta uno zoom di contestualizzazione spaziale, per carte a grande o media scala fi fi fi fi I colori non sono cruciali….ma aiutano Se non utilizzati correttamente, i colori nelle mappe possono oscurare i dati e fuorviare il lettore. La scelta della simbologia può rendere una mappa più o meno complessa. La scelta dei colori, la larghezza delle linee, le icone e l'etichettatura in uiscono sulla leggibilità e quindi sul messaggio della mappa. Green areas, students of the Atelier City and Territory 2019/2020 fl ztl_geo ZTL Romana ZTL Centrale ZTL Valentino mercati_geo farmacie_geo Comunali Non comunali scuole_geo si_nidi_comunali_geo maglie_archivio_edilizio_geo Altri aspetti da considerare Elementi centrali e elementi di contorno. Nei temi centrali gli elementi più di usi devono essere stemperati, mentre quelli meno visibili devono essere esaltati. Es. In un PTR è dannoso rappresentare in verde fosforescente la pianura perchè copre gran parte del territorio mentre alcuni elementi puntuali (se utili all’obiettivo della mappa) possono essere rappresentati simbolo rosso vivo o fuori formato per permetterne l’individuazione. Il contorno (base mappe rilevate, umi, strade, località, etc.) devono essere rappresentati in modo da rimanere contorno Che genere di utenza avrà la mappa: l’interpretazione della cartogra a varia in relazione agli utenti che la leggono. fi fi ff LEGENDA Aree Mercatali base Alberata Pianta Fermate metropolitana Linea Metropolitana Aree pedonali Edifici scolastici SCUOLA D'INFANZIA SCUOLA PRIMARIA SCUOLA SEC. I GRADO SCUOLA SEC. II GRADO Selezionare le informazioni Selezionare le informazioni in base all’obiettivo una quantità eccessiva di dati può portare a un eccesso di rumore e diluire il messaggio reale della mappa Evitare la ridondanza di informazioni Saper scegliere La scala di rappresentazione è sempre determinante per scegliere il livello di dettaglio da utilizzare Anche la simbologia ha bisogno di ragionamenti in grado di aiutare il lettore nella comprensione LEGENDA LEGENDA maglie archivio edilizio maglie archivio edilizio ATTIVITA' COMMERCIALI aree pedonali aree pedonali edicole ZTL Romana percorsi_ciclabili_geo commercio in sede fissa ZTL Centrale Pista ciclabile acconciatori/estetisti ZTL Valentino ZTL Centrale pubblici esercizi Percorso ciclabile fermate metro ALBERATE Pista ciclabile stazioni bike sharing pianta Linea metro in esercizio stazioni car sharing posto pianta vuoto fermate_metro_geo ceppo L’obiettivo di una mappa L’obiettivo primario di una mappa è quello di rappresentare informazioni geogra che in un formato spaziale Ma le mappe sono in grado di visualizzare anche fenomeni astratti Signi ca decidere come classi care, sempli care o esagerare le caratteristiche e scegliere la giusta simbologia per gli oggetti di interesse. fi fi fi fi Selezionare le informazioni Selezionare le informazioni in base all’obiettivo è importante anche per: Elaborare i dati in categorie; Scegliere il grado di complessità della mappa Le mappe possono raccontare anche fenomeni intangibili (es. ussi) fl Le carte tematiche Analisi urbanistiche e territoriali con strumenti GIS Corso di Laurea in Piani cazione Territoriale, Urbanistica e Paesaggistico-Ambientale Elena Camilla Pede [email protected] fi Il paradosso cartografico “È di uso il pregiudizio che le cartogra e siano documenti “oggettivi”, rappresentino cioè in modo univoco certi fatti” (Dematteis, 2010) In realtà, nel realizzare una cartogra a, per quanta accuratezza ci si metta, bisognerà sempre scegliere, sempli care e ridurre gli elementi del territorio da rappresentare sulla mappa (proiezione, scala, simboli). Una mappa, quindi, dovrà sempre necessariamente mentire: é il famoso "paradosso cartogra co”. “Per evitare di nascondere informazioni critiche in una nebbia di dettagli, la mappa deve o rire una visione selettiva e incompleta della realtà. Non c'è scampo dal paradosso cartogra co: per presentare un'immagine utile e veritiera, una mappa accurata deve dire bugie bianche” (Monmonier, p.1 , 1991) ff fi fi fi ff fi fi Mentire con i dati Ogni studio, ricerca o indagine è composto da tre step: Raccolta delle informazioni Analisi dei dati Esposizione delle conclusioni N.B. ognuno di questi passaggi può essere vittima di errori (ingenui o volontari) che possono minare la validità dei risultati Raccolta dei dati Qualità del campione determinata dalla sua: Dimensione: se il campione è troppo piccolo, le conclusioni che se ne ricavano non possono essere signi cative Rappresentatività: il campione deve essere di qualità e non limitarsi a un gruppo non rappresentativo Problema dei bias (di partecipazione, di risposta, strumento, orario, luogo) fi Analisi dei dati Anche quando il campione dei dati è di buona qualità le deduzioni possono essere controintuitive: Confondere la correlazione con la causalità: se due fenomeni risultano statisticamente correlati tra loro, non vuol dire necessariamente che tra di essi sussista un legame diretto di causa e etto http://www.tylervigen.com/spurious-correlations ff Analisi dei dati Il ragionamento contro-intuitivo di Abraham WALD Abraham Wald (1902-1950) era un esperto di statistica ungherese a cui venne chiesto dal governo britannico di occuparsi della risoluzione di alcune problematiche durante il secondo con itto mondiale. La Luftwa e tedesca e la contraerea avevano in itto notevoli perdite agli Alleati, in particolare alla RAF, la Royal Air Force inglese. Nel bel mezzo di una guerra non era possibile minimizzare queste perdite investendo nell’educazione di piloti più esperti: bisognava necessariamente rinforzare i mezzi in modo da renderli meno vulnerabili, decisione che comportava però non pochi rischi. Rinforzare un aereo signi ca infatti appesantirlo, per cui è importante minimizzare la protezione, ovvero aggiungerla solo laddove è veramente indispensabile. Wald cominciò pazientemente ad osservare gli aerei al ritorno dalle missioni, per registrare su uno schema gra co gli impatti di proiettile. In questo modo si ritrovò con una mappa dei buchi su una rappresentazione generica di un aereo: in nero tutte le parti colpite, in bianco le parti non colpite su tutti gli aerei. Qual è la reazione spontanea di fronte a questi dati? Semplice: rinforziamo le parti evidenziate! Ovvero quelle colpite durante il combattimento. Cosa ne dedusse invece Wald? Che era necessario rinforzare le parti bianche! Il ragionamento in negativo che fece è il seguente. Le osservazioni riportate sullo schema riguardavano soltanto gli aerei che erano rientrati alla base. Questi aerei erano potuti rientrare anche se erano stati colpiti: ne consegue che i colpi loro inferti, presumibilmente, non erano stati fatali. ff fi fl fl fi Analisi dei dati Il paradosso di Simpson Consiste nel vedere una tendenza quando i dati sono divisi per gruppi, tendenza che però sparisce o diminuisce quando gli stessi dati sono invece presentati tutti insieme Uno dei casi più famosi dell’applicazione di questo paradosso fu quando l’Università di Berkeley fu accusata nel 1973 di avere un pregiudizio di genere nell’ammissione ai suoi corsi, avendo ammesso il 44% dei candidati maschi e solo il 35% di candidate femmine. L’università chiese allo statistico Pete Bickel di esaminare i dati in vista della causa per capire se ci fosse davvero un pregiudizio: Bickel scoprì che in realtà in quattro dei sei dipartimenti c’era un pregiudizio signi cativo addirittura a favore delle donne, mentre in due dipartimenti non si era riscontrato nessun pregiudizio di genere. Si scoprì così che le donne tendevano a fare domanda nei dipartimenti che ammettevano meno persone nel complesso, e che questa variabile in uenzava i valori totali andando a invertire la tendenza totale dei dati. fi fl Esposizione dei dati Sono strumenti che permettono di: Interpretare più velocemente le informazioni raccolte sul fenomeno osservato; di coglierne immediatamente alcune caratteristiche Diagrammi, infogra che, mappe tematiche sono strumenti molto persuasivi nel comunicare dati molto complessi da spiegare a parole in immagini molto evocative —> proprio per questo vengono a volte usate per confondere l’osservatore fi Esposizione dei dati I due gra ci mostrano entrambi l’ascesa del tasso di disoccupazione da ottobre 2011 a ottobre 2012 fi Esposizione dei dati L’unica di erenza tra i due è nel valore di partenza dell’asse delle ordinate I due gra ci mostrano entrambi l’ascesa del tasso di disoccupazione da ottobre 2011 a ottobre 2012 fi ff Esposizione dei dati Reprint of Monmonier's (1996, 2005) classic example of "how to lie with maps": Arbitrary choices influence which information is being communicated with, and obtained from, maps. Classificazione (Raggruppamento in classi) Significa costruire una nuova variabile (ordinale) sulla base dei valori assunti da una variabile metrica: I valori vengono attribuiti alle diverse classi dopo averne definiti i limiti inferiori e superiori sulla scala su cui è misurata la variabile Rispetto alla variabile metrica perde informazioni (non si sanno i reali valori della classe ma si conoscono solo i confini di classe) I motivi: - rendere più leggibile una distribuzione - per produrre carte tematiche CLASSI DIVERSE = DIVERSI RISULTATI NELLA PERCEZIONE DEL FENOMENO Che cos’è una carta tematica? Che cos’è una carta tematica? Carta che mostra spazialmente l’andamento di un fenomeno Nelle carte tematiche visualizziamo i dati in base a concetti spaziali come la densità, il rapporto, la percentuale, numeri di indicizzazione o tendenze Classificazione (Raggruppamento in classi) Leggibilità Informazione Classificazione Classificare vuol dire decidere: Quanti classi fare (il minimo possibile in rapporto al cercare di mantenere il massimo dell’informazione) Quali limiti di classe adottare (quale metodo di classificazione adottare) Queste scelte non sono mai né semplici né univoche Classificazione: quante classi? Le classi non debbono essere troppo numerose Formule empiriche presenti in letteratura per definirne il numero delle classi Unità di analisi Gruppo Chadule, 7-15 classi 50 100 7 cl 8 cl Huntsberger, numero di classi = 1.+3.3 Log n (n=numero di unità di analisi da raggruppare < 8 cl >10 cl Brooks-Carruthers, numero delle classi < 5 Log n Se il numero delle classi è dispari ci sarà una classe centrale I limiti delle classi non devono sovrapporsi (l’attribuzione di una classe deve essere univoca) Le classi estreme possono essere aperte (definite con > o

Use Quizgecko on...
Browser
Browser