Document Details

SincereHill8147

Uploaded by SincereHill8147

Consonni, Di Marzo, Ghitti, Tonduto

Tags

energia eolica energia solare statistica Matlab

Summary

This document is a student report on the analysis of real-world quantities, focusing on the relationship between solar and wind energy production in 2019. It details data analysis, calculations of significant indices, and the creation of helpful graphs in Matlab to examine the trends of these resources.

Full Transcript

Relazione gruppo 13 (Consonni, Di Marzo, Ghitti, Tonduto) **INTRODUZIONE ALLA RELAZIONE** I 3 laboratori si sono concentrati nell'analisi di grandezze reali con l\'obiettivo di trarne delle conclusioni sul loro andamento temporale e il loro legame con altri fenomeni. Per fare ciò è stata necessar...

Relazione gruppo 13 (Consonni, Di Marzo, Ghitti, Tonduto) **INTRODUZIONE ALLA RELAZIONE** I 3 laboratori si sono concentrati nell'analisi di grandezze reali con l\'obiettivo di trarne delle conclusioni sul loro andamento temporale e il loro legame con altri fenomeni. Per fare ciò è stata necessaria l'analisi di indici e grafici che permettessero di verificare delle ipotesi a priori e trarre conclusioni. **Laboratorio 2 - statistica descrittiva** **Import e preparazione dei dati** Questa prima parte della relazione si concentra sullo studio della produzione di energia eolica e solare nel 2019; lo studio si è concentrato sul calcolo di indici significativi e sul presentare grafici utili a capire i comportamenti delle due risorse. Facendo una manipolazione di dati su Matlab, il primo compito da svolgere è importare le variabili da una cartella esterna a una matrice o un vettore così da poter iniziare l'elaborazione. Per questa prima operazione si utilizza la funzione readmatrix che permette di estrapolare i dati (in questo caso da un file.csv). Per poter lavorare sui dati, è stato necessario creare un vettore contenente la data delle osservazioni in modo da poterle suddividerle successivamente negli intervalli di interesse. Per fare ciò si sarebbe potuto svolgere una ricerca manuale (sfogliare il file manualmente), ma abbiamo preferito usare la funzione "find". La funzione "find" salva in una variabile l'indice legato a una parola o una variabile cercata. Es: indice\_inizioagosto = find (Data==in\_agosto);  Questa linea di codice permette di cercare all'interno del vettore Data l'indice contenente l'inizio di agosto, espresso come variabile "in\_agosto". Una volta trovati gli indici legati all'inizio e alla fine di agosto e di dicembre, si è riuscito a estrapolare i dati legati all'energia solare ed eolica per questi due intervalli. **Calcoli indici statistici ** ·   Media La prima parte dell'elaborazione dati si è concentrata sul calcolo di indici statistici; questi sono stati calcolati per entrambi gli intervalli di tempo così da poter confrontare tra loro i 2 mesi. Il primo indice statistico calcolato è la media, la quale è espressa su matlab dal comando "mean".  Le medie dell'energia eolica raccolte ci risultano essere 961.669 \[MW\] in agosto e 3258.559 \[MW\] in dicembre. Si può dedurre facilmente che il vento nei mesi invernali sia più costante e raggiunga velocità maggiori considerando che la media in quel periodo è più del triplo rispetto ad agosto. I valori dell'energia solare risultano invece essere 868.174 \[MW\] per dicembre e 3123.172 \[MW\] in agosto. Come si era previsto anche prima di fare il calcolo, il valore dell'energia solare è maggiore durante i mesi estivi, nei quali si riscontra più esposizione al sole. Pensando alla quantità di dati raccolta, per aver una buona media significativa si dovrebbero raccogliere almeno 24 dati al giorno così da considerare in maniera accurata le condizioni esterne alle centrali.   ·       Deviazione standard Come nel caso della media, esiste il comando "std" che permette di calcolare facilmente questo indice. Abbiamo raccolto degli indici significativi soprattutto nel caso dell'energia solare poiché la varianza è costantemente elevata in entrambi i mesi. Ciò è dovuto all'elevata distanza tra i valori notturni e i valori giornalieri.   ·       Massimi e minimi Anche per questi indici, esistono dei comandi che ci permettono di ottenere direttamente i valori inserendo un vettore di dati.  Per l'energia eolica in agosto è stato trovato un range di valori tra (70, 4317) \[MW\] mentre per dicembre (147, 7116) \[MW\]. Per l'energia solare sono stati ricavati invece i range (0,10536) \[MW\] per agosto e (0,6260) \[MW\] per dicembre. Questi valori hanno confermato alcune ipotesi fatte ancor prima di vedere i valori. La prima è che il valore minimo dell'energia solare in entrambi i mesi, o più precisamente per tutti i giorni, sarebbe stata di zero; ciò è dovuto all\'assenza di luce. Un'altra osservazione importante è da fare sul range di valori. Nel mese di dicembre i range di valori per eolica e solare sono simili (rispettivamente 6969 MW e 6260 MW); ad agosto i due range differiscono di parecchio con una differenza di circa 6000 MW in favore dell'energia solare. Ciò sottolinea un comportamento parecchio altalenante per l'energia solare la quale cresce parecchio durante il giorno e decresce con pendenza simile di notte. **Visualizzazione dei dati** Abbiamo quindi creato due grafici. Un grafico per visualizzare la variazione di energia solare prodotta durante l'anno 2019 e un grafico per visualizzare la variazione di energia eolica prodotta durante l'anno 2019. Immagine che contiene testo, schermata Descrizione generata automaticamente![Immagine che contiene testo, schermata, Diagramma, linea Descrizione generata automaticamente](media/image2.png) Purtroppo, i due grafici sono molto difficili da leggere. In primo luogo, perché sono rappresentati troppi punti all'interno del grafico; in secondo luogo, perché ogni giorno sono presenti delle variazioni rilevanti (soprattutto nel caso dell'energia solare). Si prova quindi a "pulire" i due grafici rappresentando, invece che il valore dell'energia misurato ogni ora, il valore dell'energia media prodotta durante i giorni e il valore dell'energia media prodotta durante le settimane.   Immagine che contiene testo, diagramma, Carattere, Diagramma Descrizione generata automaticamente![Immagine che contiene testo, diagramma, schermata, Carattere Descrizione generata automaticamente](media/image4.png) Immagine che contiene testo, diagramma, linea, schermata Descrizione generata automaticamente![Immagine che contiene testo, schermata, Carattere, linea Descrizione generata automaticamente](media/image6.png) Posso quindi confrontare sulla stessa scala i 3 grafici precedenti (Valore orario, valore medio giornaliero e valore medio settimanale). Immagine che contiene testo, schermata Descrizione generata automaticamente![Immagine che contiene testo, schermata, diagramma, Diagramma Descrizione generata automaticamente](media/image8.png) Si può notare che l'energia solare oscilla di più rispetto all'energia eolica che sembra più stabile. Questa osservazione è supportata dal calcolo della deviazione standard nei due casi. Per quanto riguarda le misurazioni di energia solare orarie la deviazione standard è 3038.29 \[MW\], mentre nel caso delle misurazioni di energia eolica orarie la deviazione standard è 1600.81 \[MW\].  Sappiamo dalla teoria che una deviazione standard più elevata comporta una dispersione maggiore delle misurazioni.  Possiamo anche confrontare la produzione delle due energie. (per semplicità abbiamo scelto di confrontare le energie medie settimanali). \ Il grafico sembra suggerire che le due energie prodotte siano inversamente proporzionali. Sembra che al crescere della produzione di energia solare diminuisca la produzione di energia eolica e viceversa. Proviamo quindi a fare uno scatter delle due misurazioni (prendendo sempre le medie settimanali per semplicità). ![](media/image10.png) Anche lo scatter sembra suggerire la stessa cosa; inoltre, l'indice di correlazione lineare è circa uguale a -0,6161. Possiamo quindi dire che queste misurazioni suggeriscono una relazione inversa tra energia solare ed energia eolica. Proviamo a calcolare l'indice di correlazione lineare per le medie giornaliere e per i valori orari rilevati. In modo da confrontarli con il valore precedente: -0.1027 (Indice di correlazione per le misurazioni orarie) -0.4243 (Indice di correlazione per le medie giornaliere). **Studio delle energie in un singolo mese** \ \ Nel grafico vediamo il confronto tra la produzione eolica di agosto (in blu) e quella di dicembre (in nero). Come si evince dal grafico i valori di dicembre sono più alti di quelli di agosto. La produzione media giornaliera di dicembre è infatti più di tre volte maggiore della produzione media giornaliera di agosto. ![](media/image12.png) In questo grafico viene fatta la stessa operazione di confronto ma con l\'energia solare. In rosso i dati di agosto, in nero quelli di dicembre. Anche qui oltre alla serie temporale è rappresentata la produzione media giornaliera dei due mesi con una linea tratteggiata. **Osservazioni sui dati raccolti** **Studio di Čebyšëv** Media e varianza permettono di calcolare un intervallo di interesse statistico; per la disuguaglianza di Čebyšëv, la probabilità di trovare un dato nell\'intervallo: Dunque in (m-3s , m+3s) si troveranno almeno il 88% dei dati. Dallo studio del teorema, si è trovata una percentuale del 99.9% notando che solo un valore non rientra nell'intervallo di interesse.  ![Immagine che contiene Carattere, testo, tipografia, bianco Descrizione generata automaticamente](media/image14.png) **Costruzione della variabile statistica settimanale ** Per costruire una variabile statistica 'energia solare/eolica settimanale si potrebbe fare in due modi: o, come abbiamo fatto sopra, calcolando media settimanale e ricavando dunque un range di 52 dati annuali con la variabile statistica energia media settimanale oppure costruire la variabile statistica energia settimanale totale sommando nello stesso dato la quantità di energia prodotta in una settimana. Ovviamente si può fare la stessa operazione per ottenere altre variabili statistiche di interesse come l\'energia eolica mensile che avrebbe un range ovviamente minore. **Fonti a confronto** Qui si possono visualizzare i dati della produzione di energia elettrica da fonte solare (in rosso) e da fonte eolica (in blu) nei mesi di agosto e dicembre. I due mesi sono rappresentativi dell\'andamento della produzione di energia rispettivamente in estate e in inverno. Immagine che contiene testo, schermata, Diagramma, linea Descrizione generata automaticamente![Immagine che contiene testo, schermata, Carattere, Diagramma Descrizione generata automaticamente](media/image16.png) **Osservazioni sui diagrammi a barre** Si osserva innanzitutto che la somma delle frequenze assolute è uguale alla numerosità dei dati raccolti nell'anno. La somma delle frequenze relative è dunque uguale a 1 dato che la frequenza relativa di una classe non è altro che la frequenza assoluta della classe diviso per la numerosità totale dei dati. Si può inoltre concludere che non si possono avere barre con altezza negativa poiché le frequenze assolute sono per definizione numeri assoluti, e le relative sono le assolute divise per la numerosità che è anch\'essa un numero positivo. Immagine che contiene testo, schermata, diagramma, Diagramma Descrizione generata automaticamente![Immagine che contiene testo, schermata, numero, linea Descrizione generata automaticamente](media/image18.png) L\'ampiezza delle classi in un diagramma a barre determina la precisione della distribuzione dei dati. Ovviamente fare classi troppo piccole dà un\'ottima precisione della distribuzione ma perde in informazione generale poiché vengono rappresentate troppe informazioni in un grafico che avrebbe lo scopo di essere il più generale e significativo possibile. Classi di ampiezza alta al contrario danno una pessima precisione della distribuzione e se esageratamente ampie danno troppe poche informazioni sulla variabile statistica osservata. Immagine che contiene testo, schermata, diagramma, Diagramma Descrizione generata automaticamente![Immagine che contiene testo, schermata, linea, numero Descrizione generata automaticamente](media/image20.png) **Osservazioni sull'istogramma della densità di frequenza** L\'istogramma della densità di frequenza rappresenta la frequenza relativa di una classe divisa per l\'ampiezza della classe stessa. La frequenza relativa e assoluta, a partire dalla densitá, si trova moltiplicando per l\'ampiezza della classe (trovando la relativa) e poi ulteriormente per la numerosità dei dati raccolti (per l\'assoluta). Questo è il motivo per cui i diagrammi a barre delle frequenze e l'istogramma hanno la stessa forma, pur con una scala diversa. Si osserva che la somma di due frequenze dà la frequenza di due classi e che inoltre l'area totale dell\'istogramma è uguale a 1. Immagine che contiene testo, schermata, diagramma, Diagramma Descrizione generata automaticamente![Immagine che contiene testo, schermata, numero, Carattere Descrizione generata automaticamente](media/image22.png) *Attraverso una scala logaritmica si possono visualizzare i dati in maniera alternativa. Così facendo risulta minore il gap (grafico) tra le varie densità di frequenza.* **Osservazioni sulla funzione cumulativa** La funzione cumulativa è definita sul range della variabile statistica che rappresenta. Assume valori compresi tra 0 e 1 o tra 0 e N. Ogni classe non può avere una frequenza più bassa della precedente o più alta della successiva. ![Immagine che contiene testo, schermata, Diagramma, diagramma Descrizione generata automaticamente](media/image24.png)Immagine che contiene testo, schermata, linea, Diagramma Descrizione generata automaticamente La funzione cumulativa dà perciò un\'idea indiretta di come sono distribuiti i dati; se le frequenze sono concentrate in un numero piccolo di classi la cumulativa aumenta velocemente in corrispondenza di queste classi, e viceversa una distribuzione totalmente uniforme ha una cumulativa con un aumento lineare di classe in classe. ![Immagine che contiene testo, schermata, Diagramma, diagramma Descrizione generata automaticamente](media/image26.png)Immagine che contiene testo, schermata, viola, linea Descrizione generata automaticamente Possiamo fare un'osservazione finale: Se l\'istogramma ha un andamento perlopiù costante, come nel caso dell' energia solare, la rispettiva funzione cumulativa avrà un andamento lineare. Invece, se l'istogramma ha un andamento lineare, come nel caso dell'energia eolica, la funzione cumulativa sarà parabolica. **Laboratorio 3 - statistica descrittiva**   **Input dati ** Il laboratorio 3 si concentra sullo studio delle radiazioni solari e del legame tra esse e la produzione di energia solare. In input abbiamo analizzato una matrice con tre colonne: la prima relativa alla data e all'ora delle osservazioni; le altre due relative alle radiazioni dirette e diffuse. La radiazione diretta colpisce perpendicolarmente la superficie senza subire deviazioni; la componente diffusa entra invece in contatto con molecole/particelle presenti nell'atmosfera. Per lo studio dei dati, come nel precedente laboratorio, si sfrutta la funzione "readmatrix". Per studiare le radiazioni totali si utilizza una funzione esterna che riceve in ingresso le due componenti e restituisce la loro somma. Ancora prima di plottare i dati, abbiamo formulato delle ipotesi: l'energia solare e le radiazioni totali avranno un forte legame e i loro grafici avranno sicuramente andamenti simili.   **Studio del grafico delle radiazioni.** ![Immagine che contiene testo, schermata, linea, Diagramma Descrizione generata automaticamente](media/image28.png)Immagine che contiene testo, schermata, linea, Carattere Descrizione generata automaticamente Osservando il grafico, si possono confermare alcune ipotesi fatte precedentemente: si nota come tutti i giorni presentano un minimo con valore di radiazione uguale a zero. È facile spiegarsi il motivo per cui i minimi presentano tali valori: come nel caso dell'energia solare, di notte i sensori registrano un valore nullo per assenza di radiazioni. Un'altra osservazione ricavata dal grafico è che il picco di radiazioni è circa a metà giornata, il momento con più alta esposizione al Sole. Si può notare inoltre che il grafico ha un andamento abbastanza periodico: a inizio giornata le radiazioni crescono e verso il tramonto arrivano a valore zero. Comparando il grafico appena ottenuto con quello dell'energia solare precedente si notano comportamenti simili dovuti all'andamento periodico tra giorno e notte.   **Studio dello scatter plot relativo al 2019** ![Immagine che contiene testo, schermata, diagramma Descrizione generata automaticamente](media/image30.png) Osservando il grafico le caratteristiche principalmente visibili sono la densità dei punti e la linearità della loro distribuzione. Guardando il grafico si nota un'alta densità di punti in classi con valori di energia bassi: ciò è dovuto al comportamento sia delle radiazioni, sia dell'energia solare durante le ore notturne e serali. Suddividendo i valori riportati nel grafico in "mattina, pomeriggio, sera, notte" si nota che il punto (0,0) presenta una densità di valori molto alta in quanto rappresenta tutte le ore notturne. Studiando poi il coefficiente di correlazione lineare si può affermare che il grafico sarebbe facilmente interpolabile da una retta poiché risulta un coefficiente uguale circa a 1. Questa proprietà della distribuzione porta alla conferma che l'energia solare è direttamente proporzionale alle radiazioni solari che colpiscono la superficie terrestre. Si possono poi avanzare delle ipotesi su alcuni punti più significativi del grafico: i valori massimi rilevati appartengono probabilmente ai mesi estivi durante giornate limpide e nelle prime ore del pomeriggio mentre i valori appartenenti a classi medie, potrebbero essere osservazioni della mattina o della sera.     **Studio del legame tra energia solare e radiazioni totali** Dall'andamento del grafico si osserva una correlazione lineare positiva dovuta alla dipendenza di una grandezza dall'altra. Proprio grazie a questa dipendenza è possibile presumere una correlazione positiva. (Nel caso in cui fosse negativo significherebbe che più le radiazioni diminuiscono più aumenta l'energia solare: una relazione insensata anche a livello logico). Il coefficiente di correlazione lineare è positivo quando si ha proporzionalità diretta lineare tra gli elementi di una determinata funzione: quando, al crescere di una grandezza, cresce anche l'altra. Il coefficiente di correlazione lineare è inoltre sempre compreso tra i valori -1 e +1: nel nostro caso è molto vicino a 1 (0.9321). La matrice di covarianza ha 4 proprietà principali: 1. È sempre simmetrica poiché sulla diagonale non principale ho i valori di covarianza, simmetrici per definizione. 2. È sempre diagonalizzabile. 3. È sempre quadrata per costruzione. 4. I valori sulla diagonale principale sono sempre maggiori di zero in quanto le varianze degli elementi di cui sto costruendo la matrice si trovano in posizione i,j con i=j. Sulla diagonale principale è quindi impossibile avere dei valori negativi in quando la varianza è indicata da un valore elevato alla seconda, al contrario sulla diagonale non principale, avendo le deviazioni standard, è possibile avere valori minori di 0 in quando la varianza può presentare valori negativi. **Studio dell'istogramma**  Immagine che contiene testo, diagramma, linea, design Descrizione generata automaticamente![Immagine che contiene testo, diagramma, linea, schermata Descrizione generata automaticamente](media/image32.png) Osservando l'istogramma si nota che la coppia più frequente è la coppia (0,0). Per studiare questo punto si devono creare delle classi con dimensioni notevoli così da poter studiare un insieme di punti significativo. Pensando alla frequenza marginale dell'energia solare so che, per definizione, essa dipende solo dalla variabile a cui è associata. Perciò posso concludere che la marginale dell'energia solare con questo istogramma sarà uguale alla marginale calcolata nello scorso laboratorio. La distribuzione congiunta è richiesta per calcolare la covarianza, ovvero il valore nella posizione (1,2) della matrice di covarianza (che per simmetria sarà anche uguale al valore (2,1)). È possibile calcolare la covarianza tra due grandezze con 2 metodi: usando la funzione di matlab e cercando poi l'elemento in posizione (1,2) o con un calcolo tra matrici. Con entrambi i due metodi, le covarianze risultano avere valori simili, con un piccolo errore (probabilmente dovuto ad approssimazioni di matlab).   Eliminando ogni valore nullo, abbiamo un istogramma più pulito e più in scala: non si ha più un picco attorno a (0,0) e rendo le altre classi più significative. Si eliminano inoltre possibili errori nel caso in cui i miei sensori abbiamo registrato valore nullo per problemi esterni. **Studio dell'interpolazione interpolazione** Immagine che contiene testo, schermata, Diagramma, diagramma Descrizione generata automaticamente Osservando il grafico delle osservazioni e i risultati raccolti dello studio della covarianza, si è notato che potrebbe esistere una retta che potrebbe interpolare le osservazioni con una certa significatività. Utilizzando allora il metodo dei minimi quadrati, sfruttato successivamente nel laboratorio 4, si è in grado di ricercare i coefficienti della funzione. La retta trovata presenta un coefficiente angolare uguale a 13.7 e q = 265. Si è poi compiuto un test su entrambi i parametri per confermare che avesse senso implementare questa interpolazione; con un'accettabilità alpha del 5% entrambi i parametri sono risultati significativi, confermando le ipotesi di interpolazione lineare.  **LABORATORIO 4** **Input dati** Il quarto laboratorio svolto si focalizza sullo studio dell'andamento del livello del mare medio terrestre in un periodo di tempo che si estende dal 1992 fino all'ottobre 2022. I dati in ingresso vengono presi da un file in formato.csv fornito dalla NOAA (National Oceanic and Atmospheric Administration) all'interno del quale sono presenti le misurazioni del livello marino compiute da quattro satelliti differenti appartenenti alla serie Jason e TOPEX/Poseidon, oltre che alle date di rilevazione dei dati espresse come frazioni dell'anno.  Per la procedura di input di tali dati viene utilizzato il comando Matlab "readmatrix" come fatto per i laboratori precedenti in modo da copiare tutti i dati del file in una matrice. Per rendere più agevole l'accesso a tali informazioni si trasforma il vettore di numeri in frazione annuale in un vettore con all'interno tutte le date delle rilevazioni e si estrae un vettore contenente la variazione altimetrica media considerando eventualmente la media delle misurazioni effettuate da due satelliti nello stesso momento. Per rendere meglio a livello visivo l'andamento del livello del mare si rappresentano i dati su un grafico avente sugli assi la data della misurazione e la variazione altimetrica media. Questa rappresentazione può essere effettuata tramite il comando \ oppure tramite il comando \. Quest'ultimo, rappresentando il singolo valore come un punto nel piano può risultare più chiaro nella visualizzazione. ![](media/image34.png)Immagine che contiene testo, schermata, linea, Diagramma Descrizione generata automaticamente Essendo stati i satelliti utilizzati in periodi di tempo differenti, salvo per qualche breve periodo di coesistenza, ha senso mostrare con maggiore chiarezza gli intervalli temporali in cui i singoli satelliti sono stati in utilizzo, andando a colorare le misurazioni dei singoli satelliti con colori differenti. ![](media/image36.png) Le parti di grafico dove si trova più di un colore rappresentano gli intervalli di tempo durante i quali due satelliti hanno effettuato misurazioni; di conseguenza in quei punti la variazione media altimetrica del livello del mare è calcolata tramite le medie delle misurazioni dei satelliti coesistenti. **Modello dei minimi quadrati e predizione** Notando un andamento simile a quello di una retta con coefficiente angolare positivo si prova a linearizzare l\'insieme di dati approssimandolo quindi ad una funzione della forma: y = mx +q. Non potendo conoscere a priori il modello esatto a cui approssimare la distribuzione di dati bisogna procedere stimando i rispettivi valori di m e q indicati come m̂ e q̂. Applicando i metodi del "Modello Stocastico" e del "Modello Deterministico" si arriva ad ottenere un valore di m̂ = 3.0595 (andando a confermare l'ipotesi fatta sul coefficiente angolare positivo della retta rappresentante la dipendenza lineare positiva tra l'aumento del livello marino ed il passare degli anni) ed un valore q̂ =-25.1117. Il metodo dei minimi quadrati prevede l'analisi dei dati attraverso calcoli matriciali, i quali permettono di estrapolare altre quantità significative oltre ai coefficienti della retta, per esempio le matrici di covarianza (le quali esprimono la precisione dell'interpolazione). Questa informazione è ricavata dal valore delle varianze riportate lungo la diagonale della matrice di varianza covarianza vettore [X] = \[m; q\]^t^ chiamata C~[XX]~. Maggiore il valore delle varianze di m e q peggiore sarà la qualità dell'interpolazione. Sino ad adesso si sono considerate le singole misurazioni come indipendenti da loro e i satelliti come se avessero tutti la stessa varianza (stesso margine di errore di misurazione). La matrice di varianza covarianza associabile a questo tipo di misurazioni è: Cy[₀y₀] = σ~0~^2^ \*I dove σ~0~^2^ = 16. Durante questa prima fase del laboratorio 4, si è ipotizzata una matrice Q uguale alla matrice identità e un sigma zero quadro pari a 16.  **Test di significatività dei parametri** Successivamente al calcolo dei parametri si è valutata l'ipotesi che il modello rettilineo non fosse significativo: che non rappresentasse in maniera corretta la distribuzione di dati; si sono dunque studiati due nuovi modelli di interpolazione. Per questo sono stati fatti dei test del χ^2^ e degli z-test. Nel caso in cui il modello non dovesse superare i test ciò comporterebbe un'inadeguatezza del modello (se ad esempio non dovesse esistere una relazione lineare) oppure una presenza di outliers da essere rimossi successivamente. ![](media/image38.png) Il test del 2 basa l'intero processo su una funzione di densità di probabilità alla quale viene associata un determinato intervallo di significatività alpha (nel nostro caso del 5% ovvero 2.5% sulle due ali della curva) e si valuta se il rapporto tra la varianza stimata dal test dei minimi quadrati e quella attesa rientra nell'intervallo di accettazione. Nel grafico si riporta il grafico della funzione da utilizzare per il test sui minimi quadrati. La funzione di densità di probabilità utilizzata nell'esempio corrente è quella avente 1352 Gradi di Libertà (GDL). Il numero corretto di GDL da utilizzare è dato dal numero di dati utilizzati per la stima dei parametri della funzione di interpolazione meno il numero di parametri della suddetta funzione: GDL = n - m      - dove: - n = numero dati - m = numero parametri Si può osservare una conferma grafica della "Convergenza in Legge", secondo la quale una somma di qualunque densità di probabilità, per un campione numeroso, tende ad una densità di probabilità Normale. La prima ipotesi fatta è che l\'interpolazione migliore fosse una retta costante che assumesse il valore medio. In questo caso il coefficiente angolare m è pari a zero. Se il valore di z\_osservato fosse risultato compreso tra i valori limite della curva, allora si sarebbe dimostrato che il modello costante rappresentava in maniera corretta la distribuzione di dati raccolti; in questo caso il coefficiente angolare della retta di interpolazione sarebbe stato superfluo. Lo z-test restituisce un risultato negativo, sottolineando l'importanza di un coefficiente angolare della retta. La seconda ipotesi è che la retta passi per l'origine e che perciò q corrisponda a un valore nullo. Proprio come nel primo caso, il test ci restituisce un esito negativo confermando la necessità di un valore di q diverso da zero. Possiamo adesso ripetere il test del χ^2^ dopo che abbiamo implementato entrambi i parametri (m̂ e q̂). Il test dà un risultato negativo; l\'obiettivo era trovare un andamento lineare nel tempo della nostra variabile e avendo già inserito entrambi i parametri, rimane dunque la possibilità che ci sia presenza di outliers. Per confermare questa ipotesi, si devono trovare gli outliers, eliminarli e ripetere il test. ![](media/image40.png) Nel grafico qui riportato si può notare l'importanza della presenza dei singoli parametri della retta di interpolazione in quanto l'unica retta presente che rappresenta al meglio la distribuzione di dati è infatti quella con coefficiente angolare e intercetta diverse da 0. Per superare il test del χ^2^ bisogna, come detto, andare ad eliminare tutti gli outlier che portano il rapporto tra la σ~0~^2^ stimata e quella attesa al di fuori dell'intervallo di accettazione. Il punto di partenza è eliminare l'outlier che si discosta maggiormente dalla retta. Fatto questo si ripete il test; se non è superato, si itera il procedimento fino a che non si supera il test. Il grafico qui presente mostra i dati osservati dai tre satelliti da eliminare in modo che il modello di interpolazione lineare possa superare il test del χ^2^, oltre che alla retta di interpolazione della distribuzione di dati una volta eliminati tutti gli outlier necessari. La retta è quindi una interpolazione corretta, significativa in ogni suo termine e che supera il test del χ^2^. ![](media/image42.jpg) Il video mostra il processo di rimozione degli outliers sullo scatter delle misurazioni. Si inizia rimuovendo le misurazioni più "lontane" dalla retta interpolante e via via ci si avvicina. Durante il processo la distribuzione delle misurazioni sembra assottigliarsi. In questo video viene mostrato come varia la distribuzione χ^2^ quando si rimuovono gli outilers. Semplicemente la distribuzione perde via via gradi di libertà Più si rimuovono gli outliers più il valore di χ^2^~oss~ si avvicina al limite superiore. Il processo finisce quando lo raggiunge. (Si consiglia di impostare la qualità video al massimo) **Minimi quadrati con le varianze diverse** Si considera poi una situazione più simile alla realtà secondo la quale ogni satellite ha una propria precisione diversa dagli altri. Le deviazioni standard (std) assegnate ai satelliti sono:  1. TOPEX: 10 mm 2. Jason-1: 5 mm 3. Jason-2: 4 mm 4. Jason-3: 3 mm Si può notare come col passare degli anni ed il conseguente sviluppo della tecnologia, i margini di errore dei satelliti siano andati sempre più a diminuire portando il più recente dei 4 ad avere una precisione superiore a più di tre volte quella del primo satellite. Non avendo più una precisione (una varianza) comune non posso più classificare la matrice Q come una matrice di identità anche se si considerano le singole misurazioni come indipendenti tra loro.  Si costruirà di conseguenza una nuova matrice Q contente sulla diagonale principale le varianze dei singoli satelliti. Come nel caso della varianza comune vista in precedenza nel caso in cui due satelliti siano coesistiti nello stesso lasso di tempo si possono verificare delle sovrapposizioni delle misurazioni; in questo caso si considera come misura finale la media delle due misurazioni. A differenza del caso precedente rendendo le varianze differenti si avrà come varianza della misura finale: \ [\$\$\\ \\sigma\_{f}\^{2} = \\ \\frac{(\\sigma\_{1}\^{2} + \\sigma\_{2}\^{2})}{4}\$\$]{.math.display}\ ottenuta tramite le formule di propagazione. Si può notare come la covarianza non sia presente nella formula finale in quanto tutte le misurazioni, sono indipendenti tra di loro. Si procede poi alla stima ai minimi quadrati sfruttando l'insieme di dati registrata e la matrice Q con al suo interno le varianze proprie dei satelliti in modo da poter ricavare i parametri di una retta che mi riesca ad interpolare la distribuzione di dati.  Basandosi come già fatto sull'interpolazione dei dati raccolti da parte di una funzione: - y = mx +q   - m = 3.369         e la quota di intercetta sull'asse delle variazioni altimetriche:  - q = -31.256 ![Immagine che contiene testo, schermata, diagramma, Diagramma Descrizione generata automaticamente](media/image44.png) **Interpolazione con parabola** Osservando ulteriormente l'andamento dei dati nel tempo ci si può chiedere se il modello lineare sia l'unico modello adatto all'interpolazione della serie temporale. Si pone quindi come ipotesi che si possa interpolare tramite un modello parabolico. Questo tipo di modello coinvolge per definizione un parametro in più da stimare rispetto al modello lineare in quanto si avrà a che fare con un termine di secondo grado.  Si vanno a creare due modelli di interpolazione tramite parabola relativi alle osservazioni effettuate tutte con la stessa varianza χ^2^ e a quelle effettuate con le varianze differenti satellite per satellite.  Quando si utilizzano modelli di interpolazione si può riscontrare un problema di overfitting osservabile quando l'andamento della curva di interpolazione è legato anche al valore degli errori delle osservazioni, non solamente all'andamento del valore di osservazione medio stimato. Riproponendo tutti i test effettuati sul modello precedente si nota come tutti i parametri stimati siano significativi, un risultato che conferma l'ipotesi di possibile interpolazione della serie temporale tramite una curva con un grado maggiore di precisione di quello lineare. A differenza dell'interpolazione precedente, il modello parabolico supera sin da subito il test del χ^2^ ad una sola coda per entrambi i modelli ideati, non necessitando quindi la rimozione degli outliers.  Andando però ad effettuare il test del χ^2^ a due code si nota come entrambi i modelli ideati non restituiscono risultati positivi. L'impossibilità di superare questo tipo di test è legata all'over fitting del modello a causa del quale l'andamento della curva di interpolazione nella regione alla quale appartengono le prime osservazioni non è corretta. **Predizione** Per ottenere una predizione su quale sarà il livello del mare nel 2050, abbiamo considerato le rette stimate ai MQ e ponendo la condizione sul tempo abbiamo ottenuto col primo modello un valore di 152.3393 mm e con il secondo 164.146 mm. Il procedimento è elementare se non si considera l\'incertezza data dalle matrici di covarianza dei parametri. Se invece si vuole trovare un range all\'interno del quale è più probabile che cadrà il valore reale si potrebbe ragionare utilizzando il teorema di Chebyshev cercando così i valori limite del range utilizzando non solo m̂ e q̂, ma m̂±n\*std(m) e q̂ ±n\*std(q), con n ∈ N

Use Quizgecko on...
Browser
Browser