Tilastollisten menetelmien perusteet - Viikko 1 PDF

Summary

This document is lecture notes for a course on statistical methods. It covers basic concepts such as probability, random variables, distributions, and covariance. It further explores different topics in statistics.

Full Transcript

Tilastollisten menetelmien perusteet - Viikko 1 Jussi Kangas 29. elokuuta 2021 Sisällys 1 Tärkeimmät peruskäsitteet 1 2 Satunnaismuuttujien k...

Tilastollisten menetelmien perusteet - Viikko 1 Jussi Kangas 29. elokuuta 2021 Sisällys 1 Tärkeimmät peruskäsitteet 1 2 Satunnaismuuttujien korrelaatio 5 3 Otoskorrelaatio 5 4 Korrelaation testaaminen 6 5 Yhden muuttujan regressiomalli 7 5.1 Yhden selittäjän lineaarinen regressiomalli................... 8 1 Tärkeimmät peruskäsitteet Ymmärtääksesi kurssin asiat, tietyt tilastotieteen ja todennäköisyyslaskennan peruskäsitteet tulee olla tuttuja. Tällaisia käsitteitä ovat esimerkiksi todennäköisyys, satunnaismuuttuja ja (todennäköisyys)jakauma, populaatio ja otos. Seuraavassa on koottu yhteen kurssin kannalta tärkeimpiä todennäköisyyslaskennan peruskäsitteitä. Todennäköisyys: Lukuarvo väliltä [0,1]. Tämä voidaan ajatella myös prosenttilukuna väliltä 0-100. Todennäköisyys kertoo siitä miten yleistä jonkun tapahtuman esiintymi- nen / tapahtuminen on. Mitä lähempänä todennäköisyys on lukua 1 sitä varmempi on tapahtuma ja mitä lähempänä todennäköisyys on nollaa sitä epävarmempi on tapahtu- ma. Mikäli tapahtuman todennäköisyys on 1, niin puhutaan ns. varmasta tapahtumas- ta ja mikäli todennäköisyys on nolla niin puhutaan ns. mahdottomasta tapahtumasta. Merkitään yleensä p-kirjaimella. Satunnaismuuttuja: Nimensä mukaisesti muuttuja, jonka arvot ovat satunnaisia mutta joita voidaan ennustaa todennäköisyyksien avulla. Merkitään yleensä isolla kir- jaimella (esim. X). Esimerkiksi nopanheiton tulos on satunnaismuuttuja. Realisoitu- nutta arvoa merkitään yleensä pienellä kirjaimella (esim. x). Otosavaruus on satun- naismuuttujan kaikkien mahdollisten arvojen joukko. Satunnaismuuttuja voi olla ns. 1 diskreetti (arvojoukko, otosavaruus, äärellinen tai numeroituvasti ääretön, kokonais- lukuja) tai jatkuva (otosavaruus ääretön, esimerkiksi reaalilukuväli). Nopanheitto on esimerkki diskreetistä satunnaismuuttujasta ja satunnaisesti valitun tähden etäisyys maapallosta on esimerkki jatkuvasta satunnaismuuttujasta. Odotusarvo: Satunnaismuuttujan ”odotettavin”arvo. Odotusarvo vertautuu keskiar- voon ja englanniksi se onkin sitä (’mean’), mutta koska sitä ei voida laskea kuten keskiarvoa vaan se on laskettava teoreettisesti jakaumasta, niin odotusarvoa ei tule sekoittaa keskiarvoon. Merkitään E(X) = µ (’myy’). Varianssi: Luku, joka kuvaa satunnaismuuttujan vaihtelua ja keskittymistä odotusar- von ympärille. Merkitään V ar(X) = σ 2 (’sigma toiseen’). Varianssi mittaa sitä, että kuinka kaukana odotusarvosta muuttujan arvot keskimäärin sijaitsevat. Varianssi määritellään odotusarvon kautta: σ 2 = E((X − µ)2 ). Varianssiin liittyy keskihajonta (tai hajonta), joka on varianssin neliöjuuri. Merkitään σ. Jakauma: Satunnaismuuttuja noudattaa aina jotain jakaumaa. Sen arvot ovat jollain tavalla jakautuneet otosavaruuteen odotusarvon ympärille. Jakaumat kertovat miten ja mille alueelle satunnaismuuttujan arvot ovat jakautuneet. Jakaumaan liittyy oleel- lisesti kaksi funktiota. Tiheysfunktio f (x) kertoo muuttujan arvojen jakautumisen tiheydestä otosavaruuteen. Esimerkiksi, jos otosavaruus on reaalilukuväli [0,6], tiheys- funktion avulla voitaisiin tutkia, että miten tiheästi muuttujan arvoja on välillä [1,2] ja miten tiheästi välillä [4,5], muuttujan arvot kun eivät välttämättä ole jakautuneet tasaisella tiheydellä otosavaruuteen. Diskreetin muuttujan tapauksessa tiheysfunktio- ta voidaan kutsua myös todennäköisyysfunktioksi, sillä tällöin se ilmoittaa muuttujan eri arvojen todennäköisyydet. Toinen tärkeä funktio on kertymäfunktio F (x). Sen avulla voidaan tutkia muuttujan X arvojen kertymistä avaruudessa. Toisin sanoen F (x) on todennäköisyys sille, että satunnaisesti valittu muuttujan X arvo on ≤ x. Eli F (x) = P (X ≤ x). Kovarianssi: Muuttujien X ja Y kovarianssi Cov(X,Y ) = σXY kertoo muuttujien X ja Y yhteisvaihtelusta. Kovarianssi lasketaan odotusarvona E((X − µX )(Y − µY )). Seuraavassa listassa on koottuna yhteen kurssin kannalta tärkeimpiä tilastotieteen peruskäsitteitä. Populaatio: Otosavaruus oli siis satunnaismuuttujan kaikkien mahdollisten arvojen joukko. Populaatiolla on tietty yhteys otosavaruuteen. Populaatio on kaikkien tutkit- tavien yksiköiden joukko. Toisaalta populaatio voidaan ajatella myös kaikkien tietyn ominaisuuden mahdollisten arvojen joukoksi. Käytännössä kyseessä on kuitenkin jo- kin joukko yksiköitä (alkioita), joilla on useampia ominaisuuksia, joita voidaan mitata ja tutkia. Esimerkiksi: Tutkittaessa suomalaisten pituuksia populaationa on kaikkien suomalaisten joukko. Jos taas halutaan tutkia suomalaisten miesten pituuksia, popu- laationa on suomalaiset miehet. 2 HUOM! Mitattava ominaisuus ajatellaan satunnaismuuttujaksi, jonka otosavaruus on kaikkien populaation alkioiden vastaavan ominaisuuden arvo. Mitattavan ominai- suuden, suureen, odotusarvoa E(X) = µ kutsutaan populaation odotusarvoksi ja varianssia V ar(X) = σ 2 populaatiovarianssiksi. Otos: Otos on poiminta populaatiosta. Käytännössä on useimmiten mahdotonta tut- kia mitattavan suureen käyttäytymistä koko populaation tasolla ja tästä syystä po- pulaatiosta otetaan yleensä tutkittavaksi tietty otos. Otantamenetelmistä saisi oman kurssinsa ja niihin ei valitettavasti tämän kurssin puitteissa ehditä paneutua, mutta niistä löytää helposti tietoa internetin avulla (sampling methods, otantamenetelmät). Otosalkioita (yhden mitattavan ominaisuuden osalta) merkitään {X1 ,X2 ,... ,Xn } ja näiden realisoituneita arvoja {x1 ,x2 ,... ,xn }. Data eli aineisto: Otoksesta mitattujen arvojen kokoelma. Otoskeskiarvo: Aineistosta laskettu suure. Muuttujan (tutkittavan ominaisuuden mi- tattujen arvojen) keskiarvo. Merkitään X1 + X2 +... + Xn X=. n Realisoitunutta arvoa (ja arvoja) merkitään jälleen pienillä kirjaimilla x1 + x2 +... + xn x=. n Voidaan osoittaa, että otoskeskiarvo on populaation odotusarvon ns. harhaton esti- maatti. Otossuure on populaation suureen harhaton estimaatti mikäli otossuureen odo- tusarvo on sitä vastaavan populaatiosuureen odotusarvo. Olkoon satunnaismuuttujan (mitattavan suureen) X odotusarvo = µ. Nyt   X1 + X 2 +... + Xn E(X) = E n 1 = (E(X1 ) + E(X2 ) +... + E(Xn )) n 1 = · n · E(X) n = E(X) = µ. Otosvarianssi: Otoksesta laskettu suure. Muuttujan (mitattavan ominaisuuden) otok- sesta laskettu varianssi. Merkitään n 2 1 X S = (Xi − X)2. n − 1 i=1 3 Jälleen realisoitunutta arvoa merkitään pienellä kirjaimella n 2 1 X s = (xi − x)2. n − 1 i=1 Otoshajonta S (ja realisoitunut s) saadaan jälleen varianssin neliöjuurena. Voidaan osoittaa, että otosvarianssi on populaatiovarianssin harhaton estimaattori. Otoskovarianssi: Myös kovarianssille löytyy otoksesta laskettava estimaatti. Otosko- varianssi SXY lasketaan kaavalla n 1 X SXY = (Xi − X)(Yi − Y ). n − 1 i=1 4 2 Satunnaismuuttujien korrelaatio Tilastotieteessä tutkitaan useimmiten yhtäaikaa useampia muuttujia ja näiden välisiä suhtei- ta. Korrelaatio on yksi käytetyimpiä tilastotieteellisiä käsitteitä. Kahden muuttujan line- aarista yhteyttä ja sen voimakkuutta mitataan usein korrelaatiokertoimen avulla. Muut- tujien X ja Y välinen korrelaatiokerroin ρXY tai pelkkä ρ (’roo’) määritellään kaavalla Cov(X,Y ) ρXY = ρ = p. V ar(X)V ar(Y ) Korrelaatio(kerroin) saa arvoja väliltä [−1,1]. Tapauksissa ρ = −1 tai ρ = 1 riippuvuus on täysin lineaarista. Tällöin niiden yhteyttä voidaan kuvata suoran Y = aX + b avulla. Tapauksessa ρ = 0 muuttujien välillä ei ole havaittavissa lineaarista riippuvuutta. Positiivisen korrelaatiokertoimen tapauksessa muuttujien arvojen voidaan katsoa riippuvan toisistaan siten, että ’mitä suurempi X:n arvo sitä suurempi Y :n arvo’ (vaikka täysin tämä pitää paikkansa vain silloin, kun ρ = 1). Negatiivisen korrelaatiokertoimen tapauksessa ti- lanne on päinvastainen (’mitä suurempi X:n arvo sitä pienempi Y :n arvo’, pitää paikkansa täysin vain, kun ρ = −1). Satunnaismuuttujat voivat olla riippuvia toisistaan vaikka ne eivät korreloisi. Korrelaatio mittaa ainoastaan muuttujien välistä lineaarista riippuvuutta. Lisäksi kannattaa muistaa, että lineaarisen riippuvuuden olemassaolo ei vielä tarkoita sitä, että muuttujien välillä olisi kausaalisuutta (toisen muuttujan arvon muuttuminen ei suoraan johdu toisen muuttujan arvon muuttumisesta). Vanha ja kuuluisa esimerkki tästä on se, että kesäaikaan jäätelön myyntimäärät ovat yleensä korkeimmillaan, samoin on hukkumiskuole- mien määrä. Jäätelön myyntimäärät ja hukkumiskuolemien määrät korreloivat siis keskenään positiivisesti, mutta olisi täysin älytöntä väittää, että jäätelön myyntimäärien kasvu johtuisi hukkumiskuolemien määrän kasvusta tai toisinpäin. Näitä kahta toisiinsa liittymätöntä asi- aa yhdistää kesä, mutta kumpikaan niistä ei johdu toisesta. Sen sijaan esimerkiksi pituus ja paino korreloivat keskenään positiivisesti ja niiden välillä on ihan oikea luonnollinen yhteys. Mahdollista muuttujien välistä kausaalisuutta pitää tutkia ja tarkastella reaalimaailmassa eikä tehdä johtopäätöksiä pelkkien lukujen perusteella. 3 Otoskorrelaatio Tilastotiede pyrkii otosten perusteella estimoimaan populaation tunnuslukuja. Otoskeskiar- vo on odotusarvon (harhaton) estimaattori ja otosvarianssi populaation varianssin estimaat- tori. Vastaavasti otoksen avulla saadaan laskettua estimaatti muuttujien väliselle korrelaa- tiolle (korrelaatiokertoimen suuruudelle). Tätä estimaattia kutsutaan otoskorrelaatioker- toimeksi. Koska korrelaatiokerroin määritellään kovarianssin ja varianssin avulla, niin on luontevaa hyödyntää niiden estimaattivastineita otoskorrelaatiokertoimen määrittelyssä. Otoskorrelaa- 5 tiokerrointa merkitään ρ̂ (’hattu’-symbolin päällä viittaa estimaattiin) ja se lasketaan kaa- valla Pn SXY (Xi − X)(Yi − Y ) ρ̂ = p 2 2 = qP i=1. SX · SY n 2 Pn 2 i=1 (Xi − X) i=1 (Yi − Y ) Otoskorrelaatiokertoimen laskeminen edellyttää, että on poimittu populaatiosta otos havain- topareja (x1 ,y1 ), (x2 ,y2 ),... ,(xn ,yn ), joita hyödyntäen lausekkeen arvo lasketaan. Otoksesta laskettua korrelaatiokerrointa voidaan havainnoida ns. sirontakuvioiden avulla. Erilaisia korrelaatiokertoimien arvoja on havainnollistettu sirontakuvioiden avulla Pekka Pe- ren monisteessa sivulla 6. 4 Korrelaation testaaminen Yleisesti korrelaation ρ jakauma on hankala määrittää. Otoskorrelaation avulla päästään kuitenkin tutkimaan ja testaamaan korrelaatiota silloin, kun oletetaan, että muuttujat X ja Y ovat riippumattomia ja normaalijakautuneita. Tällöin otoskorrelaation jakauma on edelleen hankalahko ja se riippuu ρ:n lisäksi otoskoosta n, mutta t-jakauma tarjoaa tällöin keinon tutkia lasketun otoskorrelaation merkitsevyyttä. Testaus lähtee liikkeelle nollahypoteesista H0 : ρ = 0 eli oletuksesta, jonka mukaan muuttujat eivät korreloi keskenään. Jos tällä oletuksella laskettu t-muuttujan arvo osuu ns. kriittiselle alueelle, katsotaan, että laskettu arvo on liian epätodennäköinen ja päätellään, että taustalla vaikuttava oletus ρ = 0 ei pidä paikkaansa eli päätellään, että todellisuudessa muuttujat korreloivat keskenään. Muuttuja, jolla testaus suoritetaan on √ ρ̂ t= n−2· p. 1 − ρ̂2 Muuttuja noudattaa t-jakaumaa vapausasteella n − 2. Kriittisten alueiden sijaan testaus suoritetaan usein p-arvojen avulla. P-arvon laskutapa riippuu vaihtoehtoisesta hypoteesista H1. Vaihtoehtoisia hypoteeseja ovat H1 : ρ < 0, H1 : ρ > 0 ja H1 : ρ 6= 0. Useimmiten testaus suoritetaan ns. kaksisuuntaisena testinä eli tarkastellaan viimeistä edellä esitetyistä vaihtoehtoisista hypoteeseista, sillä useimmiten ollaan kiinnostuneita siitä, että onko muuttujien välillä tilastollisesti merkitsevää korrelaatiota vai ei. Toki yksisuuntaisia testejäkin (kaksi ensimmäistä vaihtoehtoista hypoteesia) tehdään. Vaihtoehtoisia hypoteeseja vastaavat p-arvot ovat P (t ≤ t0 ), P (t ≥ t0 ) ja 2 min{P (t ≤ t0 ), P (t ≥ t0 )}, missä t0 on otoksesta laskettu realisoitunut muuttujan t arvo. Testaus tapahtuu siis tiiviste- tysti seuraavasti: 6 1. Lasketaan otoksesta estimaatti ρ̂. 2. Lasketaan estimaatin ρ̂ avulla muuttujan t arvo. Olkoon laskettu realisoitunut arvo t0. 3. Lasketaan vaihtoehtoista hypoteesia vastaava p-arvo. Tämä tapahtuu siis siten, että lasketaan tarvittava todennäköisyys t-jakaumasta vapausasteella n − 2. Tämä laskemi- nen tapahtuu ohjelmistojen avulla. 4. Jos p-arvo on pieni, niin päätellään, että realisoitunut arvo t0 on liian epätodennäköinen ja hylätään nollahypoteesi ja päätellään vaihtoehtoinen hypoteesi paikkansapitäväksi. Millainen p-arvo on pieni? Se riippuu tilanteesta ja käytetystä riskitasosta, mutta ar- voltaan alle 0,05:n suuruiset p-arvot alkavat jo olla aika pieniä ja tilastollisesti merkit- seviä. Tämän kappaleen alussa oletimme, että muuttujat X ja Y ovat normaalijakautuneita ja riippumattomia, mutta testaus toimii kunhan ainakin toinen muuttujista on normaalijakau- tunut. 5 Yhden muuttujan regressiomalli Kun kahden muuttujan välillä havaitaan tilastollisesti merkitsevää korrelaatiota, niin on luontevaa alkaa pohtia, että mikä suora Y = aX + b parhaiten kuvaa muuttujien välillä val- litsevaa lineaarista yhteyttä. Voitaisiinko toisen muuttujan avulla ennustaa toisen muuttujan arvoja? Tässä avuksi tulee regressioanalyysinä tunnettu menetelmä, joka on yksi käytetyimmistä tilastotieteellisistä välineistä, kun tutkitaan muuttujien välisiä tilastollisia yhteyksiä. Termiä regressio käytti ensimmäisenä tiettävästi Francis Galton 1800-luvulla tutkiessaan lasten ja vanhempien pituuksien välisiä riippuvuuksia. Galton havaitsi ilmiön, jossa lyhyi- den vanhempien lapset ovat vanhempiaan pidempiä ja pitkien vanhempien lapset vanhem- piaan lyhyempiä. Hän havaitsi lasten pituuksien palautuvan (regressoituvan) kohti keskiar- voa (odotusarvoa). Galton päätteli virheellisesti, että vaihtelu jälkeläisten pituudessa tasoit- tuu. Todellisuudessa etenkin pitkien vanhempien tapauksessa kyse oli ns. outlier-tapauksista (harvinainen muuhun havaintoaineistoon sopimaton havainto) eikä Galtonin yleistys ollut pätevä. Termi regressio jäi kuitenkin elämään. Regressioanalyysissä tavoitteena on luoda mittaustuloksista malli, jonka avulla voidaan es- timoida toisen muuttujan arvoja, kun tunnetaan vain toisen muuttujan arvoja. Estimoi- tavaa muuttujaa kutsutaan selitettäväksi muuttujaksi tai vasteeksi. Muuttujaa (tai muuttujia), jonka avulla selitettävän muuttujan arvoja pyritään estimoimaan kutsutaan se- littäväksi muuttujaksi tai selittäjäksi. 7 5.1 Yhden selittäjän lineaarinen regressiomalli Regressiomallin ei ole välttämätöntä olla lineaarinen, mutta tällä kurssilla keskitytään pääasiassa lineaarisiin malleihin, sillä ne ovat yksinkertaisin esimerkki käyttökelpoisista regressiomal- leista. Tarkastellaan muuttujia Y ja x. Muuttujan Y tulee olla välimatka-asteikollinen (interval- liasteikko)1 , mutta muuttuja x voi olla myös luokka-asteikollinen2 Tavoitteena on luoda malli, jonka avulla muuttujan Y arvoja voidaan estimoida muuttujan x arvojen avulla yhtälön Y = β0 + β1 x +  mukaisesti. Muuttuja Y on mallin selitettävä muuttuja, x on selittäjä, β0 on mallin vakio- termi ja β1 on regressiokerroin. Termiä  kutsutaan mallin satunnaistermiksi. Regressioanalyysi tarjoaa keinon mallin parametrien β0 ja β1 estimoimiseksi otosalkioiden (x1 ,y1 ), (x2 ,y2 ),..., (xn ,yn ) avulla. Yhden selittäjän tapauksessa tavoitteena on siis sovittaa havaintoaineistoon suora, joka parhaiten selittää muuttujan Y arvojen vaihtelua muuttujan x avulla. Keinoja suoran sovittamiseen on useita, mutta käytetyin niistä on ns. pienimmän neliösumman menetelmä. Pienimmän neliösumman menetelmä on nykyään yksinkertaisin- ta suorittaa ohjelmistojen avulla, mutta myös matriisilaskenta tarjoaa keinon menetelmän suorittamiseen. Matriisilaskentaan perustuvaa menetelmää on käsitelty Keijo Ruohosen mo- nisteen luvussa 6, mutta sen osaaminen ei kuulu kurssin suoritusvaatimuksiin. Menetelmä lyhyesti: 1. Lasketaan kunkin havainnon yi etäisyys sovitettavan suoran Y = β0 + β1 x (ei satun- naistermiä) pisteestä (xi ,β0 + β1 xi ). 2. Neliöidään tämä etäisyys yi − (β0 + β1 xi ). 3. Lasketaan etäisyyksien neliöt yhteen. Saadaan summalauseke n X (yi − (β0 + β1 xi ))2. i=1 4. Minimoidaan yllä oleva summalauseke eli etsitään sellaiset parametrien β0 ja β1 arvot, joilla summalausekkeen arvo on mahdollisimman pieni. Kertoimia β̂0 ja β̂1 , jotka mini- moivat summalausekkeen arvon, kutsutaan pienimmän neliösumman estimaateiksi (tai PNS-estimaateiksi). 1 Muuttuja on välimatka-asteikollinen tai intervalliasteikoillinen, jos asteikko kertoo muuttujien järjestyksen lisäksi niiden keskinäiset etäisyydet. Käytännössä useimmat reaalilukuasteikolla mitattavat asiat ovat intervalliasteikollisia. 2 Luokka-asteikko mittaa ilmiöitä siten, että alkiot voidaan jakaa osajoukkoihin jonkin ominaisuuden mukaan. Esimerkiksi lämpötilat voidaan jakaa kylmiin ja kuumiin, ihmiset voidaan jakaa luokkiin sukupuolen perusteella jne. 8 Suoraa y = β̂0 + β̂1 x kutsutaan regressiosuoraksi. Suoran avulla saatavia estimaatteja ŷi = β̂0 + β̂1 xi kutsutaan sovitteiksi. Sovitteiden avulla saadaan laskettua myös estimaatit satunnaistermille i. Estimaatteja ˆi = yi − ŷi kutsutaan jäännöksiksi. Voidaan osoittaa, että sy β̂1 = ρ̂ · ja β̂0 = y − β̂1 x. sx Käytännössä PNS-estimaatteja ei tarvitse ikinä laskea käsin vaan laskenta tehdään ohjelmis- toja hyödyntäen. Ohjelmistojen käyttöä on tarkasteltu tämän viikon luentovideoissa sekä viikon ohjelmisto-oppaassa. 9

Use Quizgecko on...
Browser
Browser