Tilastollisten menetelmien perusteet - Viikko 1 PDF

Tilastollisten menetelmien perusteet - Viikko 1 Jussi Kangas 29. elokuuta 2021 Sisällys 1 Tärkeimmät peruskäsitteet 1 2 Satunnaismuuttujien k...

Tilastollisten menetelmien perusteet - Viikko 1 Jussi Kangas 29. elokuuta 2021 Sisällys 1 Tärkeimmät peruskäsitteet 1 2 Satunnaismuuttujien korrelaatio 5 3 Otoskorrelaatio 5 4 Korrelaation testaaminen 6 5 Yhden muuttujan regressiomalli 7 5.1 Yhden selittäjän lineaarinen regressiomalli................... 8 1 Tärkeimmät peruskäsitteet Ymmärtääksesi kurssin asiat, tietyt tilastotieteen ja todennäköisyyslaskennan peruskäsitteet tulee olla tuttuja. Tällaisia käsitteitä ovat esimerkiksi todennäköisyys, satunnaismuuttuja ja (todennäköisyys)jakauma, populaatio ja otos. Seuraavassa on koottu yhteen kurssin kannalta tärkeimpiä todennäköisyyslaskennan peruskäsitteitä. Todennäköisyys: Lukuarvo väliltä [0,1]. Tämä voidaan ajatella myös prosenttilukuna väliltä 0-100. Todennäköisyys kertoo siitä miten yleistä jonkun tapahtuman esiintymi- nen / tapahtuminen on. Mitä lähempänä todennäköisyys on lukua 1 sitä varmempi on tapahtuma ja mitä lähempänä todennäköisyys on nollaa sitä epävarmempi on tapahtu- ma. Mikäli tapahtuman todennäköisyys on 1, niin puhutaan ns. varmasta tapahtumas- ta ja mikäli todennäköisyys on nolla niin puhutaan ns. mahdottomasta tapahtumasta. Merkitään yleensä p-kirjaimella. Satunnaismuuttuja: Nimensä mukaisesti muuttuja, jonka arvot ovat satunnaisia mutta joita voidaan ennustaa todennäköisyyksien avulla. Merkitään yleensä isolla kir- jaimella (esim. X). Esimerkiksi nopanheiton tulos on satunnaismuuttuja. Realisoitu- nutta arvoa merkitään yleensä pienellä kirjaimella (esim. x). Otosavaruus on satun- naismuuttujan kaikkien mahdollisten arvojen joukko. Satunnaismuuttuja voi olla ns. 1 diskreetti (arvojoukko, otosavaruus, äärellinen tai numeroituvasti ääretön, kokonais- lukuja) tai jatkuva (otosavaruus ääretön, esimerkiksi reaalilukuväli). Nopanheitto on esimerkki diskreetistä satunnaismuuttujasta ja satunnaisesti valitun tähden etäisyys maapallosta on esimerkki jatkuvasta satunnaismuuttujasta. Odotusarvo: Satunnaismuuttujan ”odotettavin”arvo. Odotusarvo vertautuu keskiar- voon ja englanniksi se onkin sitä (’mean’), mutta koska sitä ei voida laskea kuten keskiarvoa vaan se on laskettava teoreettisesti jakaumasta, niin odotusarvoa ei tule sekoittaa keskiarvoon. Merkitään E(X) = µ (’myy’). Varianssi: Luku, joka kuvaa satunnaismuuttujan vaihtelua ja keskittymistä odotusar- von ympärille. Merkitään V ar(X) = σ 2 (’sigma toiseen’). Varianssi mittaa sitä, että kuinka kaukana odotusarvosta muuttujan arvot keskimäärin sijaitsevat. Varianssi määritellään odotusarvon kautta: σ 2 = E((X − µ)2 ). Varianssiin liittyy keskihajonta (tai hajonta), joka on varianssin neliöjuuri. Merkitään σ. Jakauma: Satunnaismuuttuja noudattaa aina jotain jakaumaa. Sen arvot ovat jollain tavalla jakautuneet otosavaruuteen odotusarvon ympärille. Jakaumat kertovat miten ja mille alueelle satunnaismuuttujan arvot ovat jakautuneet. Jakaumaan liittyy oleel- lisesti kaksi funktiota. Tiheysfunktio f (x) kertoo muuttujan arvojen jakautumisen tiheydestä otosavaruuteen. Esimerkiksi, jos otosavaruus on reaalilukuväli [0,6], tiheys- funktion avulla voitaisiin tutkia, että miten tiheästi muuttujan arvoja on välillä [1,2] ja miten tiheästi välillä [4,5], muuttujan arvot kun eivät välttämättä ole jakautuneet tasaisella tiheydellä otosavaruuteen. Diskreetin muuttujan tapauksessa tiheysfunktio- ta voidaan kutsua myös todennäköisyysfunktioksi, sillä tällöin se ilmoittaa muuttujan eri arvojen todennäköisyydet. Toinen tärkeä funktio on kertymäfunktio F (x). Sen avulla voidaan tutkia muuttujan X arvojen kertymistä avaruudessa. Toisin sanoen F (x) on todennäköisyys sille, että satunnaisesti valittu muuttujan X arvo on ≤ x. Eli F (x) = P (X ≤ x). Kovarianssi: Muuttujien X ja Y kovarianssi Cov(X,Y ) = σXY kertoo muuttujien X ja Y yhteisvaihtelusta. Kovarianssi lasketaan odotusarvona E((X − µX )(Y − µY )). Seuraavassa listassa on koottuna yhteen kurssin kannalta tärkeimpiä tilastotieteen peruskäsitteitä. Populaatio: Otosavaruus oli siis satunnaismuuttujan kaikkien mahdollisten arvojen joukko. Populaatiolla on tietty yhteys otosavaruuteen. Populaatio on kaikkien tutkit- tavien yksiköiden joukko. Toisaalta populaatio voidaan ajatella myös kaikkien tietyn ominaisuuden mahdollisten arvojen joukoksi. Käytännössä kyseessä on kuitenkin jo- kin joukko yksiköitä (alkioita), joilla on useampia ominaisuuksia, joita voidaan mitata ja tutkia. Esimerkiksi: Tutkittaessa suomalaisten pituuksia populaationa on kaikkien suomalaisten joukko. Jos taas halutaan tutkia suomalaisten miesten pituuksia, popu- laationa on suomalaiset miehet. 2 HUOM! Mitattava ominaisuus ajatellaan satunnaismuuttujaksi, jonka otosavaruus on kaikkien populaation alkioiden vastaavan ominaisuuden arvo. Mitattavan ominai- suuden, suureen, odotusarvoa E(X) = µ kutsutaan populaation odotusarvoksi ja varianssia V ar(X) = σ 2 populaatiovarianssiksi. Otos: Otos on poiminta populaatiosta. Käytännössä on useimmiten mahdotonta tut- kia mitattavan suureen käyttäytymistä koko populaation tasolla ja tästä syystä po- pulaatiosta otetaan yleensä tutkittavaksi tietty otos. Otantamenetelmistä saisi oman kurssinsa ja niihin ei valitettavasti tämän kurssin puitteissa ehditä paneutua, mutta niistä löytää helposti tietoa internetin avulla (sampling methods, otantamenetelmät). Otosalkioita (yhden mitattavan ominaisuuden osalta) merkitään {X1 ,X2 ,... ,Xn } ja näiden realisoituneita arvoja {x1 ,x2 ,... ,xn }. Data eli aineisto: Otoksesta mitattujen arvojen kokoelma. Otoskeskiarvo: Aineistosta laskettu suure. Muuttujan (tutkittavan ominaisuuden mi- tattujen arvojen) keskiarvo. Merkitään X1 + X2 +... + Xn X=. n Realisoitunutta arvoa (ja arvoja) merkitään jälleen pienillä kirjaimilla x1 + x2 +... + xn x=. n Voidaan osoittaa, että otoskeskiarvo on populaation odotusarvon ns. harhaton esti- maatti. Otossuure on populaation suureen harhaton estimaatti mikäli otossuureen odo- tusarvo on sitä vastaavan populaatiosuureen odotusarvo. Olkoon satunnaismuuttujan (mitattavan suureen) X odotusarvo = µ. Nyt X1 + X 2 +... + Xn E(X) = E n 1 = (E(X1 ) + E(X2 ) +... + E(Xn )) n 1 = · n · E(X) n = E(X) = µ. Otosvarianssi: Otoksesta laskettu suure. Muuttujan (mitattavan ominaisuuden) otok- sesta laskettu varianssi. Merkitään n 2 1 X S = (Xi − X)2. n − 1 i=1 3 Jälleen realisoitunutta arvoa merkitään pienellä kirjaimella n 2 1 X s = (xi − x)2. n − 1 i=1 Otoshajonta S (ja realisoitunut s) saadaan jälleen varianssin neliöjuurena. Voidaan osoittaa, että otosvarianssi on populaatiovarianssin harhaton estimaattori. Otoskovarianssi: Myös kovarianssille löytyy otoksesta laskettava estimaatti. Otosko- varianssi SXY lasketaan kaavalla n 1 X SXY = (Xi − X)(Yi − Y ). n − 1 i=1 4 2 Satunnaismuuttujien korrelaatio Tilastotieteessä tutkitaan useimmiten yhtäaikaa useampia muuttujia ja näiden välisiä suhtei- ta. Korrelaatio on yksi käytetyimpiä tilastotieteellisiä käsitteitä. Kahden muuttujan line- aarista yhteyttä ja sen voimakkuutta mitataan usein korrelaatiokertoimen avulla. Muut- tujien X ja Y välinen korrelaatiokerroin ρXY tai pelkkä ρ (’roo’) määritellään kaavalla Cov(X,Y ) ρXY = ρ = p. V ar(X)V ar(Y ) Korrelaatio(kerroin) saa arvoja väliltä [−1,1]. Tapauksissa ρ = −1 tai ρ = 1 riippuvuus on täysin lineaarista. Tällöin niiden yhteyttä voidaan kuvata suoran Y = aX + b avulla. Tapauksessa ρ = 0 muuttujien välillä ei ole havaittavissa lineaarista riippuvuutta. Positiivisen korrelaatiokertoimen tapauksessa muuttujien arvojen voidaan katsoa riippuvan toisistaan siten, että ’mitä suurempi X:n arvo sitä suurempi Y :n arvo’ (vaikka täysin tämä pitää paikkansa vain silloin, kun ρ = 1). Negatiivisen korrelaatiokertoimen tapauksessa ti- lanne on päinvastainen (’mitä suurempi X:n arvo sitä pienempi Y :n arvo’, pitää paikkansa täysin vain, kun ρ = −1). Satunnaismuuttujat voivat olla riippuvia toisistaan vaikka ne eivät korreloisi. Korrelaatio mittaa ainoastaan muuttujien välistä lineaarista riippuvuutta. Lisäksi kannattaa muistaa, että lineaarisen riippuvuuden olemassaolo ei vielä tarkoita sitä, että muuttujien välillä olisi kausaalisuutta (toisen muuttujan arvon muuttuminen ei suoraan johdu toisen muuttujan arvon muuttumisesta). Vanha ja kuuluisa esimerkki tästä on se, että kesäaikaan jäätelön myyntimäärät ovat yleensä korkeimmillaan, samoin on hukkumiskuole- mien määrä. Jäätelön myyntimäärät ja hukkumiskuolemien määrät korreloivat siis keskenään positiivisesti, mutta olisi täysin älytöntä väittää, että jäätelön myyntimäärien kasvu johtuisi hukkumiskuolemien määrän kasvusta tai toisinpäin. Näitä kahta toisiinsa liittymätöntä asi- aa yhdistää kesä, mutta kumpikaan niistä ei johdu toisesta. Sen sijaan esimerkiksi pituus ja paino korreloivat keskenään positiivisesti ja niiden välillä on ihan oikea luonnollinen yhteys. Mahdollista muuttujien välistä kausaalisuutta pitää tutkia ja tarkastella reaalimaailmassa eikä tehdä johtopäätöksiä pelkkien lukujen perusteella. 3 Otoskorrelaatio Tilastotiede pyrkii otosten perusteella estimoimaan populaation tunnuslukuja. Otoskeskiar- vo on odotusarvon (harhaton) estimaattori ja otosvarianssi populaation varianssin estimaat- tori. Vastaavasti otoksen avulla saadaan laskettua estimaatti muuttujien väliselle korrelaa- tiolle (korrelaatiokertoimen suuruudelle). Tätä estimaattia kutsutaan otoskorrelaatioker- toimeksi. Koska korrelaatiokerroin määritellään kovarianssin ja varianssin avulla, niin on luontevaa hyödyntää niiden estimaattivastineita otoskorrelaatiokertoimen määrittelyssä. Otoskorrelaa- 5 tiokerrointa merkitään ρ̂ (’hattu’-symbolin päällä viittaa estimaattiin) ja se lasketaan kaa- valla Pn SXY (Xi − X)(Yi − Y ) ρ̂ = p 2 2 = qP i=1. SX · SY n 2 Pn 2 i=1 (Xi − X) i=1 (Yi − Y ) Otoskorrelaatiokertoimen laskeminen edellyttää, että on poimittu populaatiosta otos havain- topareja (x1 ,y1 ), (x2 ,y2 ),... ,(xn ,yn ), joita hyödyntäen lausekkeen arvo lasketaan. Otoksesta laskettua korrelaatiokerrointa voidaan havainnoida ns. sirontakuvioiden avulla. Erilaisia korrelaatiokertoimien arvoja on havainnollistettu sirontakuvioiden avulla Pekka Pe- ren monisteessa sivulla 6. 4 Korrelaation testaaminen Yleisesti korrelaation ρ jakauma on hankala määrittää. Otoskorrelaation avulla päästään kuitenkin tutkimaan ja testaamaan korrelaatiota silloin, kun oletetaan, että muuttujat X ja Y ovat riippumattomia ja normaalijakautuneita. Tällöin otoskorrelaation jakauma on edelleen hankalahko ja se riippuu ρ:n lisäksi otoskoosta n, mutta t-jakauma tarjoaa tällöin keinon tutkia lasketun otoskorrelaation merkitsevyyttä. Testaus lähtee liikkeelle nollahypoteesista H0 : ρ = 0 eli oletuksesta, jonka mukaan muuttujat eivät korreloi keskenään. Jos tällä oletuksella laskettu t-muuttujan arvo osuu ns. kriittiselle alueelle, katsotaan, että laskettu arvo on liian epätodennäköinen ja päätellään, että taustalla vaikuttava oletus ρ = 0 ei pidä paikkaansa eli päätellään, että todellisuudessa muuttujat korreloivat keskenään. Muuttuja, jolla testaus suoritetaan on √ ρ̂ t= n−2· p. 1 − ρ̂2 Muuttuja noudattaa t-jakaumaa vapausasteella n − 2. Kriittisten alueiden sijaan testaus suoritetaan usein p-arvojen avulla. P-arvon laskutapa riippuu vaihtoehtoisesta hypoteesista H1. Vaihtoehtoisia hypoteeseja ovat H1 : ρ < 0, H1 : ρ > 0 ja H1 : ρ 6= 0. Useimmiten testaus suoritetaan ns. kaksisuuntaisena testinä eli tarkastellaan viimeistä edellä esitetyistä vaihtoehtoisista hypoteeseista, sillä useimmiten ollaan kiinnostuneita siitä, että onko muuttujien välillä tilastollisesti merkitsevää korrelaatiota vai ei. Toki yksisuuntaisia testejäkin (kaksi ensimmäistä vaihtoehtoista hypoteesia) tehdään. Vaihtoehtoisia hypoteeseja vastaavat p-arvot ovat P (t ≤ t0 ), P (t ≥ t0 ) ja 2 min{P (t ≤ t0 ), P (t ≥ t0 )}, missä t0 on otoksesta laskettu realisoitunut muuttujan t arvo. Testaus tapahtuu siis tiiviste- tysti seuraavasti: 6 1. Lasketaan otoksesta estimaatti ρ̂. 2. Lasketaan estimaatin ρ̂ avulla muuttujan t arvo. Olkoon laskettu realisoitunut arvo t0. 3. Lasketaan vaihtoehtoista hypoteesia vastaava p-arvo. Tämä tapahtuu siis siten, että lasketaan tarvittava todennäköisyys t-jakaumasta vapausasteella n − 2. Tämä laskemi- nen tapahtuu ohjelmistojen avulla. 4. Jos p-arvo on pieni, niin päätellään, että realisoitunut arvo t0 on liian epätodennäköinen ja hylätään nollahypoteesi ja päätellään vaihtoehtoinen hypoteesi paikkansapitäväksi. Millainen p-arvo on pieni? Se riippuu tilanteesta ja käytetystä riskitasosta, mutta ar- voltaan alle 0,05:n suuruiset p-arvot alkavat jo olla aika pieniä ja tilastollisesti merkit- seviä. Tämän kappaleen alussa oletimme, että muuttujat X ja Y ovat normaalijakautuneita ja riippumattomia, mutta testaus toimii kunhan ainakin toinen muuttujista on normaalijakau- tunut. 5 Yhden muuttujan regressiomalli Kun kahden muuttujan välillä havaitaan tilastollisesti merkitsevää korrelaatiota, niin on luontevaa alkaa pohtia, että mikä suora Y = aX + b parhaiten kuvaa muuttujien välillä val- litsevaa lineaarista yhteyttä. Voitaisiinko toisen muuttujan avulla ennustaa toisen muuttujan arvoja? Tässä avuksi tulee regressioanalyysinä tunnettu menetelmä, joka on yksi käytetyimmistä tilastotieteellisistä välineistä, kun tutkitaan muuttujien välisiä tilastollisia yhteyksiä. Termiä regressio käytti ensimmäisenä tiettävästi Francis Galton 1800-luvulla tutkiessaan lasten ja vanhempien pituuksien välisiä riippuvuuksia. Galton havaitsi ilmiön, jossa lyhyi- den vanhempien lapset ovat vanhempiaan pidempiä ja pitkien vanhempien lapset vanhem- piaan lyhyempiä. Hän havaitsi lasten pituuksien palautuvan (regressoituvan) kohti keskiar- voa (odotusarvoa). Galton päätteli virheellisesti, että vaihtelu jälkeläisten pituudessa tasoit- tuu. Todellisuudessa etenkin pitkien vanhempien tapauksessa kyse oli ns. outlier-tapauksista (harvinainen muuhun havaintoaineistoon sopimaton havainto) eikä Galtonin yleistys ollut pätevä. Termi regressio jäi kuitenkin elämään. Regressioanalyysissä tavoitteena on luoda mittaustuloksista malli, jonka avulla voidaan es- timoida toisen muuttujan arvoja, kun tunnetaan vain toisen muuttujan arvoja. Estimoi- tavaa muuttujaa kutsutaan selitettäväksi muuttujaksi tai vasteeksi. Muuttujaa (tai muuttujia), jonka avulla selitettävän muuttujan arvoja pyritään estimoimaan kutsutaan se- littäväksi muuttujaksi tai selittäjäksi. 7 5.1 Yhden selittäjän lineaarinen regressiomalli Regressiomallin ei ole välttämätöntä olla lineaarinen, mutta tällä kurssilla keskitytään pääasiassa lineaarisiin malleihin, sillä ne ovat yksinkertaisin esimerkki käyttökelpoisista regressiomal- leista. Tarkastellaan muuttujia Y ja x. Muuttujan Y tulee olla välimatka-asteikollinen (interval- liasteikko)1 , mutta muuttuja x voi olla myös luokka-asteikollinen2 Tavoitteena on luoda malli, jonka avulla muuttujan Y arvoja voidaan estimoida muuttujan x arvojen avulla yhtälön Y = β0 + β1 x + mukaisesti. Muuttuja Y on mallin selitettävä muuttuja, x on selittäjä, β0 on mallin vakio- termi ja β1 on regressiokerroin. Termiä kutsutaan mallin satunnaistermiksi. Regressioanalyysi tarjoaa keinon mallin parametrien β0 ja β1 estimoimiseksi otosalkioiden (x1 ,y1 ), (x2 ,y2 ),..., (xn ,yn ) avulla. Yhden selittäjän tapauksessa tavoitteena on siis sovittaa havaintoaineistoon suora, joka parhaiten selittää muuttujan Y arvojen vaihtelua muuttujan x avulla. Keinoja suoran sovittamiseen on useita, mutta käytetyin niistä on ns. pienimmän neliösumman menetelmä. Pienimmän neliösumman menetelmä on nykyään yksinkertaisin- ta suorittaa ohjelmistojen avulla, mutta myös matriisilaskenta tarjoaa keinon menetelmän suorittamiseen. Matriisilaskentaan perustuvaa menetelmää on käsitelty Keijo Ruohosen mo- nisteen luvussa 6, mutta sen osaaminen ei kuulu kurssin suoritusvaatimuksiin. Menetelmä lyhyesti: 1. Lasketaan kunkin havainnon yi etäisyys sovitettavan suoran Y = β0 + β1 x (ei satun- naistermiä) pisteestä (xi ,β0 + β1 xi ). 2. Neliöidään tämä etäisyys yi − (β0 + β1 xi ). 3. Lasketaan etäisyyksien neliöt yhteen. Saadaan summalauseke n X (yi − (β0 + β1 xi ))2. i=1 4. Minimoidaan yllä oleva summalauseke eli etsitään sellaiset parametrien β0 ja β1 arvot, joilla summalausekkeen arvo on mahdollisimman pieni. Kertoimia β̂0 ja β̂1 , jotka mini- moivat summalausekkeen arvon, kutsutaan pienimmän neliösumman estimaateiksi (tai PNS-estimaateiksi). 1 Muuttuja on välimatka-asteikollinen tai intervalliasteikoillinen, jos asteikko kertoo muuttujien järjestyksen lisäksi niiden keskinäiset etäisyydet. Käytännössä useimmat reaalilukuasteikolla mitattavat asiat ovat intervalliasteikollisia. 2 Luokka-asteikko mittaa ilmiöitä siten, että alkiot voidaan jakaa osajoukkoihin jonkin ominaisuuden mukaan. Esimerkiksi lämpötilat voidaan jakaa kylmiin ja kuumiin, ihmiset voidaan jakaa luokkiin sukupuolen perusteella jne. 8 Suoraa y = β̂0 + β̂1 x kutsutaan regressiosuoraksi. Suoran avulla saatavia estimaatteja ŷi = β̂0 + β̂1 xi kutsutaan sovitteiksi. Sovitteiden avulla saadaan laskettua myös estimaatit satunnaistermille i. Estimaatteja ˆi = yi − ŷi kutsutaan jäännöksiksi. Voidaan osoittaa, että sy β̂1 = ρ̂ · ja β̂0 = y − β̂1 x. sx Käytännössä PNS-estimaatteja ei tarvitse ikinä laskea käsin vaan laskenta tehdään ohjelmis- toja hyödyntäen. Ohjelmistojen käyttöä on tarkasteltu tämän viikon luentovideoissa sekä viikon ohjelmisto-oppaassa. 9

Tilastollisten menetelmien perusteet - Viikko 1 PDF

Document Details

Tags

Related

Summary

Full Transcript