Document Details

StrongLilac

Uploaded by StrongLilac

Vilniaus universitetas

2024

Andrius Vainilavičius

Tags

econometrics economic theory regression analysis statistics

Summary

Ekonometrija I paskaitos - Vilniaus universitetas. Apibūdinamos ekonometrijos temos ir principai, naudojant statistinius metodus. Detalūs aprašymai apie porinės ir daugianarės regresijos metodus.

Full Transcript

Ekonometrija I Paskaita 01 Andrius Vainilavičius [email protected] Vilniaus universitetas 2024/2025 1 / 25 Kas yra ekonometrija? Plačiai apibūdinant, ekonometrija yra mokslas, kuriame ekonominė teorija ir statistiniai meto...

Ekonometrija I Paskaita 01 Andrius Vainilavičius [email protected] Vilniaus universitetas 2024/2025 1 / 25 Kas yra ekonometrija? Plačiai apibūdinant, ekonometrija yra mokslas, kuriame ekonominė teorija ir statistiniai metodai yra naudojami analizuojant ekonominius duomenis. Ekonometrija I kursas yra paremtas medžiaga iš J. Wooldridge vadovėlio "Introductory Econometrics: A Modern Approach". 2 / 25 Temos Žemiau yra trumpai pateikiamos temos, kurias nagrinėsime: ▶ Porinė regresija; ▶ Daugianarė regresija; ▶ Fiktyviu˛ kintamu˛ju˛ regresija; ▶ Endogeniškumas; ▶ Instrumentiniu˛ kintamu˛ju˛ regresija; ▶ Multikolinearumas; ▶ Heteroskedastiškumas; ▶ Autokoreliacija; ▶ Modelio specifikacija; ▶ Tiesinis tikimybinis modelis; Platesnę informaciją apie temas ir potemes galima rasti sande. Kokios formos bus paskaitos, bei kokios formos bus seminarai? 3 / 25 Atsiskaitymai Galutini˛ Jūsu˛ ˛ivertinimą sudarys: ▶ Tarpinis atsiskaitymas (30%); ▶ Praktinis atsiskaitymas (30%) ▶ Galutinis atsiskaitymas (40%); +bonus testai (VMA aplinkoje) skirti geriau pasiruošti atsiskaitymams. 4 / 25 5 / 25 Kaip atrodo tipinis ekonometrijos uždavinys? 6 / 25 Pavyzdys - ar klasiu˛ sumažinimas padidina mokiniu˛ pasiekimus? ▶ Klasiu˛ sumažinimas turi kaštus - samdomi mokytojai, didesnis kabinetu˛ poreikis, etc. ▶ Tam, kad racionaliai ˛ivertintume klasiu˛ sumažinimo sprendimą, reikia ˛ivertinti ir naudą. Ar mažesnėse klasėse besimokantys mokiniai pasiekia geresniu˛ rezultatu˛? Kokio dydžio šis efektas? Paskaitose analizuosime metodus, taikomus siekiant atsakyti ˛i tokio pobūdžio klausimus. Taip pat iššūkius, su kuriais susiduriama, atliekant tyrimus. 7 / 25 Ekonometrijos uždavinys Ekonomistai Angrist ir Pishke pataria, jog prieš analizuojant kiekvieną klausimą ekonometrijoje yra svarbu atsakyti ˛i šiuos klausimus: ▶ Koks priežastingumo ryšys yra nagrinėjamoje problemoje? ▶ Koks eksperimentas idealiausiai tiktu˛ siekiant nustatyti nagrinėjamą sąryši˛? ▶ Kaip pasirinkti iš galimu˛ duomenu˛, jog šie aproksimuotu˛ realu˛ eksperimentą? ▶ Kaip atrinkti tinkamus duomenis (populiacija, imtis, modelio prielaidos)? 8 / 25 Duomenys naudojami ekonometriniuose tyrimuose ▶ Laiko eilutės; ▶ Skerspjūvio (Cross-Sectional); ▶ Paneliniai; 9 / 25 Pirma tema - porinė regresija 10 / 25 Porinė regresija Regresija, tai sąryšis tarp vieno ar daugiau nepriklausomu˛ kintamu˛ju˛ su tikėtina priklausomo kintamojo verte. y = f (x1 , x2 ,..., xn ) Tiesinė porinė regresija, tai paprasčiausias tiesinis modelis, kuriame kaip ˛imanoma tiksliau nuspėjama priklausomo kintamojo ˛ivertis, duotajam nepriklausomo kintamojo ˛iverčiui. Kaip tai atrodo vizualiai? 11 / 25 Pavyzdys Tarkime, turime grafiškai atvaizduotus duomenis: 12 / 25 Tiesinė porinė regresija Tuomet, norint sukonstruoti porinės regresijos modeli˛, reikia rasti tiesę y = a + bx, kuri geriausiai atitiktu˛ duotuosius duomenis. 13 / 25 Pavyzdys 14 / 25 Porinė regresija Porinės regresijos modelis tuomet bus apibrėžiamas taip: y = β0 + β1 x + u Kur y - priklausomas kintamasis (regresantas), x - nepriklausomas kintamasis (regresorius), o u (dažnai žymima ir kaip ϵ ar e) - modelio paklaida. 15 / 25 Pavyzdys.Paklaida (u) žymima raudonai 16 / 25 Populiacija vs. imtis Populiacijai: y = β0 + β1 x + u Imčiai: y = βˆ0 + βˆ1 x + û 17 / 25 Interpretacija Prieš interpretuojant gautus rezultatus yra svarbu žinoti ar paklaidos nėra koreliuotos su nepriklausomu kintamuoju. Antraip, β1 bus šališkas/su sistemine paklaida (angl. biased) dėl endogeniškumo problemos. ∆y ∆u = β1 → = 0 → E (u|x) = 0 ∆x ∆x Interpretuodami visuomet ieškome dalinės išvestinės! Tarkime, jog estimavome regresiją, kuri nurodo, kaip vidutiniškai priklauso studentu˛ pažymiai, nuo praleistu˛ valandu˛ mokantis: ˛Ivertis = 3.5 + 0.2Mokymasis + ui Kitas pavyzdys: Atlyginimas = 550 + 50Išsilavinimas + ui 18 / 25 Paklaidos Apisbrėžę imties regresiją, dar kartą pažiūrėkime kaip tai atrodo vizualiai. Tuomet, estimuotas paklaidas mes galime persirašyti kaip: ûi = yi − ŷi = yi − βˆ0 − βˆ1 xi Iš šios išraiškos išplaukia, jog siekiant rasti regresiją, tiksliausiai atitinkančią turimus duomenis, reikia parinkti tokius βˆ0 ir βˆ1 , kad paklaidos ûi būtu˛ kiek ˛imanoma mažesnės. O tiksliau - minimizuojamas paklaidu˛ sumos kvadratas (Sum of Squared Residuals): X min ûi2 O βˆ1 ir βˆ0 tuomet randami pagal formules: Cov (yi , xi ) βˆ1 = βˆ0 = ȳ − βˆ1 x̄ Var (xi ) 19 / 25 Mažiausiu˛ kvadratu˛ metodas βˆ0 ir βˆ1 imties koeficientai, tenkinantys sąlygą min ûi2 estimuoja P populiacijos koeficientus β0 ir β1 mažiausiu˛ kvadratu˛ metodu (Ordinary Least Squares, OLS). Tam, kad galėtume estimuoti populiacijos parametrus mažiausiu˛ kvadratu˛ metodu, turi būti tenkinamos šios sąlygos: ▶ Priklausomas kintamasis (y) turi būti tiesinė nepriklausomu˛ kintamu˛ju˛ (x) ir paklaidos (u) funkcija; ▶ Imties stebėjimai yra atsitiktiniai, t.y. imtis yra reprezentatyvi populiacijai; ▶ nepriklausomi kintamieji (xi ) nekoreliuoja su paklaidomis (ui ) → E (u) = 0; ▶ *Daugianarėje regresijoje* nėra multikolinearumo tarp nepriklausomu˛ kintamu˛ju˛; ▶ Paklaidos pasižymi homoskedastiškumu ir nėra autokoreliacijos; ▶ Paklaidos atitinka normalu˛ji˛ skirstini˛ (normal distribution)(nebūtina sąlyga); 20 / 25 Gauss-Markov teorema Jei šios sąlygos yra tenkinamos, Gauso-Markovo teorema teigia, jog MKM estimuoti regresijos ˛iverčiai (βˆ1 ir βˆ0 ) yra geriausi tiesiniai nešališki/nepaslinkti ˛iverčiai (Best Linear Unbiased Estimators - BLUE). ▶ βˆ1 ir βˆ0 yra tiesiniai yi ; ▶ E [βˆ1 ] = β1 E [βˆ0 ] = β0 ▶ turi žemiausią dispersiją tiesiniu˛ nepaslinktu˛/nešališku˛ ˛iverčiu˛ klasėje. 21 / 25 MKM ir determinacijos koeficientas Tarkime, turime estimavę regresijos modeli˛. Kaip ˛ivertinti modelio tinkamumą? Vienas būdas tam atlikti yra patikrinti determinacijos koeficientą, arba kitaip R 2. R 2 yra ˛ivertis intervale tarp 0 ir 1. Jis nurodo, kaip gerai modelis paaiškina variaciją priklausomo kintamojo, lyginant su variacija nepriklausomuose kintamuosiuose. Tam, jog R 2 surastumėme, reikia apsibrėžti kelis dydžius. 22 / 25 Determinacijos koeficientas Sum of Squared Residuals: n X SSR = ûi2 i=1 Explained Sum of Squares: n X SSE = (ŷi − ȳ )2 i=1 Total Sum of Squares: n X SST = (yi − ȳ )2 i=1 Tuomet R 2 bus apskaičiuojamas taip: SSE SSR R2 = =1− SST SST 23 / 25 Determinacijos koeficiento interpretacija Kuo didesnis R 2 ˛ivertis, tuo geriau modelis estimuoja duomenis ir nepriklausomo kintamojo variacija paaiškina priklausomo kintamojo variaciją. Porinės regresijos atveju - kuo didesnis R 2 , tuo geriau variacija kintamajame y yra paaiškinama kintamojo x variacija. Jei R 2 yra 1, tai reiškia, jog ŷi = yi. Jei R 2 yra 0, tuomet y variacijos nėra nė kiek paaiškinamos x variacijomis, kitaip tariant koreliacija tarp šiu˛ kintamu˛ju˛ yra nulinė. 24 / 25 Kitoje paskaitoje Trumpai pratęsime su porine regresija, jos ˛iverčiu˛ tikslumu, parametru˛ reikšmingumo testu, etc. Taip pat pradėsime daugines regresijas. 25 / 25 Ekonometrija I Paskaita 02 Andrius Vainilavičius [email protected] Vilniaus universitetas 2024/2025 1 / 24 Praeitoje paskaitoje ▶ Porinės regresijos modelis: yi = βˆ0 + βˆ1 xi + ûi ▶ Mažiausiu˛ kvadratu˛ metodo išvedimas; ▶ Mažiausiu˛ kvadratu˛ metodas ir jo prielaidos; ▶ Gauss-Markov teorema; 2 / 24 Šioje paskaitoje ▶ Determinacijos koeficientas; ▶ ˛Iverčiu˛ tikslumas; ▶ Intervaliniai ˛iverčiai; ▶ Parametru˛ reikšmingumo testas; ▶ Dauginė regresija; ▶ Modelio F statistika; 3 / 24 MKM ir determinacijos koeficientas Tarkime, turime estimavę regresijos modeli˛. Kaip ˛ivertinti modelio tinkamumą? Galime patikrinti kokia yra ui2 sumos vertė. Tačiau, tai nėra informatyvu, ar palygintina. Taigi dažniausiai yra naudojamasi kitais matavimo būdais. Vienas būdas tam atlikti yra patikrinti determinacijos koeficientą, arba kitaip R 2. R 2 yra ˛ivertis intervale tarp 0 ir 1. Jis nurodo, kaip gerai modelis paaiškina variaciją priklausomo kintamojo, lyginant su variacija nepriklausomuose kintamuosiuose. Tam, jog R 2 surastumėme, reikia apsibrėžti kelis dydžius. 4 / 24 Determinacijos koeficientas Sum of Squared Residuals: n X SSR = ûi2 i=1 Explained Sum of Squares: n X SSE = (ŷi − ȳ )2 i=1 Total Sum of Squares: n X SST = (yi − ȳ )2 i=1 Tuomet R 2 bus apskaičiuojamas taip: SSE SSR R2 = =1− SST SST 5 / 24 Determinacijos koeficientas 6 / 24 Determinacijos koeficiento interpretacija Kuo didesnis R 2 ˛ivertis, tuo geriau modelis estimuoja duomenis ir nepriklausomo kintamojo variacija paaiškina priklausomo kintamojo variaciją. Porinės regresijos atveju - kuo didesnis R 2 , tuo geriau variacija kintamajame y yra paaiškinama kintamojo x variacija. Jei R 2 yra 1, tai reiškia, jog ŷi = yi. Jei R 2 yra 0, tuomet y variacijos nėra nė kiek paaiškinamos x variacijomis, kitaip tariant koreliacija tarp šiu˛ kintamu˛ju˛ yra nulinė. 7 / 24 Populiacijos parametras vs. imties ˛ivertis Prisiminkime, jog naudojant MKM β̂1 estimuoja populiacijos parametrą β1. Ką mes galime pasakyti apie populiacijos parametrą β1 , pagal estimuotą β̂1 ? Tam, kad galėtume plačiau tai panagrinėti, mums reikia žinoti β̂1 imties skirstini˛. Jei ui yra nepriklausomos, normalu˛ji˛ skirstini˛ atitinkančios ir pastovios dispersijos, tuomet apie β̂1 imčiu˛ skirstini˛ galime pasakyti: ▶ turi vidurki˛ β1 , E (β̂1 ) = β1 ; 2 ▶ turi dispersiją Var (β̂1 ) = P σ ; (xi −x̄)2 ▶ atitinka normalu˛ji˛ skirstini˛. 8 / 24 ˛Iverčio imčiu˛ skirstinys ˛Ivardinant trumpiau: σ2 β̂1 ∼ N(β1 , P ) (xi − x̄)2 σ 2 yra populiacijos parametras, todėl pirmiausia, ji˛ estimuosime. 9 / 24 σ 2 estimavimas ûi2 (yi − ŷi )2 P P 2 s = = n−2 n−2 Kodėl n-2? Nes estimuojant s 2 naudojame (β̂0 , β̂1 ) ir dėl to prarandame du laisvės laipsnius (angl. degrees of freedom). Estimavus σ 2 , galime rasti standartinę β̂0 ir β̂1 ˛iverčio paklaidą (SE): s s 2 xi2 P SEβ̂0 = n (xi − x̄)2 P s s2 SEβ̂1 = P (xi − x̄)2 10 / 24 Standartinė ˛iverčio paklaida 11 / 24 Koeficiento ˛iverčio standartinė paklaida ˛Iverčiu˛ standartinė paklaida (angl. Standard error, SE) apibūdina ˛iverčio tikslumą. Jei norime patikrinti (1 − α)100% patikimumo intervalą (angl. confidence interval) β1 parametrui, kur α - reikšmingumo lygmuo (angl. significance level), tuomet, reiktu˛ naudotis formule: ∗ β̂1 ± tα/2 ∗ SE (β̂1 ) (1) ∗ tα/2 - kritinė t statistikos ˛iverčio reikšmė, parenkama pagal α ir laisvės laipsnius. 12 / 24 t ∗ reikšmės 13 / 24 Pavyzdys Seminaro metu estimavome klasės dydžio efektą mokymosi rezultatams ir gavome β̂1 = −2.28, SEβ̂1 = 0.48. Kaip tuomet atrodytu˛ 95% patikimumo intervalas β1 ? −2.28 − 1.96 ∗ 0.48 ≤ β1 ≤ −2.28 + 1.96 ∗ 0.48 −3.2208 ≤ β1 ≤ −1.3392 14 / 24 Parametru˛ reikšmingumo testas 15 / 24 Parametru˛ reikšmingumo testas Kaip žinoti ar nepriklausomas kintamasis iš tiesu˛ turi tiesini˛ sąryši˛ su priklausomu kintamuoju? Jei klasės dydžiu˛ pavyzdyje β̂1 = −0.9, ar galima teigti, jog egzistuoja tiesinis sąryšis? Tam, jog atsakytume ˛i ši˛ klausimą reikia suskaičiuoti estimuoto koeficiento t ˛iverti˛ ir ˛ivertinti dvi hypotezes: H0 : β1 = 0 H1 : β1 ̸= 0 t ˛iverčio formulė: β̂1 − 0[H0 ] β̂1 t= = (2) SEβ̂1 SEβ̂1 16 / 24 Parametru˛ reikšmingumo testas Suradus t ˛iverti˛, reikia ji˛ palyginti su kritine t reikšme. Jei t>t* (teigiamoms t reikšmėms) ar t|t|) esant mažiau nei 0.05, atmesime H0. 19 / 24 Modelio F statistika 20 / 24 Dauginė regresija Kaip galite nujausti (ir suprasti iš seminaro užduoties) dažniausiai ekonomistus dominantys klausimai yra komplikuoti, tad siekiant nustatyti sąryšius tarp skirtingu˛ procesu˛ ar siekiant prognozuoti procesus dažnai tenka naudoti daugiau nei vieną nepriklausomą kintamąji˛. Priklausomybės lygtis, kurioje nepriklausomu˛ kintamu˛ju˛ yra du ar daugiau ir yra vadinama dauginiu regresiniu modeliu. Toks modelis leidžia analizuoti keliu˛ nepriklausomu˛ kintamu˛ju˛ bendrą poveiki˛ priklausomam kintamajam. Dauginė tiesinė regresija yra tokios formos: y = β0 + β1 x1 + β2 x2 +... + βm xm + u 21 / 24 Dauginė regresija Svarbu atsiminti, jog nepriklausomu˛ kintamu˛ju˛ kiekis nebūtinai padaro regresijos modeli˛ geresniu ar pagerina jo prognozavimo galimybes. Pridėjus per daug nepriklausomu˛ kintamu˛ju˛ susiduriama su perkrovimo (angl. overfitting) problema. Taip pat, daugiau nepriklausomu˛ kintamu˛ju˛ reiškia, jog atsiranda potenciali multikolinearumo problema. Idealiu atveju nepriklausomi kintamieji koreliuoja su priklausomu kintamuoju, tačiau nekoreliuoja tarpusavyje. 22 / 24 Dauginė regresija Estimuota regresijos forma: ŷ = β̂0 + β̂1 x1 + β̂2 x2 +... + β̂m xm Kaip interpretuoti gautus rezultatus? Estimuoti β ˛iverčiai nurodo numanomą y pokyti˛, pasikeitus vienam vienetui xk , kitiems nepriklausomiems kintamiesiems(xi̸=k ) išliekant pastoviais. Pavyzdys: Infliacija = 0.01+0.001∗∆Vid.DU.proc+0.002∗∆Zaliavu.kainos.proc+ + 0.003 ∆Valiutos.kursas.proc + u 23 / 24 Modelio F statistika Modelio F statistika tikrina panašią hipotezę - ar visi parametrai bendrai yra lygūs nuliui. H0 : β1 = β2 =... = βm = 0 H1 : βi ̸= 0 Kaip skaičiuojama modelio F statistika? Neapribotas modelis (UR): y = β0 + β1 ∗ x1 + β2 ∗ x2 +... + βm ∗ xm Apribotas modelis (R): y = β0 R −SSRUR )/m Tuomet F = (SSR SSRUR /(n−m−1) ir F ˛ivertis lyginamas su kritine F reikšme (F ∼ df1 (m), df2 (n − m − 1)). 24 / 24 Ekonometrija I Paskaita 03 Andrius Vainilavičius [email protected] Vilniaus universitetas 2024/2025 1 / 28 Praeitoje paskaitoje ▶ ˛Iverčiu˛ statistika; ▶ Determinacijos koeficientas; ▶ Modelio F statistika; ▶ Dauginė regresija; 2 / 28 Šioje paskaitoje ▶ Regresijos modelis matricu˛ algebros pavidalu; ▶ Standartinės hipotezės dauginiame regresijos modelyje; ▶ Determinacijos koeficientai; ▶ F testas grupei kintamu˛ju˛; ▶ Netiesiškumai tiesinėse regresijose; ▶ Koeficientu˛ interpretacijos; 3 / 28 Dauginė regresija yi = β0 + β1 x1i + β2 x2i +... + βm xmi + ui Lygtis galima būtu˛ perrašyti taip: y1 = β0 + β1 x11 + β2 x12 +... + βm x1m + u1 y2 = β0 + β1 x21 + β2 x22 +... + βm x2m + u2... ym = β0 + β1 xm1 + β2 xm2 +... + βm xmm + um 4 / 28 Dauginė regresija matricu˛ forma         y1 1 x11 x12 ··· x1m β0 u1  y2  1 x21 x22 ··· x2m   β1   u2      ..  = ....  × ..  + ..     ...... .  .....  .  .  ym 1 xm1 xm2 · · · xmm βm um Y = X × β + U (1) m×1 m×(m+1) (m+1)×1 m×1 ^ = Y X × β̂ (2) m×1 m×(m+1) (m+1)×1 5 / 28 Kaip rasti β? Porinės regresijos atveju β radome minimizuodami paklaidu˛ kvadratu˛ sumą. Dauginės regresijos atveju ieškosime to paties:         u1 y1 − yˆ1 y1 yˆ1  u2   y2 − yˆ2   y2   yˆ2  U=. =..  = ..  − ..  = Y − Ŷ         ..  .  .  .  um ym − yˆm ym yˆm Paklaidu˛ kvadratu˛ suma: n X SSR = Ûi2 =⇒ SSR = Û T Û i=1 6 / 28 Kaip rasti β? SSR = Û T Û SSR = (Y − Ŷ )T (Y − Ŷ ) SSR = (Y − X β̂)T (Y − X β̂) SSR = (Y T − β̂ T X T )(Y − X β̂) SSR = Y T Y − Y T X β̂ − β̂ T X T Y + β̂ T X T X β̂ Prieš randant β, kurios minimizuoja paklaidu˛ kvadratą, prisiminkime kelias taisykles apie matricu˛ diferenciaciją: Jei A yra mxn matrica, z yra mx1 matrica ir A yra nepriklausoma nuo z, tuomet: ∆B B = A =⇒ =0 ∆z ∆B B = Az =⇒ =A ∆z ∆B B = z T A =⇒ = AT ∆z ∆B B = z T Az =⇒ = 2z T A ∆z 7 / 28 Kaip rasti β? Taigi, siekiant rasti β, su kuriomis paklaidu˛ kvadrato suma yra minimizuojama, reikia rasti SSR išvestinę β atžvilgiu ir prisilyginti ją nuliui: ∆(SSR) ∆(Y T Y − Y T X β̂ − β̂ T X T Y + β̂ T X T X β̂) = =0 ∆β̂ ∆β̂ ∆(Y T Y ) ∆(Y T X β̂) ∆(β̂ T X T Y ) ∆(β̂ T X T X β̂) − − + =0 ∆β̂ ∆β̂ ∆β̂ ∆β̂ 0 − Y T X − (X T Y )T + 2β̂ T X T X = 0 −2Y T X + 2β̂ T X T X = 0 2β̂ T X T X = 2Y T X β̂ T = Y T X (X T X )−1 β̂ = (X T X )−1 X T Y 8 / 28 Dauginė regresija Radę β̂ galime suskaičiuoti estimuotus priklausomo kintamojo ˛iverčius (Ŷ ). Estimuotas βˆk ˛ivertis nurodo numanomą y pokyti˛, pasikeitus vienam vienetui xk , kitiems nepriklausomiems kintamiesiems(xi̸=k ) išliekant pastoviais. Pavyzdys: NT.kaina = 500 + 2*Populiacija + 50*Pragyvenimo.išlaidu˛.indeksas - 20*Nusikalstamumo.indeksas - 350*Atstumas.iki.parduotuvės 9 / 28 Dauginė regresija σ 2 estimuojama panašiai: Û T Û s2 = n−1−k kur k - nepriklausomu˛ kintamu˛ju˛ skaičius. O dispersiju˛-kovariaciju˛ matrica: vcov (β̂) = σ 2 (X T X )−1 10 / 28 Determinacijos koeficientas R 2 yra apskaičiuojamas taip pat, kaip ir porinėje regresijoje: SSE SSR R2 = =1− SST SST = i=1 Ûi2 , SSE = ni=1 (Ŷi − Ȳ )2 , o Pn P kur SSRP SST = ni=1 (Yi − Ȳ )2. R 2 interpretacija taip pat išlieka tokia pati. 11 / 28 Determinacijos koeficientas Deja, dauginėje regresijoje yra problema su R 2 ˛iverčiu - ji˛ galima ’išpūsti’ pridedant nepriklausomu˛ kintamu˛ju˛, net jei šie ir neturi pagrindo būti ˛itraukti ˛i regresiją. Tarkime, jog turime žemiau pateiktą modeli˛: ▶ Yi - mokiniu˛ pasiekimai; ▶ X1i - klasiu˛ dydis; ▶ X2i - % mokiniu˛, kuriems anglu˛ kalba nėra gimtoji; ▶ X3i - išlaidos vienam mokiniui; ▶ X4i - mokytoju˛ amžiaus suma; ▶ X5i - vidutinis mokytojo svoris mokykloje; Toks modelis visada turės ne žemesni˛, o, tikėtina, aukštesni˛ R 2 , nei turintis tik pirmuosius X1i , X2i ir X3i nepriklausomus kintamuosius. 12 / 28 Determinacijos koeficientas Kodėl taip yra? Pridėjus papildomą nepriklausomą kintamąji˛, net jei jis ir reikšmingai neprisideda prie priklausomo kintamojo variacijos paaiškinimo, tikėtina, jog gebės paaiškinti bent nedidelę jos dali˛. Dėl to Ŷ bus arčiau tikrosios Yi vertės ir R 2 bus didesnis. Dėl to atsiranda pagunda ˛itraukti nereikalingus kintamuosius, taip siekiant pakelti savo modelio R 2 ˛iverti˛. 13 / 28 Pakoreguotas (adjusted) determinacijos koeficientas Tokia ydinga praktika iššaukė koreguoto R̄ 2 (Ra2 , Radj 2 ) išvedimą. Koreguotas determinacijos koeficientas taip pat parodo, kaip gerai priklausomo kintamojo variacija yra paaiškinama variacija nepriklausomuose kintamuose, tačiau koreguoja rezultatą pagal ˛i modeli˛ ˛itrauktu˛ nepriklausomu˛ kintamu˛ju˛ skaičiu˛. Kaip apskaičiuojamas Ra2 ? (1 − R 2 )(n − 1) Ra2 = 1 − n−p−1 kur p - nepriklausomu˛ kintamu˛ju˛ kiekis. Koreguotas determinacijos koeficientas didėja tik tada, kuomet papildomas nepriklausomas kintamasis pagerina modeli˛ labiau, nei jis pagerėtu˛ atsitiktinai. Jei Jūsu˛ modelyje skirtumas tarp R 2 ir Ra2 yra didelis, tai gali indikuoti, jog modelyje yra per daug nepriklausomu˛ kintamu˛ju˛. 14 / 28 Pakoreguotas (adjusted) determinacijos koeficientas 15 / 28 Pakoreguotas (adjusted) determinacijos koeficientas 16 / 28 F testas grupei nepriklausomu˛ kintamu˛ju˛ Dažniausiai konstruojant modeli˛ pirmiausia sudedame visus dominančius nepriklausomus kintamuosius. Tuomet naturaliai gali kilti klausimas ar grupė nepriklausomu˛ kintamu˛ju˛ duoda naudingos informacijos apie y? Tą galime patikrinti naudodamiesi F testu. F testas skaičiuojamas panašiai, kaip ir tikrinant ˛iprastą nulinę hipotezę, tik šiuo atveju yra tikrinami tik dominančios grupės β koeficientus: H0 : βj = βj+1 =... = βj+k = 0 H1 : bent viena iš aukščiau paminėtu˛ β ̸= 0 17 / 28 F testas grupei nepriklausomu˛ kintamu˛ju˛ Neapribotas modelis (UR): y = β0 + β1 ∗ x1 + β2 ∗ x2 +... + βm ∗ xm Apribotas modelis (R): y = β0 + β1 ∗ x1 + β2 ∗ x2 +... + βm−k ∗ xm−k Tuomet F testo ˛iverti˛ rasime: (SSRR − SSRUR )/(m − k) F = SSRUR /(n − m − 1) F ˛iverti˛ lyginame su kritine F reikšme (F ∼ df1 (m − k), df2 (n − m − 1)). 18 / 28 Netiesiškumas regresijoje Ką daryti jei numanome ar žinome, jog sąryšis tarp priklausomo ir nepriklausomo kintamu˛ju˛ nėra visiškai tiesinis? Pvz.: gyvenimo kokybė ir darbo užmokestis ar darbo užmokestis ir išsilavinimas Kitaip tariant nepriklausomo kintamojo "ribinis efektas" nėra konstanta. Du dažniausiai pasitaikantys netiesiškumai tiesinėje regresijoje yra polinominė regresija bei logaritminė forma. 19 / 28 Polinominė regresija Seminaro metu susidursime, kuomet regresijose naudojome nepriklausomą kintamąji˛ pakeltą kažkokiu laipsniu. Kadangi laipsniu keliame nepriklausomą kintamąji˛, o ne koeficientą prie jo, modelis išlieka tiesinis, tačiau leidžia savyje talpinti netiesini˛ sąryši˛ tarp minėtojo nepriklausomo kintamojo ir priklausomo kintamojo. Regresijos modelis, kuriame yra ˛itrauktas kintamasis pakeltas n-uoju laipsniu (kur n ̸= 1) dar yra vadinamas polinomine regresija. Kaip žinoti, jog ˛i modeli˛ reikėtu˛ ˛itraukti nepriklausomą kintamąji˛ pakeltą tam tikru laipsniu? 20 / 28 Polinominė regresija Pirmiausia - teorinis sąryšis tarp kintamu˛ju˛. Jei numanote, jog tarp priklausomo ir nepriklausomo kintamu˛ju˛ egzistuoja netiesiškumas, tuomet ˛itraukite atitinkamą polinomini˛ nari˛. Antra - grafinė inspekcija. Prieš sukonstruojant regresiją, visuomet patartina pažiūrėti grafiką (priklausomas kintamasis - y ašyje, nepriklausomas - x ašyje). Netiesini˛ sąryši˛ gali atskleisti toks grafikas. Trečia - grafinė paklaidu˛ analizė. Sukonstravus regresiją, patartina nusibrėžti paklaidu˛ grafiką (regresijos paklaidos - y ašyje, nepriklausomas kintamasis/estimuotas priklausomas kintamasis [ŷ , fitted values] - x ašyje). Jei tokiam grafike ties viduriu yra nemažai teigiamu˛ paklaidu˛, o pakraščiuose - neigiamu˛ (ar atvirkščiai), tai taip pat gali indikuoti netiesišką sąryši˛ tarp priklausomo ir nepriklausomo kintamu˛ju˛. Vienas iš formaliu˛ testu˛, galinčiu˛ padėti atpažinti netiesiškumą - paklaidu˛ normalumo testas (Jarque-Bera). 21 / 28 Polinominė regresija 22 / 28 Polinominė regresija 23 / 28 Logaritmuoti kintamieji Kitas dažnai pasitaikantis netiesiškumas regresijoje yra kintamieji ˛itraukti logaritmuota forma. Toks kintamu˛ju˛ ˛itraukimas ˛i regresiją yra populiarus dėl keliu˛ priežasčiu˛: 1. Multiplikatyvios formos sąryši˛ leidžia konvertuoti ˛i adityvinės formos; 2. Leidžia "ištiesinti" eksponentinius kintamuosius (dažniausiai taikoma naudojant laiko eilutes) bei praskleisti stebėjimus (dažniausiai skerspjūvio duomenims); 3. Leidžia interpretuoti gautus rezultatus kaip elastingumą; 24 / 28 Logaritmuoti kintamieji Kaip interpretuoti rezultatus kuomet turime logaritmuotus kintamuosius? Tik priklausomas kintamasis yra logaritmuotas. Tuomet eksponuojame gauti koeficiento ˛iverti˛ ir atimame vienetą. Gautas skaičius atspindi priklausomo kintamojo procentini˛ pokyti˛ pasikeitus nepriklausomam kintamajam vienu vienetu. Pvz.: β1 = 0.2. exp 0.2 − 1 = 0.2214. Nepriklausomam kintamajam išaugus vienu vienetu, priklausomas kintamasis išaugs 22.12%. Tik nepriklausomas kintamasis yra logaritmuotas. ˛Iprastai koeficiento ˛iverti˛ dalintume iš 100 ir tuomet gautas rezultatas nurodys kiek vienetu˛ pasikeis priklausomas kintamasis, nepriklausomam kintamajam pasikeitus 1%. Pvz.: β1 = 2, tuomet nepriklausomam kintamajam pasikeitus 1%, priklausomas kintamasis pasikeis 0.02 vieneto. Didesniam ribiniam poveikiui (tarkime, x) dauginame koeficientą iš ln(1 + x), t.y. β1 ∗ ln(1.x). 25 / 28 Logaritmuoti kintamieji Ir priklausomas, ir nepriklausomas kintamieji yra logaritmuoti. Koeficientu˛ prie šiu˛ kintamu˛ju˛ interpretacija atitinka elastingumą, t.y. 1% nepriklausomo kintamojo pokytis lemia β1 % priklausomo kintamojo pokyti˛. Didesniam ribiniam poveikiui (tarkime, z): ((1 + z)β1 − 1) ∗ 100. 26 / 28 Interpretacijos pavyzdžiai π = 0.5 + 0.015W (3) kur π - logaritmuotas vartotoju˛ kainu˛ indeksas Lietuvoje, o W - vidutinis neto darbo užmokestis eurais. Kaip pasikeis vartotoju˛ kainu˛ indeksas vidutiniam darbo užmokesčiui išaugus 100 euru˛? U = 25 − 275Y (4) kur U - nedarbo lygis procentiniais punktais, Y - logaritmuotas BVP. Kaip pasikeis nedarbo lygis BVP nukritus 1%? O jei nukristu˛ 5%? 27 / 28 Interpretacijos pavyzdžiai Q = 2.51 − 2P (5) kur Q - logaritmuotas parduodamas sūreliu˛ kiekis, P - logaritmuota parduodamu˛ sūreliu˛ kaina. Kaip pasikeis parduodamas sūreliu˛ kiekis, ju˛ kainai išaugus 1%? Y = 4.82 + 0.02Uzt + 0.7Exp (6) kur Y - logaritmuotas Lietuvos BVP, Uzt - užimtu˛ asmenu˛ skaičius matuojamas 10,000, Exp - logaritmuotos Lietuvos eksporto apimtys. Kaip pasikeis Lietuvos BVP užimtu˛ asmenu˛ kiekiui nukritus per 10,000? Kaip pasikeis išaugus eksporto apimtims per 1%? 28 / 28 Ekonometrija I Paskaita 04 Andrius Vainilavičius [email protected] Vilniaus universitetas 2024/2025 1 / 27 Praeitoje paskaitoje ▶ Regresijos modelis matricu˛ algebros pavidalu; ▶ Standartinės hipotezės dauginiame regresijos modelyje; ▶ Determinacijos koeficientai; ▶ F testas grupei kintamu˛ju˛; ▶ Netiesiškumai tiesinėse regresijose; 2 / 27 Šioje paskaitoje ▶ Koeficientu˛ interpretacijos; ▶ Jarque-Bera normalumo testas; ▶ ˛Iverčiu˛ paslinktumas; ▶ Praleisto kintamojo paslinktumas; ▶ Imties šališkumas; 3 / 27 Logaritmuoti kintamieji Kaip interpretuoti rezultatus kuomet turime logaritmuotus kintamuosius? Tik priklausomas kintamasis yra logaritmuotas. Tuomet eksponuojame gauti koeficiento ˛iverti˛ ir atimame vienetą. Gautas skaičius atspindi priklausomo kintamojo procentini˛ pokyti˛ pasikeitus nepriklausomam kintamajam vienu vienetu. Pvz.: β1 = 0.2. exp 0.2 − 1 = 0.2214. Nepriklausomam kintamajam išaugus vienu vienetu, priklausomas kintamasis išaugs 22.12%. Tik nepriklausomas kintamasis yra logaritmuotas. ˛Iprastai koeficiento ˛iverti˛ dalintume iš 100 ir tuomet gautas rezultatas nurodys kiek vienetu˛ pasikeis priklausomas kintamasis, nepriklausomam kintamajam pasikeitus 1%. Pvz.: β1 = 2, tuomet nepriklausomam kintamajam pasikeitus 1%, priklausomas kintamasis pasikeis 0.02 vieneto. Didesniam ribiniam poveikiui (tarkime, x) dauginame koeficientą iš ln(1 + x), t.y. β1 ∗ ln(1.x). 4 / 27 Logaritmuoti kintamieji Ir priklausomas, ir nepriklausomas kintamieji yra logaritmuoti. Koeficientu˛ prie šiu˛ kintamu˛ju˛ interpretacija atitinka elastingumą, t.y. 1% nepriklausomo kintamojo pokytis lemia β1 % priklausomo kintamojo pokyti˛. Didesniam ribiniam poveikiui (tarkime, z): ((1 + z)β1 − 1) ∗ 100. 5 / 27 Interpretacijos pavyzdžiai π = 0.5 + 0.015W (1) kur π - logaritmuotas vartotoju˛ kainu˛ indeksas Lietuvoje, o W - vidutinis neto darbo užmokestis eurais. Kaip pasikeis vartotoju˛ kainu˛ indeksas vidutiniam darbo užmokesčiui išaugus 100 euru˛? U = 25 − 275Y (2) kur U - nedarbo lygis procentiniais punktais, Y - logaritmuotas BVP. Kaip pasikeis nedarbo lygis BVP nukritus 1%? O jei nukristu˛ 5%? 6 / 27 Interpretacijos pavyzdžiai Q = 2.51 − 2P (3) kur Q - logaritmuotas parduodamas sūreliu˛ kiekis, P - logaritmuota parduodamu˛ sūreliu˛ kaina. Kaip pasikeis parduodamas sūreliu˛ kiekis, ju˛ kainai išaugus 1%? Y = 4.82 + 0.02Uzt + 0.7Exp (4) kur Y - logaritmuotas Lietuvos BVP, Uzt - užimtu˛ asmenu˛ skaičius matuojamas 10,000, Exp - logaritmuotos Lietuvos eksporto apimtys. Kaip pasikeis Lietuvos BVP užimtu˛ asmenu˛ kiekiui nukritus per 10,000? Kaip pasikeis išaugus eksporto apimtims per 1%? 7 / 27 Jarque-Bera normalumo testas Tam, kad β̂ ˛iverčiai būtu˛ informatyvūs apie populiacijos β koeficientus paklaidos turėtu˛ atitikti normalu˛ji˛ skirstini˛. Kaip patikrinti ar taip yra? Tam galima panaudoti Jarque-Bera testą: n 2 1 JB = (S + (K − 3)2 ) ∼ χ22 6 4 kur n - stebėjimu˛ skaičius, S - asimetrija (angl. skewness), o K - ekscesas (angl. kurtosis). JB testo nulinė hipotezė - asimetrija ir ekscesas atitinka normalu˛ji˛ skirstini˛. 8 / 27 Momentai Momentai yra statistiniai parametrai matuojantys duomenu˛ skirstini˛. ▶ E [x] = x̄ - vidurkis; (x−x̄)2 P ▶ E [x 2 ] = n−1 - dispersija; (x−x̄)3 P ▶ E [x 3 ] = - asimetrijos koeficientas (dar (n−1)(Var (x))3/2 vadinamas sklaida); (x−x̄)4 P ▶ E [x 4 ] = (n−1)(Var (x))2 - ekscesas; Asimetrijos koeficientas – statistinė duomenu˛ aibės charakteristika, charakterizuojanti skirstinio grafinės funkcijos asimetriškumą. Jei koeficientas yra neigiamas, tuomet kairė distribucijos "uodega" bus ilgesnė (angl. skewed to the left) ar storesnė. Jei koeficientas - teigiamas, tuomet - dešinė (angl. skewed to the right). 9 / 27 Distribucijos simetrija 10 / 27 Ekscesas Ekscesas – statistinė duomenu˛ aibės charakteristika, lyginanti skirstinio dažniu˛ kreivės viršūnės aštrumo laipsni˛ su normaliojo skirstinio kreivės viršūnės aštrumu. Kitaip tariant, histogramos lėkštumo matas. Normaliojo skirstinio lėkštumo matas yra = 3. Jei gautas koeficientas yra > 3, tuomet histograma turi aštresnę viršūnę, nei normalusis skirstinys. O jei < 3, tuomet mažiau aštrią. 11 / 27 Ekscesas 12 / 27 Jarque-Bera normalumo testas Jei JB testo ˛ivertis didesnis nei kritinė χ2 vertė, tuomet atmesime nulinę hipotezę. Tai, jog paklaidos neatitinka normalaus skirstinio, gali indikuoti, jog kintamieji neatitinka normalaus skirstinio (tai nėra MKM reikalavimas, todėl nėra ko nerimauti). Tai taip pat gali indikuoti, jog egzistuoja netiesiškumas tarp priklausomo ir nepriklausomu˛ kintamu˛ju˛. Prisiminkite, jog Gauss-Markov teoremos sąlygos1 nereikalauja, jog paklaidos atitiktu˛ normalu˛ji˛ skirstini˛, todėl MKM vis tiek išlieka BLUE (Best Linear Unbiased Estimator). 1 Tiesiškumas Y ir β atžvilgiu; Atsitiktinė imtis; E (u|x) = 0; Nėra tobulo kolinearumo; Paklaidos yra homoskedastiškos [TS: paklaidos neautokoreliuoja]. 13 / 27 ˛Iverčiu˛ paslinktumas ˛Iverčiu˛ paslinktumas (angl. bias of an estimator) reiškia skirtumą tarp populiacijos koeficiento ir tikėtinos (angl. expected value) estimuoto ˛iverčio vertės. Jei populiacijos vidurki ˛ apibrėšime kaip E (xi ) = µ, tuomet imties 1 Pn vidurki˛ rasime n i=1 xi = x̄. Jei skaičiuosime imčiu˛ vidurkius naujoms imtims, rasime jas šiek tiek kitokias, t.y. x̄1 ̸= x̄2 , tačiau pernelyg nenutolusias viena nuo kitos. Kartojant tą pakankamai kartu˛, gausime tam tikrą x skirstini˛. Jei tikėtina x imties vidurkio vertė bus lygi µ, tuomet teigsime, jog x̄ yra nepaslinkta populiacijos vidurkio estimacija, t.y. E (x̄) P = µ. E (x̄) = E ( n1 ni=1 xi ) = n1 ni=1 E (xi ) = n1 ni=1 µ = n1 nµ P P 14 / 27 ˛Iverčiu˛ paslinktumas Panašiu principu galime parodyti, jog imties dispersija s 2 yra populiacijos dispersijosPVar (xi ) = σ 2 nepaslinkta estimacija. n 2 i=1 (xi −x̄) Jei s 2 = n−1 , tuomet: Pn n − x̄)2 i=1 (xi 1 X E (s 2 ) = E ( )= E ( (xi2 − 2xi x̄ + x̄ 2 )) n−1 n−1 i=1 n n n 1 X X 1 X = E( xi2 − 2x̄ xi + nx̄ 2 ) = E( xi2 − 2nx̄ 2 + nx̄ 2 ) n−1 n−1 i=1 i=1 i=1 n n 1 X 1 X = E( xi2 − nx̄ 2 ) = [ E (xi2 ) − nE (x̄ 2 )] n−1 n−1 i=1 i=1 Kadangi Var (xi ) = E (xi2 ) − (E (xi )) =⇒ σ = E (xi2 ) − µ2 , o 2 2 2 Var (x̄) = E (x̄ ) − (E (x̄) ) =⇒ σn = E (x̄ 2 ) − µ2 , tuomet: 2 2 n 1 X 2 σ2 1 [ (σ − µ2 ) − n( − µ2 )] = (nσ 2 − nµ2 − σ 2 + nµ2 ) n − 1 i=1 n n−1 1 [σ 2 (n − 1)] = σ 2 n−1 15 / 27 ˛Iverčiu˛ paslinktumas Regresinio modelio atveju, tai reikš jog estimuoti β̂i ˛iverčiai neatitinka populiacijos koeficientu˛ βi. Formaliai: E [β̂i ] ̸= βi Natūraliai gali kilti klausimas - kodėl taip ˛ivyksta? Juk dar pirmoje paskaitoje kalbėdami apie Gauss-Markov teoremą teigėme, jog MKM estimuoti ˛iverčiai yra geriausi tiesiniai nešališki/nepaslinkti ˛iverčiai (BLUE). 16 / 27 ˛Iverčiu˛ paslinktumas Taip yra todėl, jog Gauss-Markov teorema galioja tada, kuomet yra tenkinamos MKM prielaidos. Kas nutiktu˛, jei ˛i regresiją nei˛trauktume kintamojo, kuris koreliuoja su vienu iš nepriklausomu˛ kintamu˛ju˛ ir turi ˛itaką priklausomam kintamajam? Tarkime, jog turime procesą, kurio tikrasis sąryšis yra apibūdinamas kaip: yi = β0 + β1 ai + β2 bi + β3 ci + ui Sąryšis tarp b ir c yra apibūdinamas kaip: ci = α0 + α1 bi + ϵi Jei estimuodami regresiją praleisime c kintamąji˛, tuomet (i˛sistatydami vieną lygti˛ ˛i kitą) gausime: yi = (β0 + β3 α0 ) + β1 ai + (β2 + α1 β3 )bi + (ui + β3 ϵi ) 17 / 27 Praleisto kintamojo paslinktumas yi = (β0 + β3 α0 ) + β1 ai + (β2 + α1 β3 )bi + (ui + β3 ϵi ) Taigi, jei regresijoje nepriklausomi kintamieji bus tik a ir b, tuomet estimuotas koeficiento ˛ivertis prie b yra ne tiesioginė b ˛itaka y (kuri yra β2 ), o tiesioginės ir netiesioginės ˛itakos suma (β2 + α1 β3 ). Praleisdami (nei˛traukdami ˛i regresiją) nepriklausomo kintamojo c estimavome pilną y išvestinę kintamajam b, o ne dalinę. Šios nėra lygios, jei β3 ar α1 nėra lygios nuliui. Todėl mūsu˛ gauti koeficientu˛ ˛iverčiai yra šališki/paslinkti. ˛Iverčio poslinkis kylantis iš tokio ˛i regresiją nei˛traukto kintamojo yra vadinamas praleisto ˛iverčio poslinkiu. 18 / 27 ˛Iverčiu˛ paslinktumas 19 / 27 Praleisto kintamojo paslinktumas Tam, jog estimuotas koeficiento ˛ivertis būtu˛ paslinktas, praleistas kintamasis turi atitikti dvi sąlygas: 1. turi koreliuoti su bent vienu iš nepriklausomu˛ kintamu˛ju˛, t.y. Cov(Xi , Zi ) ̸= 0; 2. turi koreliuoti su priklausomu kintamuoju Y; Jei šios sąlygos yra tenkinamos, tuomet nėra tenkinama MKM egzogeniškumo prielaida - E(Xi |ui )=0 ir ˛ivertis yra paslinktas. Tarkime, turime tikrąji˛ populiacijos sąryši˛: wagei = β0 + β1 educi + β2 abilityi + ϵi O mes estimuojame regresiją, praleisdami kintamąji˛ ’ability’. wagei = β0 + β1 educi + vi Tuomet estimuotas β̂1 bus: Cov (educ, v ) β̂1 = β1 + ̸= β1 Var (educ) 20 / 27 Kaip spręsti praleisto kintamojo paslinktumo problemą ▶ Kuomet ˛imanoma, ˛itraukti praleistą kintamąji˛; ▶ Kuomet praleisto kintamojo nei˛manoma ˛itraukti (pvz.: ability), galima naudoti pakaitini˛ kintamąji˛ (angl. proxy variable) (pvz.: IQ); ▶ Naudoti alternatyvu˛ koeficientu˛ ˛ivertinimo metodą. Dažniausiai naudojamas metodas - instrumentiniu˛ kintamu˛ju˛ (angl. instrumental variable) modelis; 21 / 27 Kitos ˛iverčiu˛ savybės Egzistuoja dar kelios ˛iverčiu˛ savybės. Suderintas (angl. consistent) ˛ivertis yra toks, kurio vertė artėja prie tikrosios parametro reikšmės, didėjant stebėjimu˛ skaičiui. Formaliai tą galima užrašyti kaip: lim P(|β̂ − β| > ϵ) = 0, ∀ϵ > 0 n→∞ ˛Ivertis laikomas efektyviu (angl. efficient), kuomet jis turi žemiausią dispersiją, nepaslinktu˛ ˛iverčiu˛ klasėje. 22 / 27 Imties šališkumas Imties šališkumas (angl. sampling bias2 ) apibūdina situaciją, kuomet duomenu˛ imtis negali būti laikoma atsitiktine iš populiacijos, t.y. imties stebėjimu˛ charakteristika neatitinka populiacijos charakteristikos. Praktikoje, beveik nei˛manoma užtikrinti, jog imties charakteristika atitiktu˛ populiaciją tobulai, todėl nežymūs imties nukrypimai gali būti laikomi gera atsitiktinės imties aproksimacija. 2 Dažnai vartojama kaip sinonimas atrankos šališkumui (angl. selection bias) 23 / 27 Imties šališkumas Tarkime, jog norime atlikti VU studentu˛ motyvacijos savarankiškam mokslui skiriamo laiko tyrimą. Kaip užtikrinti, kad surinkti duomenys, t.y. imtis, atitiktu˛ populiaciją? Pirmiausia, reikėtu˛ užtikrinti, jog apklausiami studentai būtu˛ atrinkti atsitiktiniu būdu. Tačiau net ir tokiu būdu atrinkti studentai nebūtinai atitinka populiaciją (pvz.: iš 50 apklaustu˛ studentu˛ 30 studijuoja magistro studijose ir 0 - doktorantūroje). Kaip spręsti tokią problemą? ▶ Užtikrinti, jog imtis yra pakankamai didelė; ▶ Sluoksniuoti atranką, t.y. ˛isitikinti, kad atsitiktiniu būdu būtu˛ atrinktas tam tikras kiekis asmenu˛ iš kiekvienos grupės, kur kiekis parenkamas taip, jog atspindėtu˛ populiaciją; ▶ Klasterizuoti atranką, t.y. egzistuojant klasteriams, kurie atspindėtu˛ populiaciją, atrinkti dali˛ klasteriu˛ ir užfiksuoti individualius stebėjimus iš ju˛; 24 / 27 Imties šališkumas Dažniausiai pasitaikantys imties šališkumo tipai kylantys dėl neatsitiktinės atrankos ˛i imti˛: ▶ Savarankiškos atrankos šališkumas [angl. Self-selection bias] (pvz.: savanoriškos apklausos); ▶ Pašalinimo šališkumas [angl. Exclusion bias] (pvz.: bedarbiu˛ nei˛traukimas estimuojant aukšto mokslo sąryši˛ su darbo užmokesčiu); ▶ Šališkumas dėl specifinės lokacijos (pvz.: apklausos gatvėje); ▶ Išgyvenimo šališkumas [angl. Survivorship bias] (pvz.: Urvinio žmogaus efektas); ▶ Publikavimo šališkumas [angl. Publication/reporting bias] (pvz.: vartotoju˛ atsiliepimai); 25 / 27 Imties šališkumas Pavyzdys: Siekiate ištirti politiniu˛ pažiūru˛ determinaciją pagal žiniasklaidos vartojimo ˛ipročius ir sukuriate apklausos anketą, kurią pasidalinate su savo draugais soc. tinkluose. Taip iš karto yra užprogramuojamos kelios problemos: 1. Jūsu˛ draugai nėra gera populiacijos reprezentacija. Paprastai žmonės tampa draugais su kitais žmonėmis kurie turi panašumu˛ (socioekonominė padėtis, pomėgiai, amžius, etc.); 2. Apklausos užpildymas yra savanoriškas; Šiuo atveju, MKM gauti regresijos koeficientu˛ ˛iverčiai atspindės Jūsu˛ draugus, tačiau vargu ar atspindės populiaciją. Problema tampa rezultatu˛ generalizavimas populiacijai. 26 / 27 Imties šališkumas Jei stebėjimu˛ grupė, kuri yra nepakankamai atstovaujama imtyje, nesiskiria nuo kitu˛ grupiu˛ savo priklausomo kintamojo dinamika, tuomet imtis gali būti laikoma gera populiacijos aproksimacija. Kaip minėta prieš tai, retai kada imtis tobulai atspindi populiaciją, todėl svarbiausia yra užtikrinti, jog nebūtu˛ grubiu˛ imties šališkumo pažeidimu˛ ir rezultatai gali būti generalizuojami. 27 / 27 Ekonometrija I Paskaita 05 Andrius Vainilavičius [email protected] Vilniaus universitetas 2024/2025 1 / 23 Praeitoje paskaitoje ▶ Koeficientu˛ interpretacijos; ▶ Jarque-Bera normalumo testas; ▶ ˛Iverčiu˛ paslinktumas; ▶ Praleisto kintamojo paslinktumas; 2 / 23 Šioje paskaitoje ▶ Fiktyvūs kintamieji; ▶ Imties šališkumas; ▶ Kokybiniai kintamieji regresijoje; 3 / 23 Fiktyvūs kintamieji Dažnai regresiju˛ modeliuose siekiame ˛ivertinti skirtumus tarp dominančiu˛ kategoriniu˛ kintamu˛ju˛ (pvz.: skirtumus tarp vyru˛ ir moteru˛/turinčiu˛ aukštąji˛ išsilavinimą ir neturinčiu˛/valstybiu˛ turinčiu˛ priėjimą prie jūros ir ne). Siekiant tą atlikti, reikėtu˛ atskirti stebėjimus ir atlikti regresijas naudojant skirtingus duomenu˛ rinkinius. Sutikite, tai nėra patogu, todėl yra alternatyvus būdas - naudoti fiktyvius kintamuosius. Fiktyvūs kintamieji (angl. dummy variables) yra tokie, kurie turi vertę 0 arba 1 ir indikuoja priklausymą kažkokiai kategorijai, kuri numanoma, jog turi poveiki˛ priklausomam kintamajam. Tokius fiktyvius kintamuosius galime susikurti su sąlyga, jog priklausymas fiktyviam kintamajam yra dichotomiškas (arba priklauso = 1, arba ne = 0). 4 / 23 Fiktyvūs kintamieji regresijoje Paprasčiausias modelis su tokiu kintamuoju atrodytu˛ taip: Yi = β0 + β1 Di + ϵi kur Yi yra priklausomas kintamasis, Di - fiktyvus kintamasis. Tarkime, jog turime Vilniaus rajono duomenis ir siekiame ˛ivertinti mėn. pajamas žmoniu˛, kurie gyvena Vilniaus mieste (Di = 1) ir žmoniu˛, kurie gyvena už miesto ribu˛ (Di = 0). Ką tuomet parodys tokia regresija? β0 indikuos vid. mėn. pajamas asmens gyvenančio už miesto ribu˛, o β1 nurodys skirtumą tarp užmiestyje ir mieste gyvenančiu˛ asmenu˛. Jei β1 yra statistiškai reikšmingas (t testas, p-i˛vertis), tuomet galime teigti, jog tarp mieste ir užmiestyje gyvenančiu˛ asmenu˛ vid. mėn. pajamu˛ egzistuoja skirtumas. 5 / 23 Fiktyvūs kintamieji regresijoje. Poslinkio kintamasis Tarkime, jog turime ˛iprastą dauginę regresiją: Yi = β0 + β1 X1i + β2 X2i +... + ϵi pvz. modelis iš 3 seminaro: l.wage~educ+I(educ^2)+exper+I(exper^2)+tenure+I(tenure^2) Norime ˛ivertinti ar egzistuoja vid. darbo užmokesčio skirtumai tarp vyru˛ ir moteru˛: Yi = β0 + β1 X1i + β2 X2i +... + βm Di + ϵi kur Di = 1, jei asmuo yra moteris. Tarkime, jog βm = −0.05 ir statistiškai reikšmingas. Kaip tuomet interpretuoti rezultatus? Tai nurodo, jog moterys vidutiniškai uždirba 5 proc. mažiau nei vyrai. 6 / 23 Fiktyvūs kintamieji regresijoje. Poslinkio kintamasis Kaip veikia toks fiktyvaus kintamojo ˛ivedimas ˛i regresiją? Tarkime, jog turime visiškai identiškus stebėjimu˛ duomenis, išskyrus lyties fiktyvu˛ji˛ kintamąji˛. Tuomet, βm koeficiento ˛ivertis bus pridėtas prie β0 ˛iverčio tuo atveju, kuomet Di = 1. Tokiu būdu ˛ivedę kintamąji˛, mes leidome vyrams ir moterims turėti skirtingus laisvuosius narius (angl. intercept) β0. Vyrams - β0 , moterims - β0 + βm. Taip ˛i regresiją ˛ivestas fiktyvus kintamasis dar yra vadinamas poslinkio kintamuoju. 7 / 23 Pavyzdys 8 / 23 Fiktyvūs kintamieji regresijoje. Posūkio kintamasis Ką daryti, jei numanome ar norime patikrinti, jog fiktyvaus kintamojo kategorija turi poveiki˛ ne β0 , o vienam iš koeficientu˛ prie nepriklausomo kintamojo? Tarkime, jog norime patikrinti, ar išsilavinimas turi vienodą poveiki˛ vyru˛ ir moteru˛ darbo užmokesčiui. Kaip tuomet reikėtu˛ specifikuoti regresiją, jog toki˛ pokyti˛ užfiksuoti? Yi = β0 + β1 X1i + βm Di X1i + β2 X2i +... + ϵi Yi = β0 + (β1 + βm Di )X1i + β2 X2i +... + ϵi Tada, kuomet Di = 1, išsilavinimo poveikis darbo užmokesčiui bus atspindėtas kaip (β1 + βm ), o tuo atveju, kuomet Di = 0 - β1. Kaip ir praeitu atveju, vertintume βm koeficiento ˛iverčio t-statistiką, siekiant nustatyti ar skirtumas egzistuoja. Tokiu būdu ˛ivestas fiktyvus kintamasis yra vadinamas posūkio kintamuoju. 9 / 23 Fiktyvūs kintamieji Poslinkio ir posūkio kintamuosius galima kombinuoti ir taikyti regresijoje tuo pat metu: Yi = β0 + β1 X1i + βm Di X1i + β2 X2i +... + βj Di + ϵi Yi = (β0 + βj Di ) + (β1 + βm Di )X1i + β2 X2i +... + ϵi 10 / 23 Pavyzdys 11 / 23 Fiktyvūs kintamieji Fiktyviu˛ kintamu˛ju˛ ˛i regresijos modeli˛ ˛ivesti galima ir daugiau. Kaip jau pastebėjote, jei norime užfiksuoti dichotomišką kategoriją užtenka vieno fiktyvaus kintamojo. Ką daryti jei turime daugiau nei dvi kategorijas - pvz.: kintamąji˛ indikuojanti˛ išsilavinimo lygi˛ - pagrindinis/vidurinis/aukštesnysis/aukštasis? Tokiu atveju reikėtu˛ sukurti k-1 kieki˛ fiktyviu˛ kintamu˛ju˛, kur k - kategoriju˛ skaičius. Sukurti fiktyvūs kintamieji turėtu˛ būti dichotomiški ir atspindėti klausimą ’yra [kategorija]?’. Kuomet atsakymas yra ’taip’, tuomet turėtu˛ ˛igyti vertę 1, kitais atvejais - 0. Pavyzdžio atveju - D1i turėtu˛ ˛igyti vertes 1, kuomet asmuo stebėjimuose turi vidurini˛ išsilavinimą, 0 - jei jo išsilavinimas atitinka kitoki˛, D2i - vertes 1, kuomet aukštesnysis ir t.t. 12 / 23 Pavyzdys Praeitoje paskaitoje kalbant apie kokybinius kintamuosius: "Jei turimi nepriklausomi kintamieji nėra ordinalūs, tuomet ˛i regresiją juos reikėtu˛ ˛itraukti pasivertus fiktyviais kintamaisiais." Tarkime, jog turime kokybini˛ kintamąji˛ "Apskritis", kuris gali ˛igauti vieną iš žemiau esančiu˛ verčiu˛: 1. Alytaus apskritis; 2. Kauno apskritis; 3. Klaipėdos apskritis; 4. Marijampolės apskritis; 5. Panevėžio apskritis; 6. Šiauliu˛ apskritis; 7. Tauragės apskritis; 8. Telšiu˛ apskritis; 9. Utenos apskritis; 10. Vilniaus apskritis; Akivaizdu, jog šis kintamasis nėra ordinalus. Kaip ji˛ tuomet ˛itraukti ˛i regresiją? Kursime 9 fiktyvius kintamuosius, kurie kiekvienas žymėtu˛ vieną iš apskričiu˛. 13 / 23 Fiktyvūs kintamieji Kas nutiks, jei ˛itrauksime visas kategorijas kaip fiktyvius kintamuosius(o ne k-1)? Koeficientu˛ ˛iverčiu˛ nebus ˛imanoma rasti dėl tobulo multikolinearumo1 (angl. dummy variable trap), nebent neturėsime β0 (praktikoje - nurodysime statistinei programai β0 = 0). Fiktyvūs kintamieji taip pat padeda išspręsti sezoniškumo problemą, kuomet dirbama su laiko eilučiu˛ duomenimis. Tarkime, jog turime ketvirtinius duomenis ir matome, jog egzistuoja sezoniškumas (ar norime patikrinti). Tuomet galime susikurti tris fiktyvius kintamuosius, reprezentuojančius skirtingus ketvirčius ir užfiksuoti, ar egzistuoja, bei pašalinti sezoniškumą. 1 Plačiau apie tai ateinančioje paskaitoje 14 / 23 Fiktyvūs kintamieji Taip pat fiktyvūs kintamieji yra dažnai naudojami siekiant indikuoti tam tikro svarbaus ˛ivykio periodui. Pvz.: modelyje, norint indikuoti recesiją, galima pridėti fiktyvu˛ kintamąji˛, turinti˛ vertes 1 laikotarpiais, kuomet buvo recesija. Panašiu principu galima būtu˛ išmatuoti koeficientu˛ skirtumus periodais prieš ir po kažkokio svarbaus ˛ivykio. Pvz.: Brexit poveiki˛ JK ekonominiams procesams. Fiktyvūs kintamieji taip pat gali būti ir priklausomi kintamieji. Modeliai, kuriuose priklausomas kintamasis yra fiktyvus, yra priskiriami kokybiniams modeliams ir nors MKM galima estimuoti toki˛ modeli˛, geresnis pasirinkimas yra maksimalaus tikėtinumo metodą (MTM, angl. maximum likelihood method) naudojantys probit ar logit modeliai. 15 / 23 Imties šališkumas Imties šališkumas (angl. sampling bias2 ) apibūdina situaciją, kuomet duomenu˛ imtis negali būti laikoma atsitiktine iš populiacijos, t.y. imties stebėjimu˛ charakteristika neatitinka populiacijos charakteristikos. Praktikoje, beveik nei˛manoma užtikrinti, jog imties charakteristika atitiktu˛ populiaciją tobulai, todėl nežymūs imties nukrypimai gali būti laikomi gera atsitiktinės imties aproksimacija. 2 Dažnai vartojama kaip sinonimas atrankos šališkumui (angl. selection bias) 16 / 23 Imties šališkumas Tarkime, jog norime atlikti VU studentu˛ motyvacijos savarankiškam mokslui skiriamo laiko tyrimą. Kaip užtikrinti, kad surinkti duomenys, t.y. imtis, atitiktu˛ populiaciją? Pirmiausia, reikėtu˛ užtikrinti, jog apklausiami studentai būtu˛ atrinkti atsitiktiniu būdu. Tačiau net ir tokiu būdu atrinkti studentai nebūtinai atitinka populiaciją (pvz.: iš 50 apklaustu˛ studentu˛ 30 studijuoja magistro studijose ir 0 - doktorantūroje). Kaip spręsti tokią problemą? ▶ Užtikrinti, jog imtis yra pakankamai didelė; ▶ Sluoksniuoti atranką, t.y. ˛isitikinti, kad atsitiktiniu būdu būtu˛ atrinktas tam tikras kiekis asmenu˛ iš kiekvienos grupės, kur kiekis parenkamas taip, jog atspindėtu˛ populiaciją; ▶ Klasterizuoti atranką, t.y. egzistuojant klasteriams, kurie atspindėtu˛ populiaciją, atrinkti dali˛ klasteriu˛ ir užfiksuoti individualius stebėjimus iš ju˛; 17 / 23 Imties šališkumas Dažniausiai pasitaikantys imties šališkumo tipai kylantys dėl neatsitiktinės atrankos ˛i imti˛: ▶ Savarankiškos atrankos šališkumas [angl. Self-selection bias] (pvz.: savanoriškos apklausos); ▶ Pašalinimo šališkumas [angl. Exclusion bias] (pvz.: bedarbiu˛ nei˛traukimas estimuojant aukšto mokslo sąryši˛ su darbo užmokesčiu); ▶ Šališkumas dėl specifinės lokacijos (pvz.: apklausos gatvėje); ▶ Išgyvenimo šališkumas [angl. Survivorship bias] (pvz.: Urvinio žmogaus efektas); ▶ Publikavimo šališkumas [angl. Publication/reporting bias] (pvz.: vartotoju˛ atsiliepimai); 18 / 23 Imties šališkumas Pavyzdys: Siekiate ištirti politiniu˛ pažiūru˛ determinaciją pagal žiniasklaidos vartojimo ˛ipročius ir sukuriate apklausos anketą, kurią pasidalinate su savo draugais soc. tinkluose. Taip iš karto yra užprogramuojamos kelios problemos: 1. Jūsu˛ draugai nėra gera populiacijos reprezentacija. Paprastai žmonės tampa draugais su kitais žmonėmis kurie turi panašumu˛ (socioekonominė padėtis, pomėgiai, amžius, etc.); 2. Apklausos užpildymas yra savanoriškas; Šiuo atveju, MKM gauti regresijos koeficientu˛ ˛iverčiai atspindės Jūsu˛ draugus, tačiau vargu ar atspindės populiaciją. Problema tampa rezultatu˛ generalizavimas populiacijai. 19 / 23 Imties šališkumas Jei stebėjimu˛ grupė, kuri yra nepakankamai atstovaujama imtyje, nesiskiria nuo kitu˛ grupiu˛ savo priklausomo kintamojo dinamika, tuomet imtis gali būti laikoma gera populiacijos aproksimacija. Kaip minėta prieš tai, retai kada imtis tobulai atspindi populiaciją, todėl svarbiausia yra užtikrinti, jog nebūtu˛ grubiu˛ imties šališkumo pažeidimu˛ ir rezultatai gali būti generalizuojami. 20 / 23 Kokybiniai kintamieji Praeitose paskaitose analizavome modelius, kuriuose priklausomas kintamasis yra kiekybinis, tačiau neretai empiriniuose tyrimuose yra pravartu naudoti kokybinius kintamuosius kaip priklausomus. Šioje paskaitoje prisiminsime, bei daugiau dėmesio skirsime kokybiniams kintamiesiems, kuomet jie yra naudojami kaip regresoriai. Taip pat, paanalizuosime atvejus, kuomet tokie kintamieji yra naudojami kaip priklausomi, MKM pritaikymą ir alternatyvu˛ modeliavimo metodą. 21 / 23 Ordinalūs nepriklausomi kintamieji Neretai turimi kokybiniai kintamieji yra ordinalūs. Tokiu˛ kintamu˛ju˛ pavyzdžiai galėtu˛ būti: ▶ Išsilavinimo lygis - ’Priešmokyklinis’, ’Pradinis’, ’Pagrindinis’, ’Vidurinis’, ’Bakalauras’, ’Magistras’, ’Doktorantūra’; ▶ Namu˛ ūkio pajamu˛ lygis - ’Žemiau nei 15 tūkst. euru˛’, ’15-30 tūkst. euru˛’, ’30-45 tūkst. euru˛’, ’Daugiau nei 45 tūkst. euru˛’; ▶ Patiriamas streso lygis skalėje nuo 1 iki 10; MKM estimuotoje regresijoje tokius kintamuosius galima naudoti kaip kiekybinius, tačiau svarbu yra žinoti, jog tokiu atveju priimame kelias prielaidas: ▶ atstumai tarp kategoriju˛ yra vienodi; ▶ sąryšis tarp priklausomo kintamojo ir ordinalaus kategorinio kintamojo yra tiesinis; Jei šios prielaidos nėra realistiškos, tuomet tokiu˛ kintamu˛ju˛ naudojimas lyg kiekybiniu˛ gali nulemti koeficientu˛ ˛iverčiu˛ netikslumą. Tokiu atveju ordinalius kategorinius kintamuosius geriau paversti ˛i fiktyvius kintamuosius (plačiau apie tai ateinančioje paskaitoje) ar naudoti kitą regresijos estimavimo metodą. 22 / 23 Kokybiniai kintamieji ir MKM Jei turimi nepriklausomi kintamieji nėra ordinalūs, tuomet ˛i regresiją juos reikėtu˛ ˛itraukti pasivertus fiktyviais kintamaisiais. Jei priklausomas kintamasis yra kokybinis ir ordinalus, tuomet galime naudoti MKM estimuojant regresiją, tačiau išlieka prielaida, jog atstumas tarp kategoriju˛ yra vienodas. Estimuotas modelis atrodo taip pat, kaip ir tuo atveju, kuomet priklausomas kintamasis yra kiekybinis, tačiau diskretus (angl. discrete). Figure: Šaltinis: J. Wooldridge ’Introductory Econometrics A Modern Approach’ Kaip reikėtu˛ interpretuoti gautus koeficientu˛ ˛iverčius? 23 / 23 Ekonometrija I Paskaita 06 Andrius Vainilavičius [email protected] Vilniaus universitetas 2024/2025 1 / 21 Praeitoje paskaitoje ▶ Fiktyvūs kintamieji; ▶ Imties šališkumas; ▶... ▶ Praleisto kintamojo paslinktumas; 2 / 21 Šioje paskaitoje ▶ Praleisto kintamojo paslinktumas; ▶ Instrumentiniai kintamieji; ▶ Instrumentiniu˛ kintamu˛ju˛ regresija, 2 etapu˛ MKM; ▶ Priežastingumo nustatymas; ▶ Kokybiniai kintamieji regresijoje; 3 / 21 Praleisto kintamojo paslinktumas Tam, jog estimuotas koeficiento ˛ivertis būtu˛ paslinktas, praleistas kintamasis turi atitikti dvi sąlygas: 1. turi koreliuoti su bent vienu iš nepriklausomu˛ kintamu˛ju˛, t.y. Cov(Xi , Zi ) ̸= 0; 2. turi koreliuoti su priklausomu kintamuoju Y; Jei šios sąlygos yra tenkinamos, tuomet nėra tenkinama MKM egzogeniškumo prielaida - E(Xi |ui )=0 ir ˛ivertis yra paslinktas. 4 / 21 Kaip spręsti praleisto kintamojo paslinktumo problemą ▶ Kuomet ˛imanoma, ˛itraukti praleistą kintamąji˛; ▶ Kuomet praleisto kintamojo nei˛manoma ˛itraukti (pvz.: ability), galima naudoti pakaitini˛ kintamąji˛ (angl. proxy variable) (pvz.: IQ); ▶ Naudoti alternatyvu˛ koeficientu˛ ˛ivertinimo metodą. Dažniausiai naudojamas metodas - instrumentiniu˛ kintamu˛ju˛ (angl. instrumental variable) modelis; 5 / 21 Instrumentiniai kintamieji Jei egzistuoja praleisto kintamojo šališkumas (angl. omitted variable bias), tuomet MKM surastas koeficiento ˛ivertis yra paslinktas bei nesuderintas. Siekiant susidoroti su šia problema, ne visuomet galime ˛itraukti praleistą kintamąji˛ (nėra pamatuojamas/neegzistuoja reikiami duomenys/kita). Taip pat ne visuomet egzistuoja tinkami pakaitiniai kintamieji, kurie leistu˛ sumažinti ar panaikinti praleisto kintamojo šališkumo problemą. Taigi, norint surasti nepaslinktą koef. ˛iverti˛, reikėtu˛ pasinaudoti alternatyviu ekonometrijos metodu mažiausiems kvadratams. Dažniausiai naudojama alternatyva yra vadinama instrumentiniu˛ kintamu˛ju˛ regresija. Šis regresijos tipas yra itin populiarus taikomojoje ekonometrijoje siekiant ˛ivertinti nepriklausomu˛ kintamu˛ju˛ poveiki˛ priklausomiems, bei nustatant priežastingumą. 6 / 21 Instrumentiniai kintamieji Tarkime, jog turime seminaruose bei praeitoje paskaitoje nagrinėtą regresiją: log (wagei ) = β0 + β1 educi + β2 abili + ei Kadangi gebėjimu˛ kintamasis nėra stebimas (abili ), turime endogeniškumo problemą. Taigi, siekdami išvengti praleisto kintamojo paslinktumo problemos, galime naudoti pakaitini˛ kintamąji˛ (proxy), IQ. Tuomet mūsu˛ modelis būtu˛: log (wagei ) = β0 + β1 educi + β2 IQi + ei Jei IQ gerai aproksimuoja asmens gebėjimus, tuomet β1 bus estimuotas tinkamai ir galėsime daryti išvadas apie tai, koki˛ efektą DU turi išsilavinimas. Tačiau, jeigu IQ prastai aproksimuoja asmens gebėjimus, arba tokio kintamojo statistika nėra prieinama, tuomet endogeniškumo problema išlieka. Tuomet, estimuotas β1 koeficiento ˛ivertis (paslinktas ir nesuderintas)1 atspindės ne tik išsilavinimo efektą pajamoms, tačiau ir netiesiogini˛ efektą kylanti˛ iš individualiu˛ asmens gebėjimu˛. 1 Priimant prielaidą jog Cor(educi , abili ) ̸= 0 7 / 21 Instrumentiniai kintamieji Aproksimuojančio kintamojo neturėdami, mes liktume su porine regresija: yi = β0 + β1 xi + ui Nors ir žinome, jog Cov (xi , ui ) ̸= 0, tokia regresijos forma gali būti panaudota, siekiant surasti nepaslinktą β1 ˛iverti˛. Tam reikėtu˛ pasitelkti instrumentinius kintamuosius. Tarkime, jog turime kintamąji˛ zi , kuris atitinka dvi sąlygas. Pirmoji - jis neturi koreliacijos su šio modelio paklaida, o antroji - jis koreliuoja su kintamuoju xi. Tuomet zi laikysime instrumentiniu kintamuoju, kintamajam xi , arba tiesiog xi instrumentu. 8 / 21 Instrumentiniai kintamieji Formaliai šios prielaidos atrodo taip: 1. Cov (zi , ui ) = 0 Egzogeniškumas; 2. Cov (zi , xi ) ̸= 0; Aktualumas; Pirmoji iš aukščiau išvardintu˛ sąlygu˛ yra vadinama egzogeniškumo (angl. exogeneity), o antroji - aktualumas (angl. relevance). Pirmoji sąlyga (egzogeniškumas) implikuoja, jog zi negali būti tiek tiesiogiai, tiek dalinai turintis efektą (nebent per xi arba kitus ˛i regresiją ˛itrauktus kintamuosius) yi. Taip pat zi negali koreliuoti su jokiu praleistu kintamuoju (omitted variable), nes tai pažeistu˛ egzogeniškumo prielaidą. Kadangi ˛iprastai nėra būdu˛ testuoti ar Cov (zi , ui ) = 0, šios prielaidos patvirtinimas yra grindžiamas ekonomine logika. Antroji sąlyga, aktualumas, implikuoja, jog instrumentinis kintamasis turi būti susijęs (teigiamai arba neigiamai) su nepriklausomu kintamuoju, xi. Šią sąlygą galime patikrinti tiek suskaičiuojant kovariaciją tarp turimu˛ kintamu˛ju˛, tiek sudarant regresiją: xi = α0 + α1 zi + vi Jei α1 ̸= 0, tuomet žinosime, jog zi yra susijęs su xi. 9 / 21 Instrumentiniai kintamieji Turėdami tinkamą instrumentini˛ kintamąji˛, kaip ieškotume β1 ? Jei turime regresiją: yi = β0 + β1 xi + ui Galime ieškoti abieju˛ regresijos lygties pusiu˛ kovariacijos su instrumentiniu kintamuoju. Tuomet turėsime: Cov (zi , yi ) = Cov (zi , β0 + β1 xi + ui ) Kovariaciją dešinėje lygties pusėje galime išskaidyti ˛i atskirus komponentus: Cov (zi , yi ) = Cov (zi , β0 ) + β1 Cov (zi , xi ) + Cov (zi , ui ) Taigi β1 išsireikštume kaip zi ir yi populiaicjos kovariaciją, padalintą iš zi ir xi populiacijos kovariacijos: Cov (zi , yi ) β1 = Cov (zi , xi ) 10 / 21 Instrumentiniai kintamieji β̂1 , koef. ˛iverti˛, rastume naudodami imties kovariacijas: Pn (zi − z̄)(yi − ȳ ) β̂1 = Pi=1 n i=1 (zi − z̄)(xi − x̄) ˛Iverčio dispersija randama: s2 Var (β̂1 ) = Pn 2 2 i=1 (xi − x̄) Rxz 1 Pn kur s 2 = (n−1) 2 2 i=1 ûi , o Rxz yra determinacijos koeficientas regresuojant x ant z. 11 / 21 Instrumentiniai kintamieji Kol kas nagrinėjome pavyzdi˛, kuriame vertinome porinę regresiją. Kaip elgtis, kuomet turime dauginę regresiją? Tarkime, jog turime regresiją: yi = β0 + β1 xi + β2 hi + β3 mi + ui kur nepriklausomi kintamieji hi ir mi (t.y. Cov (hi , ui ) = 0, Cov (mi , ui ) = 0) yra egzogeniniai, o kintamasis xi yra endogeninis (dėl pvz. praleisto kintamojo). Tarkime, jog turime kintamuosius zi ir fi , kurie nėra ˛itraukti ˛i regresiją bei nekoreliuoja su ui. Taip pat, zi ir fi koreliuoja su xi. Taigi, abu šie kintamieji gali būti panaudoti kaip instrumentai. Tam, kad turimus instrumentus panaudotume geriausiu būdu, reikėtu˛ panaudoti tokią ju˛ tiesinę kombinaciją, kuri turėtu˛ kaip ˛imanoma aukštesnę koreliaciją su xi. Kadangi tiek hi , tiek mi yra egzogeniniai, juos taip pat galime ˛itraukti sudarydami tiesinę kombinaciją. Ją surasime sudarydami žemiau esančią regresiją: xi = α0 + α1 hi + α2 mi + α3 zi + α4 fi + vi kur E (vi ) = 0 ir kovariacijos tarp nepriklausomu˛ kintamu˛ju˛ ir vi yra lygios nuliui. Tuomet geriausią tiesinę reprezentaciją galėtume pasižymėti kaip: xi∗ = α0 + α1 hi + α2 mi + α3 zi + α4 fi 12 / 21 Instrumentiniai kintamieji xi∗ = α0 + α1 hi + α2 mi + α3 zi + α4 fi Šioje reprezentacijoje yra svarbu jog bent vienas - α3 arba α4 nebūtu˛ lygus nuliui2. Tiek α1 , tiek α2 gali būti lygūs nuliui, tačiau jei α3 = α4 = 0,3 tuomet instrumentai parinkti netinkamai. Svarbiausia šios reprezentacijos nauda yra ta, jog leidžia išskirti xi ˛i egzogenišką dali˛ (Cov (xi∗ , ui ) = 0) ir endogenišką dali˛, vi (Cov (vi , ui ) ̸= 0). Egzogenišką dali˛ mes galime ˛ivertinti MKM: x̂i = α̂0 + α̂1 hi + α̂2 mi + α̂3 zi + α̂4 fi Tuomet surastą x̂i galime panaudoti pradinėje regresijoje, ją estimuojant mažiausiu˛ kvadratu˛ metodu (MKM): yi = β0 + β1 x̂i + β2 hi + β3 mi + ui Tokia prieiga prie modelio sudarymo dar yra žinoma kaip dvieju˛ etapu˛ mažiausi kvadratai (angl. two stage least squares (2SLS/TSLS)). 2 jei α1 arba α2 yra nelygūs nuliui. Tokiu atveju tai būtu˛ tobulo kolinearumo atvejis 3 galime atlikti F testą 13 / 21 Instrumentiniai kintamieji Jei turime daugiau nei vieną endogenišką nepriklausomą kintamąji˛, tuomet turi egzistuoti tinkamas kiekis instrumentu˛. Reikalingas bent toks pats kiekis egzogeniniu˛, ˛i pradinę regresiją nei˛trauktu˛ kintamu˛ju˛ kiekis (instrumentu˛), kiek turime endogeniniu˛ nepriklausomu˛ kintamu˛ju˛ pradinėje regresijoje. Tai dar yra žinoma kaip rango sąlyga (angl. rank condition). 14 / 21 Instrumentiniai kintamieji Taikant instrumentiniu˛ kintamu˛ju˛ prieigą, labai svarbi yra tinkamu˛ instrumentiniu˛ kintamu˛ju˛ identifikacija. Taigi, natūraliai kyla klausimas - kaip žinoti, ar parinkti instrumentai geri? Tiesmuko atsakymo ˛i ši˛ klausimą nėra. Vienas paprasčiausiu˛ patarimu˛ šiuo klausimu4 yra nykščio taisyklė, jog pirmoje MKM regresijoje F testas turėtu˛ turėti bent 10 vertę. Jei F vertė žemesnė, nei 10, tuomet instrumentas yra laikomas silpnu. Nepaisant taisyklės paprastumo, ją taikyti galima tik tais atvejais, kuomet pirma MKM regresija (su instrumentiniu kintamuoju) yra porinė. Taip pat, naujesni tyrimai5 nurodo, jog F testo vertė turėtu˛ būti gerokai aukštesnė tam, kad laikytume, jog instrumentas yra tinkamas (>104.7). Jei pirmoje MKM regresijoje turime daugiau kintamu˛ju˛, tuomet reikėtu˛ vadovautis tiek F testu, tiek koeficiento ˛iverčiu prie instrumentinio kintamojo, tiek determinacijos koeficientu. Silpno instrumento panaudojimas gali lemti paslinktus bei nesuderintus koeficientu˛ ˛iverčius prie endogenišku˛ kintamu˛ju˛. Taigi, gauti rezultatai tampa nepatikimi ir neleidžia nustatyti priežastingumo sąryšiu˛. 4 Stock ir Watson, 2003 5 Lee, David S., Justin McCrary, Marcelo J. Moreira, and Jack Porter. 2022. "Valid t-Ratio Inference for IV." American Economic Review, 112 (10): 3260-90 15 / 21 Pavyzdys Tarkime, jog tyrėjas nori nustatyti rūkymo efektą žmoniu˛ sveikatos būklei. Koreliacija tarp rūkymo ir sveikatos būklės nebūtinai indikuoja jog rūkymas sukelia sveikatos problemas, dėl to, kad egzistuoja kiti kintamieji, tokie kaip depresija, socialinis statusas, kurie koreliuoja su abiem - rūkymu ir sveikatos būkle. Kadangi atlikti laboratorinius eksperimentinius tyrimus matuojant rūkančiu˛ju˛ sveikatą yra sudėtinga ir reikalauja dideliu˛ kaštu˛, tyrėjai gali pabandyti estimuoti rūkymo efektą sveikatai su turimais duomenimis naudodami tabako akcizus kaip instrumentini˛ kintamąji˛ rūkymui. Tabako akcizas yra geras instrumentinio kintamojo pasirinkimas, kadangi prielaida, jog akcizai koreliuoja su žmoniu˛ sveikata tik per efektą tabako suvartojimui, yra ganėtinai pagri˛sta. 6 6 Būtent toki˛ tyrimą atliko Leigh, J. P.; Schembri, M. (2004). "Instrumental Variables Technique: Cigarette Price Provided Better Estimate of Effects of Smoking on SF-12" 16 / 21 Priežastingumo nustatymas Kadangi instrumentiniu˛ kintamu˛ju˛ metodas leidžia nustatyti tiesiogini˛ nepriklausomo kintamojo poveiki˛ priklausomam kintamajam, tai leidžia "pradėti dialogą" apie priežastingumo sąryšius. Priežastingumas dažnai yra grindžiamas tiek regresiju˛ rezultatais, tiek ekonomine logika. ˛Iprastai, priežastingumo sąryšiai turi atitikti šiuos kriterijus: 1. X pokytis ˛ivyko prieš Y pokyti˛ (priežastis ˛ivyko prieš efektą); 2. Kovariacija (priežastis ir ˛ivykis yra susiję); 3. Alternatyviu˛ paaiškinimu˛ diskvalifikavimas (Efektą sukėlė X, o ne kitas kintamasis); Taigi, tai lemia, jog instrumentiniu˛ kintamu˛ju˛ metodas yra itin paplitęs ne tik ekonomikos moksle, tačiau ir daugelyje kitu˛ sričiu˛. 17 / 21 Priežastingumo nustatymas "Joshua D. Angrist and Guido W. Imbens “for their methodological contributions to the analysis of causal relationships”" Angrist, J. D. (1990). Lifetime Earnings and the Vietnam Era Draft Lottery: Evidence from Social Security Administrative Records. The American Economic Review, 80(3), 313–336. http://www.jstor.org/stable/2006669 Acemoglu, Daron, Simon Johnson, and James A. Robinson. 2001. "The Colonial Origins of Comparative Development: An Empirical Investigation." American Economic Review, 91 (5): 1369-1401 18 / 21 Kokybiniai kintamieji Praeitose paskaitose analizavome modelius, kuriuose priklausomas kintamasis yra kiekybinis, tačiau neretai empiriniuose tyrimuose yra pravartu naudoti kokybinius kintamuosius kaip priklausomus. Šioje paskaitoje prisiminsime, bei daugiau dėmesio skirsime kokybiniams kintamiesiems, kuomet jie yra naudojami kaip regresoriai. Taip pat, paanalizuosime atvejus, kuomet tokie kintamieji yra naudojami kaip priklausomi, MKM pritaikymą ir alternatyvu˛ modeliavimo metodą. 19 / 21 Ordinalūs nepriklausomi kintamieji Neretai turimi kokybiniai kintamieji yra ordinalūs. Tokiu˛ kintamu˛ju˛ pavyzdžiai galėtu˛ būti: ▶ Išsilavinimo lygis - ’Priešmokyklinis’, ’Pradinis’, ’Pagrindinis’, ’Vidurinis’, ’Bakalauras’, ’Magistras’, ’Doktorantūra’; ▶ Namu˛ ūkio pajamu˛ lygis - ’Žemiau nei 15 tūkst. euru˛’, ’15-30 tūkst. euru˛’, ’30-45 tūkst. euru˛’, ’Daugiau nei 45 tūkst. euru˛’; ▶ Patiriamas streso lygis skalėje nuo 1 iki 10; MKM estimuotoje regresijoje tokius kintamuosius galima naudoti kaip kiekybinius, tačiau svarbu yra žinoti, jog tokiu atveju priimame kelias prielaidas: ▶ atstumai tarp kategoriju˛ yra vienodi; ▶ sąryšis tarp priklausomo kintamojo ir ordinalaus kategorinio kintamojo yra tiesinis; Jei šios prielaidos nėra realistiškos, tuomet tokiu˛ kintamu˛ju˛ naudojimas lyg kiekybiniu˛ gali nulemti koeficientu˛ ˛iverčiu˛ netikslumą. Tokiu atveju ordinalius kategorinius kintamuosius geriau paversti ˛i fiktyvius kintamuosius (plačiau apie tai ateinančioje paskaitoje) ar naudoti kitą regresijos estimavimo metodą. 20 / 21 Kokybiniai kintamieji ir MKM Jei turimi nepriklausomi kintamieji nėra ordinalūs, tuomet ˛i regresiją juos reikėtu˛ ˛itraukti pasivertus fiktyviais kintamaisiais. Jei priklausomas kintamasis yra kokybinis ir ordinalus, tuomet galime naudoti MKM estimuojant regresiją, tačiau išlieka prielaida, jog atstumas tarp kategoriju˛ yra vienodas. Estimuotas modelis atrodo taip pat, kaip ir tuo atveju, kuomet priklausomas kintamasis yra kiekybinis, tačiau diskretus (angl. discrete). Figure: Šaltinis: J. Wooldridge ’Introductory Econometrics A Modern Approach’ Kaip reikėtu˛ interpretuoti gautus koeficientu˛ ˛iverčius? 21 / 21 Ekonometrija I Paskaita 07 Andrius Vainilavičius [email protected] Vilniaus universitetas 2024/2025 1 / 22 Praeitoje paskaitoje ▶ Praleisto kintamojo paslinktumas; ▶ Kitos ˛iverčiu˛ savybės; ▶ Instrumentiniai kintamieji; ▶ Instrumentiniu˛ kintamu˛ju˛ regresija, 2 etapu˛ MKM; ▶ Priežastingumo nustatymas; 2 / 22 Šioje paskaitoje ▶ Endogeniškumo testas (Durbin-Wu-Hausman testas); ▶ Peridentifikavimo apribojimu˛ priimtinumo tikrinimas; ▶ Kokybiniai kintamieji regresijoje; ▶ Atskiri segmentai susiję su praeities temomis; 3 / 22 Endogeniškumo testas Praeitoje paskaitoje aptarėme, jog endogeniškumas (E (X |u) ̸= 0) nėra testuojamas. Nepaisant to, ˛ivertinus koeficiento ˛iverti˛ naudojantis instrumentiniu˛ kintamu˛ju˛ regresija, egzistuoja testas, leidžiantis patikrinti, ar tikrai nepriklausomas kintamasis pasižymėjo endogeniškumu (bei koeficiento ˛ivertis prie jo yra paslinktas). Testas veikia ex post principu, pirmiausia yra ˛ivertinamas modelis ir koeficientu˛ ˛iverčiai mažiausiu˛ kvadratu˛ metodo, o tuomet yra ˛ivertinamas modelis naudojantis instrumentiniais kintamaisiais (2 etapu˛ mažiausiais kvadratais). 4 / 22 Endogeniškumo testas Tarkime, jog turime ši˛ modeli˛: yi = β0 + β1 xi + β2 fi + β3 hi + ui Taip pat tarkime, jog žinome, jog nepriklausomi kintamieji fi ir hi yra egzogeniniai, o kintamajam xi egzistuoja instrumentas zi. Tuomet, naudodamiesi mažiausiu˛ kvadratu˛ metodu gautus koef. ˛iverčius pažymėkime β̃, o instrumentiniu˛ kintamu˛ju˛ regresija - β̇. Jei kintamasis xi yra endogeninis, tuomet turėtu˛ egzistuoti reikšmingi skirtumai tarp β̃ ir β̇. Tai yra vienas iš būdu˛ priimti sprendimą apie endogeniškumo egzistavimą. 5 / 22 Endogeniškumo testas Kitas, kiek plačiau paplitęs būdas sprendimo priėmimui yra Durbin-Wu-Hausman testas (kartais dar vadinamas Hausman specifikacijos testu). Prisiminkite, jog naudodamiesi dvieju˛ etapu˛ mažiausiais kvadratais pirmiausia sudarome regresiją: xi = α0 + α1 zi + · · · + vi Ši regresija leidžia išskaidyti numanomą endogenini˛ kintamąji˛ ˛i egzogeninę ir endogeninę dalis: xi = x̂i + v̂i. Jei antrame mažiausiu˛ kvadratu˛ etape naudosime ne x̂i , bet v̂i , t.y. ne instrumentu˛ estimuojamą nepriklausomą kintamojo dali˛, tačiau pirmojo mažiausiu˛ kvadratu˛ etapo paklaidas, tuomet turėsime: yi = β0 + β1 xi + β2 fi + β3 hi + δ v̂i + ui ˛Ivertinus šios regresijos koeficientu˛ ˛iverčius atliksime t testą koeficientui prie pirmojo etapo paklaidu˛, H0 : δ = 0. Jei atmesime H0 , žinosime, jog xi yra endogeninis, nes vi ir ui koreliuoja. 6 / 22 Endogeniškumo testas Neatmetus H0 , žinosime, jog xi vis tik nėra endogeninis, taigi neturėtume taikyti dvieju˛ etapu˛ mažiausiu˛ kvadratu˛ (bei instrumentinio kintamojo prieigos). Taip yra todėl, kad dvieju˛ etapu˛ mažiausi kvadratai (2SLS) yra mažiau efektyvūs nei MKM, kuomet visi nepriklausomi kintamieji yra egzogeniniai. Kaip matėme seminaro metu, 2SLS lemia aukštas standartines ˛iverčiu˛ paklaidas, todėl yra verta atlikti endogeniškumo testą, siekiant patikrinti, ar 2SLS panaudojimas yra reikalingas. Durbin-Wu-Hausman testas yra tinkamas tik tuomet, kada turimas instrumentas atitinka instrumentu˛ prielaidas. Taigi, jei instrumentas nėra tinkamas (pvz.:Cov (zi , ui ) ̸= 0), testas nėra patikimas. Taip pat, testas pasižymi asimptotiškumu, t.y. rezultatu˛ patikimumas gerėja, kada stebėjimu˛ skaičius artėja prie begalybės. Taigi, nerekomenduojama naudotis Durbin-Wu-Hausman testu tais atvejais, kuomet turimu˛ stebėjimu˛ skaičius yra žemas. 7 / 22 Peridentifikavimo apribojimu˛ priimtinumo tikrinimas Jei turime kelis instrumentus, tuomet, naudojant kiekvieną ju˛ atskirai, gautume toki˛ kieki˛ koef. ˛iverčiu˛, kiek instrumentu˛ ir turime. Hausman (1978) pasiūlė, jog jei naudojant du skirtingus instrumentus, skirtumai tarp gautu˛ koef. ˛iverčiu˛ yra reikšmingi, tai indikuoja, jog bent vienas iš instrumentu˛ nėra egzogeninis. Taip pat, tai gali reikšti, jog nė vienas iš instrumentu˛ nėra egzogeninis (nebent žinome iš anksto). Procedūra, kuomet yra lyginami skirtingi instrumentiniu˛ kintamu˛ju˛ pagalba surasti koef. ˛iverčiai, yra vadinama peridentifikavimo apribojimu˛ testavimu (angl. Overidentification restrictions test). Pavadinimas jau suponuoja, jog testas yra skirtas nustatyti, ar naudojamas kiekis instrumentu˛ yra tinkamas tam, kad koeficientu˛ ˛ivertinimas būtu˛ asimptotiškai nuoseklus. 8 / 22 Peridentifikavimo apribojimu˛ testavimu Tarkime, jog turime q kieki˛ instrumentu˛ daugiau, nei būtina (rango sąlyga). Tuomet, naudodamiesi dvieju˛ etapu˛ mažiausiais kvadratais (2SLS) ˛ivertintomis regresijos paklaidomis, ûi , galime sudaryti testą, kuris patikrintu˛ instrumentu˛ egzogeniškumą. Jei visi instrumentai iš tiesu˛ yra egzogeniniai, tuomet 2SLS paklaidos turėtu˛ nekoreliuoti su jais. Taigi, siekiant atlikti testą yra sudaroma regresija, kurioje paklaidos, ûi , yra priklausomas kintamasis, o nepriklausomi kintamieji yra visi egzogeniniai kintamieji (tiek iš sudaromo modelio, tiek instrumentai): ûi = β0 + β1 hi + β2 fi + · · · + βj−1 z1i + βj z2i + · · · + ϵi Tuomet testo statistika yra pasiskirsčius χ2 skirstiniu ir yra gaunama naudojantis formule nR 2 ∼ χ2q , kur n - stebėjimu˛ skaičius, R 2 - determinacijos koef. iš testo lygties, o q=a-b, kur a - instrumentiniu˛ kintamu˛ju˛ (nei˛trauktu˛ ˛i modeli˛) skaičius, o b - endogeniniu˛ nepriklausomu˛ kintamu˛ju˛ skaičius modelyje. H0 teigia, jog visi instrumentai nekoreliuoja su paklaidomis, ui. Atmetus nulinę testo hipotezę, galime teigti, jog bent vienas iš instrumentu˛ nėra egzogeninis.1 1 testas remiasi homoskedastiškumo prielaida 9 / 22 Kokybiniai kintamieji Praeitose paskaitose analizavome modelius, kuriuose priklausomas kintamasis yra kiekybinis, tačiau neretai empiriniuose tyrimuose yra pravartu naudoti kokybinius kintamuosius kaip priklausomus. Šioje paskaitoje prisiminsime, bei daugiau dėmesio skirsime kokybiniams kintamiesiems, kuomet jie yra naudojami kaip regresoriai. Taip pat, paanalizuosime atvejus, kuomet tokie kintamieji yra naudojami kaip priklausomi, MKM pritaikymą ir alternatyvu˛ modeliavimo metodą. 10 / 22 Ordinalūs nepriklausomi kintamieji Neretai turimi kokybiniai kintamieji yra ordinalūs. Tokiu˛ kintamu˛ju˛ pavyzdžiai galėtu˛ būti: ▶ Išsilavinimo lygis - ’Priešmokyklinis’, ’Pradinis’, ’Pagrindinis’, ’Vidurinis’, ’Bakalauras’, ’Magistras’, ’Doktorantūra’; ▶ Namu˛ ūkio pajamu˛ lygis - ’Žemiau nei 15 tūkst. euru˛’, ’15-30 tūkst. euru˛’, ’30-45 tūkst. euru˛’, ’Daugiau nei 45 tūkst. euru˛’; ▶ Patiriamas streso lygis skalėje nuo 1 iki 10; MKM estimuotoje regresijoje tokius kintamuosius galima naudoti kaip kiekybinius, tačiau svarbu yra žinoti, jog tokiu atveju priimame kelias prielaidas: ▶ atstumai tarp kategoriju˛ yra vienodi; ▶ sąryšis tarp priklausomo kintamojo ir ordinalaus kategorinio kintamojo yra tiesinis; Jei šios prielaidos nėra realistiškos, tuomet tokiu˛ kintamu˛ju˛ naudojimas lyg kiekybiniu˛ gali nulemti koeficientu˛ ˛iverčiu˛ netikslumą. Tokiu atveju ordinalius kategorinius kintamuosius geriau paversti ˛i fiktyvius kintamuosius ar naudoti kitą regresijos estimavimo metodą. 11 / 22 Kokybiniai kintamieji ir MKM Jei turimi nepriklausomi kintamieji nėra ordinalūs, tuomet ˛i regresiją juos reikėtu˛ ˛itraukti pasivertus fiktyviais kintamaisiais. Jei priklausomas kintamasis yra kokybinis ir ordinalus, tuomet galime naudoti MKM estimuojant regresiją, tačiau išlieka prielaida, jog atstumas tarp kategoriju˛ yra vienodas. Estimuotas modelis atrodo taip pat, kaip ir tuo atveju, kuomet priklausomas kintamasis yra kiekybinis, tačiau diskretus (angl. discrete). Figure: Šaltinis: J. Wooldridge ’Introductory Econometrics A Modern Approach’ Kaip reikėtu˛ interpretuoti gautus koeficientu˛ ˛iverčius? 12 / 22 Beta koeficientai Kartais ekonometriniuose modeliuose turime duomenis, kuriuose kertiniai kintamieji yra matuojami skalėje, kurią yra sudėtinga interpretuoti (pvz. testu˛ ˛ivertinimai, kuriu˛ skalės yra nėra 0-100). Tokiais atvejais mus vis tiek domina, kaip konkretaus stebėjimo ˛ivertinimai atrodo bendrai populiacijoje. Taigi, vietoje to, jog vertintume koks efektas bus surinkus teste 10 balu˛ aukštesni˛ ˛ivertinimą, galėtume klausti, koks efektas bus surinkus vienu standartiniu nuokrypiu aukštesni˛ ˛ivertinimą. Kartais yra naudinga ˛ivertinti regresiją kuomet visi naudojami kintamieji, tiek priklausomas, tiek nepriklausomi, yra standartizuoti. Kintamasis yra standartizuotas, kuomet iš jo vertės atimsime imties vidurki˛ ir padalinsime iš standartinio nuokrypio. Kitaip tariant, kiekvienam kintamajam vertinam z-vertes (angl. z-scores) ir sudarome regresiją naudojant jas. 13 / 22 Beta koeficientai Tarkime, jog turime ˛iprastą MKM modeli˛: yi = β̂0 + β̂1 xi1 + β̂2 xi2 +... + β̂k xik + ûi Tuomet, suvidurkinkime regresijos lygti˛, turėdami omenyje, kad ûi turi nulini˛ imties vidurki˛: yi − ȳ = β̂1 (xi1 − x̄1 ) + β̂2 (xi2 − x̄2 ) +... + β̂k (xik − x̄k ) + ûi. Dabar, pasižymėkime σ̂y kaip priklausomo kintamojo imties standartini˛ nuokrypi˛, σ̂1 kaip x1 standartini˛ nuokrypi˛ ir t.t. Galiausiai, standartizuokime kiekvieną iš kintamu˛ju˛: (yi − ȳ ) /σ̂y = (σ̂1 /σ̂y ) β̂1 [(xi1 − x̄1 ) /σ̂1 ] +... + (σ̂k /σ̂y ) β̂k [(xik − x̄k ) /σ̂k ] + (ai /σ̂y )

Use Quizgecko on...
Browser
Browser