Apie reikšmių pasiskirstymą.docx
Document Details
Uploaded by JudiciousTanzanite
Full Transcript
Apie reikšmių pasiskirstymą (sklaida) Duomenų reikšmių pasiskirstymas Skirstinys (distribution) – tai apibūdinimas ar taisyklė, nurodantis, kaip išsidėsto kintamojo reikšmės: parodo, kiek kokių reikšmių yra. Skirstinys yra išreiškiamas lentele, grafiku arba formule. Empirinis skirstinys yra kintamoj...
Apie reikšmių pasiskirstymą (sklaida) Duomenų reikšmių pasiskirstymas Skirstinys (distribution) – tai apibūdinimas ar taisyklė, nurodantis, kaip išsidėsto kintamojo reikšmės: parodo, kiek kokių reikšmių yra. Skirstinys yra išreiškiamas lentele, grafiku arba formule. Empirinis skirstinys yra kintamojo reikšmės ir jų dažniai Empirinis: Aprašo duomenis. Ne visai idealus, nes nustatomas iš duomenų: sudarant imtį atsiranda paklaida, todėl kiekvieną kartą sudarius naują imtį šiek tiek skirsis Teorinis: Parodo, kaip turėtų atrodyti ,,idealus” GA pasiskirstymas aprašomas teorinėmis lygtimis įvertinamas darant statistines išvadas Imtis <-> GA Normalusis skirstinys. Empiriškai nustatyta, kad daugelis histogramų panašios į grafikus ar funkcijas, kurios vadinamos normaliosiomis arba Gauso. Trumpasis žymėjimas: N (μ, σ2 ), μ - vidurkis; σ2 – dispersija Normaliojo skirstino formulė: Normalusis skirstinys apibūdinimas dviem parametrais: vidurkiu ir dispersija Teorinio normaliojo skirstinio savybės : Forma panaši į varpą: Viena viršūnė. Ties viršūne duomenų centras: moda, mediana ir vidurkis sutampa Forma simetriška viršūnės atžvilgiu Turi 2 parametrus: Parametras μ atitinka duomenų centrą (vidurkį) Nurodo viršūnės padėtį duomenų ašyje Parametras σ2 atitinka duomenų dispersiją Parodo skirstinio ,,plotį: X ašies reikšmės kinta nuo -∞ iki +∞. Visas plotas po kreive = 1, nes parodo tikimybę Y ašyje – tikimybės tankio vienetai: konkrečios y reikšmės priklauso nuo x matavimo vienetų (nes plotas po kreive =1) Standartinis normalusis skirstinys Normaliųjų skirstinių šeima: Galima bet kokia μ reikšmė Galima bet kokia σ2 reikšmė Standartinis normalusis skirstinys, kai: μ = 0, σ2 = 1 Duomenų sklaidos statistikos Dispersija [variance] Standartinis nuokrypis [standart deviation, std.dev., SD] Absoliučiųjų nuokrypių nuo medianos mediana, MAD [median absolute deviaton] Imties plotis [range] (skirtumas tarp maksimumo ir minimumo) Tarpkvartilinis plotis / Kvartilių skirtumas, IQR [interquartile range, IQR] (skirtumas tarp 1 ir 3 kvartilio) Variacijos koeficientas [coefficient of variation, CV] Kokybinės įvairovės indeksas [index of qualitative variation, IQV] Ką parodo sklaida? Vidurkis gali būti vienodas dviejų imčių, tačiau sklaida parodo, kiek vieni duomenys yra nutolę nuo kitų. Pvz. jei imame grupę, kurių amžiaus vidurkis yra 30 (visi aplink 30) ir jei imame grupę, kurios amžiaus vidurkis irgi 30, tačiau ją sudaro kūdikis, vidurinio amžiaus ir pensininkas. Dispersija Nuokrypis nuo vidurkio Imties dispersijoje yra Beselio paklaida (naudojame ne n, o n-1). Dažnai naudojama kaip tarpinis dydis aprašomosios statistikos skaičiavimuose. Nepatogi, nes miglota biologinė prasmė (dimensija kvadratu); dažnai yra labai didelis ar labai mažas skaičius Imties dispersijos skaičiavimas Apie laisvės laipsnius Jei žinome, kad n=5, kokį 5-tą skaičių galime įrašyti? 4, 6, 6, 4 Jei žinome, kad n=5 ir 𝑥̅=5, kokį skaičių galime įrašyti? 4, 6, 6, 4 Galime irašyti tik 5, nes kitaip vidurkis turėtų būti kitoks. Tad penktas narys neturi “laisvės” būti pasirinktas atstitiktinai “Laisvės” būti pasirinktu atsitiktinai turi tik I, II, III ir IV nariai, t.y. n-1 laisvės laipsnių Standartinis nuokrypis Susijęs su dispersija Kompiuterinėse programose dažnai trumpinamas SD ar sd Standartinis nuokrypis parodo kiek taškai yra nutolę nuo vidurkio. s – imties SD; 𝜎 – GA SD; Galimos reikšmės: SD ∈ [0, +∞) (nes keliame kvadratu). Matavimo vienetai tokie patys, kaip duomenų. Standartinis nuokrypis ir dispersija Juose atsispindi visų taškų indėlis skaičiuojant sklaidą Tradiciškai: aprašomojoje statistikoje pateikiami standartiniai nuokrypiai; o darant statistines išvadas įprastai naudojama dispersija Čebyšovo taisyklė Empirinė taisyklė (1 σ taisyklė; 2 σ taisyklė; 3 σ taisyklė) Kai skirstinys yra normalusis. Jei skaičius netelpa į intervalą +-3sigma reiškia, kad taškas yra labai nutolęs nuo vidurkio. Į tokius taškus reikia labai atkreipti dėmesį. Iškirtis reikia analizuoti. MAD – absoliutusis nuokrypis nuo medianos Du skirtingi dydžiai trumpinama taip pat – MAD Median absolute deviation vs mean absolute deviation (antrojo nenagrinėsime) MAD yra nukrypimams atsparus (robastiškas) SD analogas. 𝒙 – imties reikšmių mediana; Mediana - tai mediana iš reikšmių, gautų atlikus veiksmus skliaustuose: Absoliučiųjų nuokrypių mediana. Jei lyginame kelias grupes, ir jų SD smarkiai skiriasi, o MAD – beveik vienodi, galime numanyti, kad duomenyse yra išskirčių Skirtumai panaikinami ne keliant kvadratu, o uždedant modulį (abs). Suskaičiuojamas atstumų skirtumas. Gautus atstumus išrikiuojame į variancinę eilutę ir iš jų vėl skaičiuojame medianą. Paprasčiausiu atveju 𝑘 = 1 Jei norime, kad MAD atitiktų SD, tada parametras k priklauso nuo skirstinio. Normaliajam skirstiniui 𝑘 ≈ 1,4826. Kai skirstinys yra normalusis, o 𝑘 ≈ 1,4826 , tada jei eksperimentas būtų kartojamas daug kartų, jo metu gautų MAD įverčių vidurkis būtų artimas tikrajam standartiniam nuokrypiui: 𝐄 𝑀𝐴𝐷 ≈ 𝜎 Kai 𝐄(𝑥) – teorinis vidurkis. Variacijos (kitimo) koeficientas (CV) Neturi dimensijos; Leidžia palyginti dviejų imčių išsibarstymą apie vidurkį – net skirtingų požymių imčių; Galimos didelės paklaidos, jei vidurkis arti 0 (𝑥̅ → 0); Tik santykių skalės kintamiesiems (x > 0, t. y., visos reikšmės tik teigiamos). Kokybinės įvairovės indeksas Sklaidos matas, kuris taikomas kategoriniams kintamiesiems; Kinta: nuo 0 (nėra reikšmių sklaidos); iki 1 (maksimali reikšmių sklaida). fj – j-osios kategorijos stebėjimų skaičius (j-osios kategorijos dažnis); k – kategorijų skaičius; n – stebėjimų skaičius (imties dydis). Standartinė paklaida vs standartinis nuokrypis Standartinė paklaida (SE*) apibūdina vidurkį, tad nėra aprašomoji statistika (tad SE ir nenaudokite kaip tokios) Standartinis nuokrypis (SD) apibūdina duomenis Standartinė vidurkio paklaida (SE*, SEM*) matuoja, kaip tiksliai imties vidurkis įvertina (atspindi) tikrąjį GA vidurkį. Tai nėra aprašomoji statistika, todėl neturėtų būti naudojama kaip SD pakaitalas aprašyme; Jei 𝑋~𝒩(𝜇, 𝜎2) (skirstinys normalusis), tai SE atitinka 68% vidurkio pasikliautinąjį intervalą. Standartinis nuokrypis 𝑠x – matuoja duomenų išsibarstymą (sklaidą) apie imties vidurkio įvertį 𝑥̅. Imties plotis ir tarpkvartilinis plotis Imties plotis*: xmax – xmin jautrus išskirtims. Tarpkvartilinis plotis (IQR*): IQR = Q3 – Q1; apima 50% imties narių; mažiau jautrus išskirtims; dar vadinamas kvartilių skirtumu. IQR labiau apibūdindų, kiek taškai nutolę nuo duomenų centro ir vienas nuo kito. Didelė sklaida reiškia, kad taškai išsidėstę toli vienas nuo kito. Apibendrinimas – sklaidos charakteristikos Duomenų sklaidos charakteristikos padeda susidaryti visapusiškesnį vaizdą apie duomenis, suteikdamos informacijos, ar kintamojo reikšmės: labai išsisklaidžiusios ir smarkiai išsibarsčiusios; ar išsidėsčiusios glaudžiai ir kompaktiškai. Kai turime vidurkį, prirašome standartinį nuokrypį. Kai turime medianą, skaičiuojame pirmą ir trečią kvartilį. Skirstinių formos charakteristikos Asimetrijos koeficientas [skewness]; Eksceso koeficientas [kurtosis] Centrinis momentas: j-osios eilės centriniu momentu vadiname atstumų tarp kiekvienos imties reikšmės ir vidurkio, pakeltų laipsniu j, sumą, padalintą iš n – 1. Pvz., kai j = 2, gaunama imties dispersijos formulė. Dažnių skirstinių formos charakteristikos – centrinių momentų (mj) ir imties standartinio nuokrypio (sx) charakteristikos. Asimetrijos koeficientas Rodo simetriją ar asimetriją Asimetrijos koeficiento interpretacija: Kai 𝒈𝟏 = 𝟎 – duomenys visiškai simetriški. Realūs duomenys retai būna tokie. Preliminari interpretacijos taisyklė (pagal Bulmer, 1979): −𝟎, 𝟓 < 𝒈𝟏 < +𝟎, 𝟓 – maža asimetrija. Galima laikyti, kad skirstinys simetriškas. −𝟏 < 𝒈𝟏 < −𝟎, 𝟓 arba +𝟎, 𝟓 < 𝒈𝟏 < +𝟏 skirstiniui būdinga vidutinio laipsnio asimetrija. 𝒈𝟏 < −𝟏 arba +𝟏 < 𝒈𝟏, skirstinys smarkiai asimetriškas. Koeficiento ženklas parodo asimetrijos kryptį. Teigiamos asimetrijos koregavimas logaritmuojant Biologinių duomenų pasiskirstymui dažnai būdinga teigiama asimetrija; Teigiama asimetrija sumažinama logaritmuojant: 2; 20; 200; 2000; (g1 = 1,94) → log10 → 0,3; 1,3; 2,3; 3,3 (g1 = 0) Minusas: logaritmuojant duomenis yra sunkiau interpretuoti duomenis, nes pasikeičia matavimo vienetai Vidurkio ir medianos padėties bei pasiskirstymo (a)simetrija Jei mediana smarkiai skiriasi nuo vidurkio, kintamojo skirstinys nėra simetriškas: jei asimetrija teigiama – vidurkis yra didesnis už medianą; jei neigiama – vidurkis yra mažesnis už medianą. Jei sutampa – pasiskirstymas simetriškas. Eksceso koeficientas Rodo skirstinio formos bukumą/smailumą lyginant su normaliuoju skirstiniu: ar dauguma duomenų taškų yra susitelkę ties keliomis reikšmėmis, ar išsisklaidę variacinėje eilutėje. g2 = 0 – smailumas kaip normaliojo skirstinio; g2 > 0 – centrinė kreivės dalis smailesnė, o duomenų sklaida apie vidurkį didesnė nei normaliosios kreivės (atkreipkite dėmesį į „uodegas“ – kraštines kreivės dalis); g2 < 0 – centrinė kreivės dalis bukesnė, o duomenų sklaida apie vidurkį mažesnė nei normaliosios kreivės (arba keliaviršūnis skirstinys). Išskirtys Apibūdinimai: Išskirtys – išsiskiriančios, „kitokios“ reikšmės, nutolusios nuo pagrindinės duomenų „masės“. Išskirtys – tai imties reikšmės, nesiderinančios su pasirinktu statistiniu modeliu. Tai reikšmės, kurioms reikia skirti daugiau dėmesio. Išskirtys gali rodyti, kad surinkome per mažai duomenų. Surinkus daugiau duomenų išskirtis gali parodyti kitą grupę. Atsparumas išskirtims: Vienos statistikos yra mažiau jautrios išskirtims nei kitos: Vidurkis* vs. nupjautasis vidurkis; Vidurkis* vs. mediana; Imties plotis* vs. tarpkvartilinis atstumas (IQR) * labiau išskirtims jautri statistika Atsparumas nukrypimams (šiuo atveju – išskirtims ) dar vadinamas – robastiškumu. Esant smarkiai nukrypusių verčių geriau rinktis robastinius įverčius: tokiomis sąlygomis jie tiksliau apibendrina duomenis. Ką daryti su išskirtimis? Išsiaiškinti priežastį; Surinkti daugiau duomenų; Pasirinkti kitą statistinį modelį; Transformuoti duomenis (pvz., logaritmuoti); Jei įvyko duomenų įvedimo klaida, išsiaiškinti, kokia turėjo būti tikroji vertė. Pašalinti? Negalima šalinti duomenų vien todėl, kad jie jums nepatinka; Turite pagrįsti, kodėl pašalinote konkretų tašką; Jei tai tikrai duomenų įvedimo ar kitokia klaida, galbūt ir reiktų pašalinti reikšmę; Būna situacijų, kai surinkus daugiau duomenų „išskirtis“ „tampa“ įprastiniu tašku. Standartizavimas (duomenų transformacijos) Standartizavimas ir z reikšmės Standartizavimas dar vadinamas z transformacija. standartinis nuokrypis 1. Tai vienas iš normavimo būdų. Standartizuotoji reikšmė 𝑧i parodo, per kiek standartinių nuokrypių reikšmė 𝑥i yra nutolusi nuo vidurkio. Transformacija nekeičia skirstinio formos. Bendruoju atveju nėra susijusi su konkrečiu (pvz., normaliuoju) skirstiniu. Iš kiekvienos reikšmės atimame vidurkį ir padaliname iš standartinio nuokrypio. Z reikšmių vidurkis yra 0, Z reikšmių standartinis nuokrypis 1. Pagal z reikšmes galime išsiaiškinti, ar taškas išskirtinis ar įprastinis. Z reikšmės yra ir teigiami, ir neigiami skaičiai. Išskirčių nustatymas z reikšmių metodu Įvertinama pagal standartizuotąsias (z) reikšmes: 2 < |z| < 3 – sąlyginė išskirtis*; |z| > 3 – tikroji išskirtis**. Išskirtys barjerų metodu Išskirčių atpažinimas barjerų metodu: Universalesnis būdas, nes nereikia tenkinti normalumo sąlygos: Pvz., tinka, jei skirstinys smarkiai asimetriškas. Vertinama pagal: vidinius barjerus: x < Q1 – 1,5 × IQR arba Q3 + 1,5 × IQR < x – sąlyginė išskirtis; išorinius barjerus: x < Q1 – 3 × IQR arba Q3 + 3 × IQR < x– tikroji išskirtis. Reikšmė, esanti ties vidinio barjero riba dar nėra laikoma išskirtimi. Kaip statistiškai apibendrinti vieną kintamąjį? Suvestinės tipas priklauso nuo kintamojo tipo: A) nominalieji / diskretieji Svarbiausia nurodyti: imties dydį (n) ir dažnių lentelę B) tolydieji / kiekybiniai Svarbiausia nurodyti: imties dydį (n), duomenų centrą ir duomenų sklaidą (jei šie dydžiai turi prasmę). Įprastai, jei duomenys pasiskirstę: simetriškai, be išskirčių (pvz., jei normaliai) arba derinama su parametriniais metodais, n + vidurkis + standartinis nuokrypis; asimetriškai, yra išskirčių arba nebūtinai normaliai, arba derinama su neparametriniais metodais, n + mediana + 1 ir 3 kvartiliai. 4 paskaita Grafikų ir lentelių pateikimas Grafikai: Darbiniai Daug Greiti ir netvarkingi (quick and dirty) Skirti pačiam/pačiai sau, kad geriau suvoktume duomenis Galutiniai Vienas ar keli, bet kruopščiai atrinkti Skirti rodyti kitiems: aiškiai, tiksliai ir efektyviai pateikti informaciją, rezultatus Tvarkingai apipavidalinti tiksliai aprašyti (išėmus grafiką iš konteksto jis turėtų būti visiškai suprantamas (trumpiniai, spalvos, žymėjimai)) Pagrindiniai principai: tiksliai, aiškiai bei suprantamai pateikti informaciją. Paveikslų ir lentelių aprašymo vieta Aprašymas po paveikslu ir virš lentelės Nebent yra kitaip sutarta Tvarkingi grafikai Kai kuriais atvejais vienetai nerašomi, tačiau geriau parašyti, nei neparašyti! Apvalinimas Apvalinamas tik galutinis rezultatas, o ne tarpiniai skaičiavimai Pateikiant rezultatus griežtų taisyklių nėra, yra tik rekomendacijos Apvalinimas gali priklausyti nuo konteksto, kuriame pateikiami rezultatai, pvz.: Aprašymas tekste (apvalinama labiau, pvz., 1 sk. po kablelio, kad neapkrautų skaitytojo) Skaičiai lentelėse (apvalinama mažiau, pvz., 2-3 sk. po kablelio) Tačiau turi būti išlaikytas balansas tarp tikslumo ir aiškumo Vengti negrįstai didelio ,,tikslumo“: ,,Vidurkis buvo 1,3456789098765” (blogai) ,,Vidurkis buvo 1,12” (daug suprantamiau, tarp detalių neprarandama esmės) Įprastai: Procentus užtenka suapvalinti iki 1 skaitmens po kablelio (jei lentelėse) arba iki sveikųjų dalių (jei tekste, pvz., 50% (20/40) Vidurkiai (M), medianos (Md), standartiniai nuokrypiai (SS) ir pan. apvalinami vienodu tikslumu. M, SD ir pan. apvalinimui gali būti taikoma +1 dešimtosios dalies taisyklė: prie prietaiso matavimo tikslumo pridedama 1 dešimtoji dalis Koreliacijos (ir pan. standartizuoti( koeficientai, tikimybės bei proporcijos pateikiamos 2-3 skaitmenų po kablelio tikslumu (pvz., r = 0,65: p + 0,031) Kaip apvalinti? Turi būti išlaikomas balansas tarp aiškumo ir tikslumo Dažnai pakanka 2-3 reikšmingų skaitmenų Visas tais pačiais vienetais matuojamas statistikos reikia apvalinti tokiu pačiu tikslumu Pvz., jei M = 27,2, tai ir SD = 2,1, o ne 2,13 ar 2 (Pavyzdys žemiau nėra geras Skaičiuose tarp sveikosios ir dešimtosios dalių . ar , Lietuviškuose dokumentuose tarp sveikosios ir dešimtosios naudojame kablelį: Angliškuose – tašką Viename dokumente neturėtų būti skirtingais formatais užrašytų skaičių Netvarkingai pateikta lentelė Pastaba PASTABA: nemaišykite, kas yra tvarkingai pateikta (apipavidalinta) lentelė ir tvarkingoji duomenų lentelė, tai skirtingi terminai Tvarkingoji duomenų lentelė – terminas, apibūdinantis lentelės formą: viena eilutė – vienas stebėjimas, vienas stulpelis – vienas kintamasis Į ką žiūrėti grafikuose? Analizuodami grafikus turime įvertinti (PSI-FI): Padėtį (Kokios yra įprastinės reikšmės ir kurioje vietoje grafikas randasi?) Sklaidą (Ar reikšmės išsidėsčiusios plačiai ar siaurai?) Imties dydį Formą (pasiskirstymo) (Ar reikšmės išsidėsčiusios plačiai ar siaurai?) Išskirtinius požymius (visuose prieš tai išvardintuose punktuose (P, S, I , F)) Grafikų analizė ir aprašymas (OSEM (AkPaPaį) metodu Kiekvienam iš šių PSI-FI bruožų apibūdinti gali padėti OSEM akronimas: O – obvious; Akivaizdu pastebėjimas (pirmiausiai, kas krenta į akį) S – specify; Patikslinimas ir sukonkretinimas taip, kad suprastų kitas E – evidence; Pagrindimas skaičiais, papildoma analizė ir/arba skaičiavimais M – meaning; Įprasminimas: Kas iš to šiame kontekste? Kaip tai siejasi su tyrimo klausimu ir problema? Tyrimas prasideda nuo klausimo ar problemos Vieno kintamojo atvaizdavimas Reikšmių sužymėjimas tiesėje Neinformatyvu, jei pagrindinis atvaizdavimo metodas, nes nematome taškų dažnio, o ties viena vieta gali būti jų susitelkimas. Naudinga, jei pagalbinė kito grafiko dalis R Studio: ggplot2: geom_rug() Kaip atvaizduoti vieno kintamojo skirstinį? Grafiko tipas priklauso nuo kintamojo tipo. Rekomenduojami grafikai: A) Nominalieji / diskretieji – stulpelinė diagrama Tolydieji – kiekybiniai – stačiakiampė diagrama, branduolių tankio diagrama (BTD), histograma, ECDF Stulpelinė diagrama R Studio: ggplot2::geom_bar() ggplot2::geom_col() bar - kai turime vieną x ir dažnius turi apskaičiuoti pati programa col - kai turime x ir y t.y. jau sudaryta dažnių lentelė Stulpelinė diagrama: absoliutieji ir santykiniai dažniai Stulpelinėse diagramose naudinga pateikti ir absoliučiuosius, ir santykinius dažnius. Rekomenduojama pateikti ne vien dažnius, bet ir procentinės grupės dalis (kaip pavyzdyje). Skritulinė diagrama Skirta tik visumos dalims vaizduoti: Skritulys – visa GA (100%) Išpjova – vienas pogrupis Aprašyme privaloma nurodyti GA dydį (N) Tik nominaliesiems kintamiesiems Negalima atidėti paklaidų Nenaudojama ranginiams duomenims Nerekomenduoja, kai kategorijų yra >5; mažiausia grafiko išpjova <3% (t.y., <10,8) Vengtinos trimatės skritulinės diagramos (pažeidžiamas tikslumo principas). Kai kurie ekspertai skritulinių diagramų rekomenduoja vengti apskritai. Skritulinės diagramos trūkumai: Negalima atidėti/atvaizduoti paklaidų Jei nėra tiksliai žinoma, kad yra 100%, diagrama ne pakankamai tiksliai atvaizduoja duomenis Dažnai žmonės nemoka efektyviai naudoti šių diagramų Skritulinė vs. Stulpelinė diagrama Skritulinėje aiškiau matoma procentinė dalis Stulpelinėje aiškiau konkretus skaičius. Skritulinę diagramą renkamės tada, kai norime atvaizduoti procentinę dalį. Kai mus domina konkretus dažnis/skaičius, renkamės stulpelinę. Skritulinės diagramos naudojimą riboją tiriamųjų skaičius. Histograma Histogramos sudarymas: kiekybiniai duomenys -> duomenų grupavimas -> dažnių lentelės sudarymas -> atvaizdavimas (histograma) Stulpelinė naudojama tik nominaliesiems- diskretiesiems, o histograma naudojama tolydiesiems duomenims. Histogramos atvaizdavimas ir interpretavimas Histogramai gali būti naudojami tiek absoliutieji, tiek santykiniai dažniai. Stulpelinėje diagramoje stulpeliai gali būti išrikiuojami bet kokia tvarka, o histogramoje tikslingais intervalais Histogramos stulpelių skaičius: rekomendacijos Įprastai rekomenduojama nuo 5 iki 15-20 stulpelių Geriausia, jei kiekviename stulpelyje bent po 5 reikšmes Turi išryškėti pasiskirstymo tendencijos: Jei stulpelių per daug, išryškėja triukšmas, tad dar nesimato tikrosios tendencijos Jei stulpelių per mažai, jau nesimato tikrosios tendencijos Pagrindinė taisyklė – histograma turi atrodyti gražiai Branduolinio tankio diagrama (BTD) BTD duomenų imčiai R Studio: Ggplot2::geom_density() Diagramos interpretavimas: analogija su histograma BTD: kas viduje? Kiekybiniai duomenys Branduolio funkcijos ir jos parametrų parinkimas Kiekvieno taško aprašymas branduolio funkcija Visų branduolio funkcijos reikšmių susumavimas ties kiekviena x reikšme (tankio apskaičiavimas) Atvaizdavimas (BTD) Kiekvienam taškui braižoma atskira branduolio funkcija. Šalia esančių taškų branduolių funkcijos susilies. KUo taškai yra arčiau, tuo grafikas labiau susilies. BTD: Vienas branduolys BTD: keli branduoliai (suma) BTD:branduolio plotis ir galutinės kreivės forma Dėl skirtingo branduolio pločio gali skirtis galutinės kreivės viršūnės padėtis ar net viršūnių skaičius Kaip pasirinkti branduolį? Branduolys = branduolio funkcija Branduolys gali būti trikampis, keturkampis, Epanechnikovo, Gauso ar kitokios kreivės pavidalo: įprastai – gausiniai branduoliai Mes įprastai pasirenkame tik branduolio plotį. Įprastai naudojamas toks branduolio plotis, kad: sumažėtų triukšmas ir išryškėtų tendencija Per mažas branduolio plotis -> triukšmas užgožia tendenciją Per didelis branduolio plotis -> nebesimato tendencijos dėl per didelio suglotninimo BTD ir histograma BTD diagramoje negalime nustatyti imties dydžio. BTD diagramoje sunkiau pastebėti išskirtis. BTD ir histograma – grupių lyginimas BTD nauda: grupių palyginimas Grafikas parodo, kad mėlyna grupė turi statistiškai didesnes reikšmes, nes jos viršunė yra labiau pasislinkusi į dešinę pusę. Sukauptojo santykinio dažnio diagrama (ECDF) Naudinga, kai reikia nustatyti ir palyginti kelių grupių kvantilius Nurodykite 30% procentilį Tarkime x - augalo aukštis cm. Nurodyti augalo aukštį, už kurį yra 30% mažesnių t.y. 30% procentilį. Ieškome 0.3 y ašyje ir vedame link x ašies. Atsakymas bus apie 3.5. ECDF: grupių lyginimas Kuo mažesnė imtis, tuo labiau kampuota linija. Mažesnis vidurkis - linija labiau pasislinkusi į kairę pusę Stačiakampė diagrama R Studio: ggplot::geom_boxplot() Kas vaizduojama? Stačiakampėmis diagramomis gali būti vaizduojami skirtingi dalykai Tad konkrečiu atveju (programoje, straipsnyje, vadovėlyje) reikia perskaityti aprašymą Mes analizuosime 2 variantus: ,,Supaprastintą“ stačiakampę diagramą ir J. Tukey (įprastinę) stačiakampę diagramą Supaprastinta stačiakampė diagrama VIDURKIS NEVAIZDUOJAMAS Supaprastinimas toks: ūsai braižomi iki mažiausios reikšmės ir iki didžiausios reikšmės Vidurinė linija parodo medianą, šoninės linijos parodo 1 ir 3 kvartilius. Dėžutė vaizduoja 50% duomenų. Rekomendacija: aprašydami diagramą pažymėkite, ką ji vaizduoja: pvz., kad dėžutė vaizduoja Q1, Q3, centrinė linija – MD, o ūsai tęsiasi iki Min ir Max J. Tukey stačiakampės diagramos sudarymas Dėžutė apibrėžia atstumą tarp Q3 ir Q1 Papildomai apskaičiuojami vidiniai ir išoriniai barjerai. Ūsai tęsiasi iki to taško, kuris paskutinis patenka į barjerą. Visi taškai už vidinio barjero vaizduojami taškeliais (sąlyginės išskirtys). Centrinė linija – Md ,,Ūsai“ tęsiasi ne daugiau kaip iki vidinių barjerų ,,Ūsų“ galai žymi konkretų duomenų tašką, kuris neužeina už vidinių barjerų Atskirais taškais žymimos tos reikšmės, kurios išeina už vidinių barjerų Jei taškai išeina už išorinių barjerų, jie gali būti žymimi kitokių simboliu (,,R“ žymi tuo pačiu) Įprastinės (J. Tukey) stačiakampės diagramos sudarymas Apskaičiuojame Md, Q1, Q3, tada IQR, tada vidinius ir išorinius barjerus Pagal šiuos skaičiavimus braižome grafiką. Md, Q1, Q3 yra atidedami grafiike, kiti – tik pagalbiniai Interpretavimas: II - Pasklaidymas ašimi nieko nereiškia, tik parodo, kur labiau susitelkia ir taškai nepersidengia III – nesimato skirstinio formos ir imties dydžio IV - Smuikinė diagrama (branduolinio tankio grafikai, kurie vienas ant kito užlipdyti) Pagal kurį požymį augalo rūšys skiriasi labiau? Kuo dėžutės viena nuo kitos yra toliau, tuo rūšys skiriasi labiau. Šiuo atveju pagal stiebo ilgį. Stačiakampė diagrama ir skristinio forma Apibrendinimas Prieš atlikdami analizę būtinai nusibraižykite duomenis: Tai turės įtakos tolimesnei darbo su duomenimis eigai. Analizuodami grafikus atkreipkite dėmesį į pasiskirstymo padėtį, sklaidą, imties dydį, formą (pvz. simetriją, viršūnių skaičių) ir išskirtinius bruožus. Analizės pradžioje nusibraižykite bent kelių tipų grafikus: Po to išsirinkite labiausiai tinkamą Grafikai pirmiausiai turi būti parinkti pagal kintamųjų skaičių ir duomenų tipus.