Document Details

ZippyHeliotrope9386

Uploaded by ZippyHeliotrope9386

Háskóli Íslands

Auðun Valborgarson

Tags

áreiðanleiki prófa áhrif áreiðanleika staðlað villan fylgni próffræði

Summary

Þetta skjal, sem er frá Auðun Valborgarson, fjallar um mikilvægi áreiðanleika við mat á prófum. Skjalið skoðar áreiðanleikastuðla, áhrif áreiðanleika á mælingar og hvernig staðlað villan er reiknuð. Ýmsar aðferðir eru teknar fyrir til að tryggja áreiðanleika eða minnka áhrif óvissu.

Full Transcript

2025-02-04 Beita líkaninu í seinasta tíma til að álykta um áreiðanleika Áreiðanleiki og áreiðanleikastuðlar Auðun Valborgarson 04.02.2025 1 Efni dagsings Frá forsendum til áreiðanleikastuðla (e. reliabili...

2025-02-04 Beita líkaninu í seinasta tíma til að álykta um áreiðanleika Áreiðanleiki og áreiðanleikastuðlar Auðun Valborgarson 04.02.2025 1 Efni dagsings Frá forsendum til áreiðanleikastuðla (e. reliability coefficients). Áreiðanleikastuðlar. Áhrif áreiðanleika á mælingu. Búa til áreiðanleikastuðla til að áætla um áreiðanleika prófsins 2 1 2025-02-04 Áreiðanleikastuðlar Áreiðanleiki prófa er fræðilegur (e. theoretical) og við getum ekki fundið hann Mælt gildi = Raungildi + Villa beint í raunverulegum aðstæðum. Getum ályktað (e. estimate) um áreiðanleika og mælivillu (e. error) með raunvísum (e. empirical) gögnum, þ.e. byggðum á athugun. 3 Áreiðanleiki: Frá kenningu yfir í praktík Minnispróf er lagt fyrir, Fjöldi bókstafa sem lagðir hafa verið á minnið þátttakendur leggja á Tími 1 Tími 2 minnið bókstafi og eiga 8 8 svo að endurtaka þá. 6 5 7 8 9 9 6 7 6 7 5 4 5 5 9 9 12 13 4 2 2025-02-04 Áreiðanleiki: Frá kenningu yfir í praktík Fjöldi bókstafa sem lagðir hafa verið á minnið Tími 1 Tími 2 Skoða fylgni milli mælingana í öðruveldu = áreiðanleiki 8 8 6 5 7 8 9 9 6 7 6 7 5 4 5 5 9 9 𝑅 í í = 𝑟í í = 0,96 = 0,92 12 13 cor(tími1, tími2) = 0,96 Fylgnin milli þessara tveggja mælinga er þá áreiðanleikinn á prófinu 5 Frá forsendum til áreiðanleikastuðla Glæran á undan erum við að gera ráð fyrir að prófið sé hliðstætt Hliðstæð (Parallel) Prófið uppfyllir allar forsendur CTT. Jafngild (Tau-equivalent). Prófið uppfyllir flestar forsendur CTT. Nærri jafngild (Essentially tau- equivalent) Prófið uppfyllir flestar forsendur CTT, en prófatriði eru misþung. Samstofna (Congeneric). Líkan sem setur minnstar takmarkanir á forsendur CTT. Þessar forsendur skipta máli um hvernig við getum áætlað áreiðanleikann 6 3 2025-02-04 Það sem við vonust til Hliðstæð próf þess að vera að meta Of vítt A - Hliðstæð próf B - Það sem við vonumst til þess að vera að meta C - Of vítt Rönkkö, M., & Cho, E. (2020). An Updated Guideline for Assessing Discriminant Validity. Organizational Research Methods. https://doi.org/10.1177/1094428120968614 7 Svör próftaka á þremur atriðum Raungildið Dreifing atriðis Það eina sem skiptir máli fyrir samstofna er að röðin sé alltaf rétt 8 4 2025-02-04 Test Models Assumptions,a Implications, and Valid Indices of Reliability úr Næstum jafngild Hliðstæð Jafngild Samstofna Furr, R. M. (2021). Psychometrics (4th edition). SAGE Publications, Inc. (US). (Essentially Tau- (Parallel) (Tau-Equivalent) (Congeneric) Equivalent) Forsendur (e. Assumptions) Að villa sé tilviljunarkennd (forsenda 2 í CTT) Já Já Já Já Einvíð (e. Unidimensionality) Já Já Já Já Línuleg tengsl á milli raungildis og svarmynstra á prófi Já Já Já Já Hallatala (e. slope) raungildis b = 1 (þáttahleðslur í þáttagreiningu) Já Já Já Nei Skurðpunktur (e. intercept) raungildis a = 0 Já Já Nei Nei Dreifni villu er eins (t.d. s2e1 = s2e2 ) Já Nei Nei Nei Uppfylla Áhrif (e. Implications) CTT: 𝑋 =𝑋 𝑋 =𝑋 𝑋 =𝑎+𝑋 𝑋 = 𝑎 + 𝑏𝑋 𝑟 = 1.0 Já Já Já Já 𝑠 =𝑠 Já Já Já Nei 𝑋 =𝑋 Já Já Nei Nei 𝑋 =𝑋 Já Já Nei Nei 𝑅 =𝑅 og 𝑟 =𝑟 Já Nei Nei Nei 𝑠 =𝑠 Já Nei Nei Nei Tegundir áreiðanleikastuðla Hliðstæð próf (e. Alternate forms) Já Nei Nei Nei Endurprófunar áreiðanleiki (e. Test–retest) Já Nei Nei Nei Helmingunar áreiðanleiki (e. Split-half) Já Nei Nei Nei Alpha Já Já Já Nei Omega Já Já Já Já 9 Endurprófunar á - fylgni skoðuð milli mælinga hjá sama einstaklingi Tegundir af áreiðanleikastuðlum Notaðir í mismunandi aðstæðum til að svara mismunandi spurningum Innri - Segir til um hversu vel atriðin hafa tengsl sín á milli Ehv true score sem á að koma fram í öllum atriðum (t.d. hræðsla við kaungulær) Hvert atriði er mini test og fylgnin er mæld á milli þeirra og það er innri ár. (viljum hafa hann háan) Tegund villu Áreiðanleikastuðlar Tegund Mæla allar jafn mikið og gefa sama áreiðanleika Úrtak prófatriða Hliðstæða Áreiðanleiki hliðstæðra prófa (alternative- Tvær próf útgáfur ættu að skila sömu niðurstöðum (content sampling) (Parallel) forms reliability) Stöðugleiki Endurprófunar áreiðanleiki Breyting hjá próftökum (Stability) (test-retest-reliability) Innri stöðugleiki Helmingunar áreiðanleiki Úrtak prófatriða (Internal consistency) (split-half-realiability) Cronbach's alpha Tvíkostabreytur - KR20 Omega Samkvæmni matsmanna (inter-rater Stöðugleiki matsmanna Kappa reliability) Hversu sammála matsmenn eru um mat Intraclass correlation 10 5 2025-02-04 Áreiðanleiki hliðstæðra prófa Gerum ráð fyrir tilviljunarkenndri villu Viljum að prófútgáfa 1 hafi háa fylgni við próf 2 Ef við getum sagt að tvö próf séu hliðstæð getum við skoðað fylgnina á milli prófanna. Fylgnin er þá áreiðanleikastuðull hliðstæðra prófa. Til þess að geta sagt að tvö próf séu hliðstæð þurfa þau að uppfylla: Raungildi útgáfu 1 er það sama og í útgáfu 2. Villudreifing útgáfu 1 er sú sama og í útgáfu 2. Villa er tilviljunarkennd (i,ii,iii samanber forsendur CTT). Hætta á millihrifum (carryover effect), þ.e. að fyrri mæling hafi áhrif á þá seinni. Getum komið í veg fyrir með því að skipta í tvo hópa 11 Áreiðanleiki hliðstæðra prófa Fylgnin á milli Heildartala á Heildartala á prófi 1 prófi 2 Þátttakandi tekur tvö próf sem eru hliðstæð 12 6 2025-02-04 Endurprófunaráreiðanleiki Minna vesen heldur en hliðstæða, því þetta er hliðstætt próf því sama prófið Sami einstaklingur fer í sama próf eftir ehv tíma, þá uppfyllum við allar forsendurnar Ef við leggjum sama prófið fyrir tvisvar sinnum getum við skoðað fylgnina á milli tímapunkts 1 og tímapunkts 2. Fylgnin er þá áreiðanleikastuðull endurprófunar. Endurprófunaráreiðanleiki gefur okkur upplýsingar um stöðugleika hugsmíðar. Forsendur þess að hægt sé að meta endurprófunaráreiðanleika: Raungildi tíma 1 er það sama og í tíma 2. Villudreifing tíma 1 er sú sama og í tíma 2. Villa er tilviljunarkennd (i,ii,iii samanber forsendur CTT). Hætta á millihrifum. 13 Endurprófunar áreiðanleiki Fylgnin á milli Heildartala á Heildartala á prófi sama prófi Nokkrum vikum seinna 14 7 2025-02-04 Innri áreiðanleiki Metum hvert einasta prófatriði sem mini próf og fylrnin á milli þeirra er innri áreiðanleikinn Próf Hvert próf samanstendur af atriðasafni. Atriði 1 Meðhöndlum hluta af Fylgni á milli atriðasafninu sem sér próf og Atriði 2 atriða athugum tengslin milli hluta. Atriði 3 Fylgni á milli prófhlutanna eða atriðanna er þá innri áreiðanleiki. Há fylgni gefur til kynna innri stöðugleika hugsmíðar – tengsl mælds gildis við raungildi. 15 Innri áreiðanleiki Lengd prófa hefur áhrif á innri áreiðanleika. Löng próf eru líklegri til að hafa hærri áreiðanleika en stutt próf. Með því að fjölga prófatriðum aukum við vonandi dreifni raungildis meira en villu, þannig eykst áreiðanleikinn. Einsleitni (homogeneity) úrtaks hefur áhrif á innri 𝑠 áreiðanleika. 𝑅 = 𝑠 + 𝑠 Ef próftakar eru einsleitur hópur minnkar dreifing á þeim Viljum að breytileikinn í true score sé eiginleika sem verið er að mæla og áreiðanleiki lækkar. sá mestur Getum aukið áreiðanleika með því að auka fjölbreytni Áreiðanleiki í einsleitu úrtaki verður mjög lár Áreiðanleikinn er úrtaksbundinn, háðir (hetrogenity) raungildis meira en dreifingu villu. þeim hóp sem við erum að meta Áreiðanleiki er því úrtaksbundinn. 16 8 2025-02-04 Áhrif fjölda atriða á innri áreiðanleika samkvæmt CCT Módelið tekur ekki mið af öðrum þáttum, sem hafa áhrif á að áreiðanleikinn hækki 17 Ólíkar leiðir til að reyna að meta innri áreiðanleika Innri áreiðanleiki Einfaldasta leiðin og elsta 𝟐𝒓𝒉𝒉 Helmingunaráreiðanleiki 𝑹𝑿𝑿 = h = prófhelmingur 𝟏 𝒓𝒉𝒉 Ef við leggjum fyrir próf og skiptum prófinu í tvo hluta, getum við skoðað fylgni á milli helmings 1 og helmings 2. Fylgnin er þá kölluð helmingunaráreiðanleiki. Vandi! Hvernig eigum við að skipta prófinu í tvennt? 18 9 2025-02-04 Innri áreiðanleiki Fylgni milli mismunandi prófhluta er mismunandi hár, sem er merki um að þeir meti hlutina ekki alveg eins, búin að brjóta að hlutarnir tveir séu hliðstæðir Helmingunaráreiðanleiki Ef við leggjum fyrir próf og skiptum prófinu í tvo hluta, getum við skoðað fylgni á milli helmings 1 og helmings 2. Fylgnin er þá kölluð helmingunaráreiðanleiki. Vandi! Hvernig eigum við að skipta prófinu í tvennt? Fylgnin þyrfti að vera sú sama á milli hlutanna H1 H2 H1 H2 Próf A04 A01 A04 A03 A01 A02 A05 r = 0,5 A02 A05 r = 0,8 A02 A03 A06 A03 A06 Ef munurin á milli er of mikið mun alpha vanmeta A03 áreiðanleikann A04 H1 H2 H1 H2 A05 A02 A01 A06 A04 r = 0,7 r = 0,9 A06 A04 A03 A02 A05 A06 A05 A03 A01 19 Innri áreiðanleiki Cronbach's alpha Tvíkostabreytur - KR20 Er meðaltal allra hugsanlegra helmingunar- Byggir á sömu hugmynd og áreiðanleika. Cronbach’s alpha en búið að Alpha nálgunin er ekki eins ströng um aðlaga jöfnu fyrir tvíkosta breytur. forsendur og hliðstæð próf. Já/Nei eða 0/1 𝒌 𝒌 Chronback 20, bara alpha nema fyrir tvíkosta 𝛼= eða 𝛼 = 1 − 𝒌 𝟏 𝒌 𝟏 𝛼= 𝒌 1 − ∑ 𝒌 𝟏 pq = hlutafall réttra og rangra svara k = fjöldi atriða á prófi 𝑐 = Summa samdreifni á milli allra atriða 𝑠 = Dreifni heildartölu 𝑠 = Dreifni heildartölu 20 Meðaltal allra helminguleika áreianleika, undir þeirri forsendu að prófin séu jafngild (sem þau eru oft ekki) 10 2025-02-04 Innri áreiðanleiki 21 áreiðanleikinn en hvert atriði hefur ehv áhrif á hann Hvar liggur villan? 22 11 2025-02-04 Innri áreiðanleiki Þáttahleðslurnar hversu mikið atriðið mælir fyrirbærið Að hve miklu leiti true score útskýrir ehv hegðun Getur metið áreiðanleikann út frá þáttahleðslunum Omega Reiknum áreiðanleikastuðul út frá þáttagreiningu (e. factor analysis), fáum upplýsingar um merki og suð. Merkið er tengt þáttahleðslu (e. factor loding) atriðis; há þáttahleðsla bendir til tengsla atriðis við raungildi undirliggjandi þáttar. Hefur marga kosti fram yfir alpha gildi. Samband af trueskori, deilt með sambandi af truescore + villa ∑𝜆 Á𝑟𝑒𝑖ð𝑎𝑛𝑙𝑒𝑖𝑘𝑖 = 𝜔= ∑𝜆 + ∑𝜃 + suð Σ(𝜆 ) = 𝑠𝑢𝑚𝑚𝑎 þá𝑡𝑡𝑎ℎ𝑒ð𝑠𝑙𝑎 𝑎𝑡𝑟𝑖ð𝑎 𝑖, Σ 𝜃 = 𝑠𝑢𝑚𝑚𝑎 𝑣𝑖𝑙𝑙𝑢, 𝑠𝑎𝑚𝑑𝑟𝑒𝑖𝑓𝑛𝑖 á 𝑚𝑖𝑙𝑙𝑙𝑖 𝑎𝑡𝑟𝑖ð𝑎 𝑖 𝑜𝑔 𝑗 23 Omega-áreiðanleikastuðullinn tengist þáttahleðslum Atriði/ sýnileg hegðun Raungildi/ undirliggjandi fyrirbæri 24 12 2025-02-04 Áreiðanleiki og staðalvilla mælingar Hvernig við notum áreipanleikastuðlana Staðalvillan (standard error of messurement) segir okkur hver meðalvilla mælingarinnar er.Tökum áreiðanleikan og færum hann yfir á sama mælikvarða og prófið okkar Kostur: Staðalvilla mælingar á sama mælikvarða og það sem verið er að meta. Staðalvillan hækkar ef áreiðanleikinn minnkar og öfugt 𝐬𝐞𝐦 = 𝐬𝐨 𝟏 − 𝐑 𝐱𝐱 Meta áreiðanleika til að fá mat s er staðalfrávik mælingar á villu mælingarninnar 𝑅 er áreiðanleiki mælingar Áreiðanleiki mælingar: 𝑅 = 0.98 Áreiðanleiki mælingar: 𝑅 = 0.89 Kostur er að þá er þetta komið á sömu Meðal hæð: M = 173,21 cm mælieiningu og hjá mer Meðal stig : M = 50 stig Staðalfrávik: S = 6,37 cm Staðalfrávik: S = 10 stig Vikmörk Staðalvilla mælingar: 𝐬𝐞𝐦 = 0,90 cm Staðalvilla mælingar: 𝐬𝐞𝐦 = 3,3 stig Þetta eru þá vikmörkin/ öryggisbilið 25 Áreiðanleiki og staðalvilla mælingar Staðalvilla gefur til kynna meðalmun á milli mælds gildis og raungildis. Há staðalvilla þýðir að það sé mikill munur á milli mælda gildisins og raungildisins og þar af leiðandi lágur áreiðanleiki. Munið að hægt er að túlka áreiðnleika sem 𝑅 =1 − Ef áreiðanleiki 𝑅 = 1 þá er staðalvillan 0. Dæmi um breytingu á staðalvillu mælingar eftir áreiðanleika mælitækis. Hér er staðalfrávikið = 10. Staðalvillan getur ekki verið stærri 8.9 en dreifing mælda gildisins. Mikil óvissa Staðalvilla mælingar 7.8 6.7 5.6 4.4 3.3 2.2 1.1 0.0 Lítil óvissa Viljum hafa dreifnina og villuna okkar sem lægsta 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Áreiðanleiki 26 13 2025-02-04 Punktgildi (e. point estimate) Mælt gildi einstaklings sem á að spá fyrir um raungildi einstaklings. „Ein mæling er engin mæling“ Aðhvarf að meðaltali (regression to the mean). Ef próftaki fær öfgagildi á prófi er líklegt að næsta skor á sama prófi sé nær meðaltali. Getum leiðrétt punktgildið með því að nota meðalskor og áreiðanleika prófsins. 𝑿𝒆𝒔𝒕 = 𝑿𝒐 + 𝑹𝒙𝒙 𝑿𝒐 − 𝑿𝒐 X er skor á prófi X er meðal skor á prófi 𝑅 𝑒𝑟 á𝑟𝑒𝑖ð𝑎𝑛𝑙𝑒𝑖𝑘𝑖 prófs 27 Öryggisbil (e. confidence interval) Í stað þess að reyna að birta raungildið á einum punkti, gefum við gildið á öryggisbili. Öryggið vísar í það hlutfall tilvika sem við viljum að öryggisbilið innihaldi raungildið, við endurteknar mælingar. Öryggisbil geta verið (68%,90%,95%,99%). Við það að auka öryggi bilsins aukum við spönn þess. Reiknum öryggisbil út frá staðalvillu. 𝑋 ± (1,96)(𝑠𝑒 ) Z-score fyrir 95% vikmörk 95 % öryggisbil 28 14 2025-02-04 Öryggisbil Áreiðanleiki hefur áhrif á öryggisbil. Lágur áreiðanleiki = meiri óvissa í mati. Hár áreiðanleiki = minni óvissa í mati. Sambandið á milli áreiðanleika og öryggisbilsins Meiri áreiðanleiki, þrengra öryggisbil 29 Áreiðanleiki og fylgni Fylgnistuðlar eru háðir áreiðanleika Áreiðanleiki hefur áhrif á fylgni r = 0,5 Rxx = 0,6 Ryy = 0,6 milli tveggja breyta. Lágur áreiðanleiki setur þak á fylgnistuðla. Hægt er að leiðrétta fylgnina. Sömu gögn nema noise á efra r = 0,85 Rxx = 0,9 Ryy = 0,9 𝑟 Áreiðanleikinn er þak á fylgnina Ef áreiðanleikinn er lár getur fylgnin aldrei verið hærri en ehv ákveðið 30 15 2025-02-04 Áreiðanleiki og áhrifsstærð Áreiðanleikinn hefur áhrif á þetta 31 Próffræði klassíska raungildislíkansins Ef niðurstöður á prófi hafa enga dreifingu gefur prófið okkur engar upplýsingar um próftaka. Við viljum reyna að hámarka dreifingu niðurstaðna á prófi til þess að fá sem mestar upplýsingar um próftaka. Ef dreifing á prófi er mjög skekkt geta próftakar ekki fengið ákveðin gildi á prófinu. Þegar próf aðgreinir illa á milli þeirra sem hafa há gildi er sagt að prófið hafi rjáfurhrif (cealing effect). Þegar próf aðgreinir illa á milli þeirra sem hafa lág gildi er sagt að prófið hafi gólfhrif (floor effect). 32 16