Statistika - Sažetak za Usmeni i Pismeni PDF
Document Details
Tags
Summary
Ovaj sažetak pruža pregled osnovnih pojmova iz statistike, uključujući uvod, vrste statistike, varijable i konceptualne osnove. Ovaj materijal je koristan za studente na dodiplomskom nivou.
Full Transcript
STATISTIKA Statistika – uvod ŠTO JE, DAKLE, STATISTIKA? pomoćna disciplina u društvenim znanostima utemeljena na numeričkim metodama i tehnikama skup numeričkih metoda i tehnika koje upotrebljavamo u svrhu opisivanja, proučavanja i objašnjenja masovnih...
STATISTIKA Statistika – uvod ŠTO JE, DAKLE, STATISTIKA? pomoćna disciplina u društvenim znanostima utemeljena na numeričkim metodama i tehnikama skup numeričkih metoda i tehnika koje upotrebljavamo u svrhu opisivanja, proučavanja i objašnjenja masovnih pojava znanost o metodama istraživanja masovnih pojava matematička statistika (teorijska statistika): bavi se zakonitostima koje vrijede za slučajne događaje statistika – grana primijenjene matematike KORIŠTENJE I SVRHA STATISTIKE praćenje stručne i znanstvene literature obrada podataka radi njihove deskripcije, analize i interpretacije generalizacija rezultata s uzorka na populaciju kontrola mjernih instrumenata planiranje faza istraživanja ili eksperimenta (veličina i vrsta uzorka, kontrolna -1- i eksperimentalna grupa i sl.) social statistics – statističke procedure koje se najčešće koriste u društvenim znanostima (nije nekakva posebna vrsta statistike) VRSTE STATISTIKE: 1. DESKRIPTIVNA - OPISUJE (podatke s uzorka) 2. INFERENCIJALNA - ZAKLJUČUJE (o populaciji) 3. EKSPLIKACIJSKA - OBJAŠNJAVA (pojave) 1. Deskriptivna statistika velik broj podataka (npr. prikupljenih metodom ankete ili na neki drugi način) nemoguće je sagledati i razumjeti bez statističkih metoda i tehnika koje koristimo da bismo podatke prikazali na sažet, razumljiv i logičan način prosječna vrijednost položaj nekog podatka u grupi varijabilitet povezanost Deskriptivna statistika opisuje podatke dobivene mjerenjem nekih pojava na uzorku 2. Inferencijalna statistika statističko zaključivanje = zaključivanje s uzorka na populaciju u statistici zaključujemo o populaciji (osnovnom skupu) na temelju uzorka parametri i statistici omogućuje generalizaciju nalaza dobivenih mjerenjem provedenim na ograničenom broju entiteta 3. Eksplikacijska statistika Matematičko-statistički modeli kojima se neka pojava nastoji objasniti Statistika – varijable Operacionalizacija «prevođenje» teorijskih definicija u mjeriv oblik Instrument skup operacionaliziranih karakteristika namijenjen nekom (jednostavnom ili složenom) predmetu mjerenja Mjerenje jednoznačno pridruživanje odgovarajućih karakteristika -2- (atributa) nekom skupu objekata (entiteta) prema određenim pravilima Entiteti skup objekata koji imaju jedno ili više zajedničkih svojstava Atributi karakteristike (svojstva) VARIJABLA je promjenjiva veličina (KARAKTERISTIKA, ATRIBUT) koja poprima različite vrijednosti iz nekog unaprijed definiranog ili poznatog skupa vrijednosti u skladu s nekim pravilom (zakonom). sociološki rečeno: pojava ili proces definiran u operacionalnom smislu moguće ga je mjeriti te rezultate iskazati kvantitativno ili kvalitativno budući da u statistici mjerimo varijable prema zakonu slučaja riječ je o slučajnim varijablama diskontinuirane (diskretne) i kontinuirane Primjeri: spol, broj djece u obitelji (diskontinuirane) visina, težina ispitanika (kontinuirane) kvalitativne (kategorijalne) i kvantitativne (numeričke) Primjeri: nacionalna pripadnost, socijalni status (kvalitativne) broj bodova na nekom testu, nadmorska visina (kvantitativne) zavisne i nezavisne (uzrok - posljedica) NOMINALNA VARIJABLA Klasifikacija mora biti POTPUNA (iscrpna) Kategorije moraju biti međusobno ISKLJUČIVE DA/NE, SLAŽEM SE/NE SLAŽEM SE ORDINALNA VARIJABLA kvalitativan stupanj posjedovanja nekog svojstva, razdvajanje obrazovanja NSS SSS VSS, razine slaganja ili ne slaganja Ordinalne varijable su one kod kojih između bilo kojih dviju vrijednosti možemo -3- uspostaviti relaciju "veće od", odnosno "manje od", te shodno tome vrijednosti svrstati prema pripadajućim rangovima. INTERVALNE VARIJABLE uključuju sve karakteristike nominalnih i ordinalnih varijabli, ali dodaje još i sljedeću mogućnost: o između dvaju rezultata može se uspostaviti i količinska razlika dakle: bilo za koji rezultat poznat nam je i KVANTITATIVNI STUPANJ POSJEDOVANJA NEKOG SVOJSTVA (karakteristike) to je moguće stoga, što intervalne varijable posjeduju jedinicu mjerenja Rezultat "nula" (0) ne znači odsustvo svojstva, nego ako se gledaju npr. koševi koje je netko zabio za vrijeme utakmice, ako netko ne zabije ni jedan ne znači da ne zna igrati košarku, dakle ne znači odsustvo svojstva. OMJERNA VARIJABLA ako nam je poznato koliko puta je neki rezultat veći od nekog drugog, odnosno, ako možemo rezultate uspoređivati u odnosu na neku realnu (stvarnu) nultu točku stavljajući ih u omjere riječ je o OMJERNIM VARIJABLAMA primjerice, entitet koji ima 40 kg, dvostruko je teži od entiteta koji ima 20 kg i četverostruko teži od onog s 10 kg Dakle, omjerne varijable su one kod kojih rezultate mjerenja možemo uspoređivati u smislu koliko puta je neki rezultat veći/manji od nekog drugog. Rezultat "nula" znači ODSUSTVO mjerenog svojstva. APSOLUTNE VARIJABLE nastaju kao rezultat PREBROJAVANJA riječ je nesumnjivo o količini, dakle o kvantitativnom obilježju također: nula znači odsustvo pojave (postoji tzv. apsolutna nula) postoji i mjerna jedinica (jedna knjiga, jedno dijete) pa se rezultati mogu količinski uspoređivati -4- Kao omjerne, samo su tu CIJELI BROJEVI diskontinuirana kvalitativna STATISTIKA - APSOLUTNI I RELATIVNI BROJEVI APSOLUTNI BROJEVI = rezultati dobiveni prikupljanjem informacija o predmetu mjerenja, u jedinici mjerenja, sređeni u skladu s odgovarajućim pravilom (primjer s A i B osoba koje su kupile auto, osoba A je potrošila 200 tisuća kuna, a osoba B 7 tisuća kuna) RELATIVNI BROJEVI = statistički pokazatelji izračunati iz apsolutnih brojeva po nekom pravilu u svrhu usporedbe i interpretacije (ali osoba A zarađuje milijarde kuna svake godine, a osoba B 10 tisuća kuna svake godine i onda je u relativnoj vrijednosti osoba B potrošila više) Najjednostavniji statistički pokazatelji su proporcije, odnosno postoci ○ riječ je o tzv. relativnim pokazateljima (relativnim brojevima) proporcije, a ne postoci, predstavljaju prirodni pokazatelj dijela u odnosu na cjelinu PROPORCIJU neke klase definiramo kao omjer podatka za neku klasu (Ni) prema ukupnom broju slučajeva (N) Kontingencijske tablice su tablice raspodjele frekvencija, govore o odnosu dviju nominalnih (ili nominaliziranih varijabli), pokazuju učestalost pojedinih vrijednosti s obzirom na kombinacije kategorija tih varijabli. U kontingencijskoj tablici možemo razlikovati: varijablu reda (čije su potklase u redovima kontingencijske tablice) varijablu stupca (čije su potklase u stupcima kontingencijske tablice) ćelije (moguće kombinacije potklasa varijable reda i varijable stupca koje dobivamo njihovim križanjem) rubne frekvencije (frekvencije na desnom i donjem rubu tablice, koje iskazuju univarijatne distribucije varijable reda i varijable stupca) Indeks je relativan broj koji pokazuje promjenu pojave prema veličini koja je uzeta za bazu usporedbe Računaju se za tzv. vremenske nizove Vremenski niz = kronološki uređene vrijednosti neke pojave opažene u različitim intervalima vremena ili vremenskim točkama -5- Indeksi opisuju stanja jedne ili više pojava u nekom vremenskom intervalu u različitim trenucima i/ili na različitim mjestima: ○ jedne pojave (INDIVIDUALNI INDEKSI) – uspoređujemo pojedinačne frekvencije ○ skupine pojava (SKUPNI, odnosno GRUPNI INDEKSI) – uspoređujemo frekvencije koje predstavljaju skupine veličina Postoje dvije vrste individualnih indeksa: ○ Indeksi sa stalnom bazom (BAZNI INDEKSI) gledaju se promjene pojave u odnosu na baznu godinu ○ Indeksi s promjenjivom bazom (VERIŽNI INDEKSI) gledaju se promjene pojave u odnosu na prethodnu godinu Relativni brojevi koordinacije - brojevi pomoću kojih jedinice jednog vremenskog niza uspoređujemo s jedinicama drugog niza koji smo izabrali kao bazu usporedbe ○ dobivamo odgovor na pitanje KOLIKO JEDINICA JEDNOG NIZA DOLAZI NA 1, 10, 100, 1000, … JEDINICA DRUGOG NIZA (onda manji broj dijelimo s većim i onda pomnožimo s 10/100/1000 ovisno kaj smo odabrali) Primjeri: ○ narodni dohodak po stanovniku ○ broj TV pretplatnika na 100 stanovnika ○ broj liječnika na 1000 stanovnika Relativna promjena – postotak promjene pojave u dvije uzastopne točke vremenskog niza u odnosu na iznos pojave u promatranom razdoblju Upozorenje 1: slično indeksu (verižnom), ali razlika je sljedeća: - relativna promjena: promjena u odnosu na promatrano razdoblje - verižni indeks: promjena u odnosu na prethodno razdoblje promatrano razdoblje -6- STATISTIKA - VRSTE TABLIČNOG I GRAFIČKOG PRIKAZIVANJA PODATAKA Osnovno pravilo pri pisanju bilo koje vrste istraživačkog izvještaja: NIKAD NE PRIKAZUJTE ISTE PODATKE I TABLIČNO I GRAFIČKI! tablica mora sadržavati: 1. naslov, 2. zaglavlje, 3. ukupnost pojave, 4. izvor/referenca, 5. napomene svaki bi grafički prikaz trebao imati: 1) naslov, 2) naziv x-osi (mogućih rezultata x ili kategorija), 3) naziv y-osi; vrijednosti (npr. frekvencije po stupcu ili dijelu strukturnog kruga) i 4) legendu (ako je primjenjiva) Za potrebe deskriptivne statistike u sociološkim istraživanjima najčešće se koristite sljedeće vrste grafikona: 1. POLIGONI 2. HISTOGRAMI FREKVENCIJA (Frekvencija (učestalost) pojedinog rezultata) 3. STUPCI Obični ili jednostavni Razdijeljeni ili podijeljen Razdvojeni ili višestruki 4. Strukturni krug i polukrug 5. Ostalo Faktor laganja definira se kao omjer efekta na grafikonu i efekta u podacima -7- STATISTIKA - MJERE CENTRALNE TENDENCIJE - centralna tendencija nam pokazuje gdje tendira centar distribucije te mjere centralne tendencije pokazuju je li rezultat generalno visok ili nizak Deskriptivna obrada podataka kvantitativnih varijabli: Empirijske distribucije frekvencija kvantitativnih varijabli razlikuju se (i opisuju) prema: ○ po točki gomilanja podataka (najčešći rezultat, središnji podatak, prosječni rezultat). Ovisno o tipu, razlikuju se MJERE CENTRALNE TENDENCIJE ○ po načinu i jačini raspršenja (tipovi varijabiliteta). Ovisno o tipu i vrsti distribucije, razlikuju se MJERE DISPERZIJE ○ po tome je li distribucija simetrična ili nije: MJERE ASIMETRIJE ○ po frekventnosti točke gomilanja, u usporedbi s normalnom distribucijom: MJERE ŠILJATOSTI/SPLJOŠTENOSTI Mjere centralne tendencije općenito su: ○ onaj rezultat prema kojem gravitiraju svi ostali rezultati ○ točka najvećeg gomilanja podataka ○ vrijednost središnjeg rezultata kad su rezultati poredani po veličini ○ rezultat koji se mjerenjem najčešće dobiva Ovisno o vrsti varijabli, razlikujemo dvije osnovne skupine mjera centralne tendencije: ○ POZICIJSKE MJERE CENTRALNE TENDENCIJE (još se zovu i središnje vrijednosti) - koristimo ih za ordinalne varijable (ali nije ih besmisleno računati ni za kvantitativne varijable) - njihov je iznos determiniran POLOŽAJEM (rangom) rezultata - ima ih smisla računati kad su rezultati ordinalne varijable “gravitirajućeg” tipa (kad je njihova distribucija “gaussovska”) - osnovna im je prednost (ali i nedostatak!) što ne ovise o ekstremnim vrijednostima - najvažnije takve mjere su MEDIJAN (centralna vrijednost) i MOD (modalna vrijednost) ○ IZRAČUNATE MJERE CENTRALNE TENDENCIJE -njihova je vrijednost pod utjecajem svakog izmjerenog rezultata (dakle i onih ekstremno visokih i ekstremno niskih, koji ne moraju uvijek biti pouzdani) -8- njihova je reprezentativnost tim slabija - što je manji broj podataka, to je manja njihova vjerodostojnost, što je veći iznos ekstremnih rezultata (eng. outlier) i što ih je veći broj, to će više “odvlačiti” reprezentant distribucije prema ekstremnim (višim ili nižim) vrijednostima - nema ih smisla računati kod distribucija koje nisu Gaussova tipa - najvažnije (ali ne i jedine) jesu: aritmetička sredina, kvadratna sredina, geometrijska sredina i harmonijska sredina ARITMETIČKA SREDINA – prosječna vrijednost ODREĐENJE Aritmetička je sredina rezultat koji je prosječna vrijednost svih rezultata neke varijable. Naziva se i prosječna vrijednost (ne: srednja, središnja, tipična ili dominantna vrijednost!) Može se računati i iz negrupiranih i iz grupiranih rezultata. Uputno je aritmetičku sredinu računati iz negrupiranih rezultata. MEDIJAN — Medijan je onaj rezultat koji se nalazi u sredini niza po veličini poredanih rezultata neke varijable Medijan se najčešće računa za rezultate mjerenja na ordinalnoj varijabli, ali se može računati i na rezultatima intervalne i omjerne varijable. Često se koristi kao mjera centralne tendencije kod unimodalnih distribucija kvantitativnih varijabli koje nisu normalno distribuirane. Ekstremne vrijednosti (outliers) manje utječu na medijan nego na aritmetičku sredinu. MOD - tipična ili dominantna vrijednost varijable. To je vrijednost koja se najčešće dobiva u mjerenju neke slučajne varijable (najčešća, najčešće izmjerena vrijednost). Prema tome, mod je i najvjerojatniji podatak. Proporcija (udio) nekog podatka naprema svim podacima, dakle, podrazumijeva vjerojatnost. Na mod ne utječu ekstremne vrijednosti rezultata mjerenja na varijabli (outliers). Ima smisla određivati mod samo kad je distribucija unimodalna, tj. kad ima -9- jedan najčešći podatak. STATISTIKA - POZICIJSKE (POLOŽAJNE) MJERE DISTRIBUCIJE FREKVENCIJA Mjere centralne tendencije (pa i pozicijske m.c.t.) koriste se da bismo opisali gomilanje podataka, i to samo u onim distribucijama u kojima centralna tendencija postoji. !!!!!!!!!!!!!!!!!!! Pozicijske mjere služe za utvrđivanje / opisivanje količine podataka u određenim dijelovima distribucije frekvencija, bez obzira na njezin oblik. !!!!!!!!!!!!!!!!!!! Jednima i drugima zajedničko je to što pripadaju u područje deskriptivne statistike te se smiju računati samo na rezultatima kvantitativnih varijabli (eventualno ordinalnih, no nikako ne nominalnih). MEDIJAN može biti i (pozicijska) mjera centralne tendencije i pozicijska mjera za određivanje količine podataka. Pozicijske mjere: Pozicija (položaj) tih mjera može se promatrati na dva načina : prvi je od njih kad su rezultati poredani prema veličini od najmanjega do najvećega. U tom slučaju promatraju se neki određeni rezultati, odnosno rezultati na određenim mjestima. s druge strane, može se promatrati količina (proporcija ili postotak) rezultata ispod neke vrijednosti (od početka distribucije do te vrijednosti), iznad neke vrijednosti (od zadane vrijednosti do kraja distribucije) ili između dviju zadanih vrijednosti. Važno je upamtiti da sve ove mjere označuju vrijednosti (iznose) rezultata na ljestvici mjerenja (varijabli), a ne označuju količinu podataka. Oni jesu određeni količinom podataka, ali sami ne znače količinu. Prema tome, može se reći vrijednost medijana iznosi... ili vrijednost je sedmog decila..., ali se ne može i ne smije reći u trećem kvartilu ima 25% - 10 - podataka... ili u četvrtom decilu ima 10% podataka KVARTILI Kvartili su one 3 (tri) vrijednosti sa skale mjerenja koje dijele distribuciju frekvencija rezultata na 4 (četiri) PO POVRŠINI, odnosno po količini rezultata jednaka dijela. Dakle, u postocima, količina rezultata u svakom od ta četiri dijela iznosi 25%. Prema položaju u nizu rezultata od najmanjeg do najvećeg kvartile nazivamo prvi ili donji kvartil, drugi kvartil ili medijan te treći ili gornji kvartil. Drugi kvartil ili medijan onaj je rezultat dijeli površinu ispod krivulje što opisuje distribuciju frekvencija rezultata na dva dijela: prvi je od tih dijelova jednak drugom dijelu prema površini ili količini rezultata. Kaže se i da medijan definira polovicu rezultata nižih iznosa i polovicu rezultata viših iznosa, odnosno – jednostavnije – da medijan dijeli distribuciju na dva po količini podataka jednaka dijela. Medijan (drugi kvartil) jest i pozicijska mjera i mjera centralne tendencije. Kao mjera centralne tendencije smislen je kad postoji centralna tendencija, tj. kad rezultati teže (tendiraju) prema nekoj vrijednosti, medijan uvijek funkcionira kao pozicijska mjera, tj. u svakoj distribuciji frekvencija dijeli distribuciju na dva jednaka dijela prema kriteriju količine (broja) rezultata, bez obzira na oblik distribucije! DECILI Između dvaju susjednih decila nalazi se 10% podataka. Ispod prvog decila (od „početka” distribucije do prvog decila) nalazi se također 10% podataka. Isto tako, iznad devetog decila (od devetog decila do „kraja” distribucije) ima 10% podataka. Decili ne označuju količinu podataka, oni su vrijednosti varijable koje su zadane količinom podataka smještenom između njih. Prema tome, podaci se ne nalaze i ne mogu se nalaziti u decilu! Podaci su smješteni ispod decila, iznad decila ili između decila. Između susjednih decila uvijek je jednak „razmak” samo prema kriteriju količine rezultata koji se između njih nalaze (ne nužno i razmak na skali mjerenja, tj. na X osi). Peti decil (D5 ) dijeli distribuciju na dva jednaka dijela prema količini - 11 - podataka. Prema tome, njegova je vrijednost jednaka drugom kvartilu ili medijanu. CENTILI/PERCENTILI Kao što decili dijele distribuciju na deset jednakih dijelova, tako je percentili dijele na sto dijelova jednakih prema količini (broju) rezultata. Takva je podjela distribucije možda nekim strukama katkad potrebna; u sociologiji je to iznimno rijetko. STATISTIKA - DISPERZIJA (RASPRŠENJE) REZULTATA U DISTRIBUCIJI FREKVENCIJA Kad je riječ o slučajnim varijablama, postoji točka gomilanja rezultata (podataka) (centralna tendencija). Također, rezultati se pravilno raspršuju oko te točke gomilanja, a mjere disperzije pokazuju koliko je i kakvo je to raspršenje. Disperzija se, dakle, odnosi na varijabilnost podataka oko neke točke gomilanja podataka. Disperzija govori o homogenosti / heterogenosti nekog skupa podataka. Svrhe mjera disperzije: Govore u kojim se granicama i s kojom učestalošću javljaju pojedini rezultati. Na temelju mjera disperzije međusobno su usporediva bilo koja dva podatka, a nisu usporedivi samo u odnosu na aritmetičku sredinu. Upozoravaju na reprezentativnost pojedinih mjera centralne tendencije, posebice odgovor na pitanje je li bolji reprezentant distribucije aritmetička sredina ili medijan. Vrste mjera disperzije: Apsolutne: Raspon varijacija Aritmetička devijacija Varijanca i standardna devijacija Poluinterkvartilno raspršenje -> Apsolutne mjere disperzije izražene su u istim jedinicama u kojima smo mjerili slučajnu varijablu. Primarno opisuju raspršenje podataka na univarijatnoj razini oko pojedine mjere centralne tendencije. Relativne: Koeficijent varijacija Koeficijent kvartilne devijacije -> Relativne mjere disperzije izražavaju se u relativnim brojevima (ponajprije - 12 - proporcijama i postocima). Služe za komparaciju disperzije različitih distribucija, ali i za određivanje reprezentativnosti mjera centralne tendencije. - 13 - - 14 - - 15 - - 16 - - 17 - STATISTIKA – Z VRIJEDNOSTI Kvantitativne varijable s različitim jedinicama mjerenja nisu međusobno neposredno usporedive, ali se rezultati s tih skala mogu ipak međusobno uspoređivati na zajedničkoj standardiziranoj skali z-vrijednosti. Standardizirana vrijednost (z-vrijednost) generalizacija je standardne devijacije te s pomoću z-vrijednosti nastaje standardizirana i univerzalna skala (ljestvica), zajednička skala svim varijablama kod kojih su aritmetička sredina i standardna devijacija legitimne mjere. Takvu je skalu smisleno upotrebljavati za „pristojne”, tj. normalne (Gaussove) ili približno normalne (gausovske) distribucije frekvencija rezultata. SKALA STANDARDNIH DEVIJACIJA Skala standardnih devijacija dijelom je standardizirana skala. Naime, iznos standardne devijacije izražava se u jedinici mjerenja -> prema tom kriteriju skala standardnih devijacija nije standardizirana. ! Međutim, za normalne distribucije vrijedi da je količina rezultata različitih distribucija frekvencija u intervalu omeđenom dvama rezultatima koji za isti iznos standardnih devijacija odstupaju od aritmetičke sredine uvijek stalna. -> Prema tom kriteriju skala standardnih devijacija jest standardizirana skala - 18 - Dakle u bilo kojoj distribuciji koja je normalna će se rezultati gomilati kao na slici lijevo te će zbog toga skala z vrijednosti biti upotrebljiva jer će se onda preko nje moći uspoređivati kvantitativne varijable s različitim jedinicama mjerenja. Dakle, teorijski rezultat može d neograničeni broj puta biti udaljen od aritmetičke sredine, što bi značilo da postoji i neograničen broj standardnih devijacija – ali na praktičnom primjeru vidimo da se u -3s i +3s nalazi 99,73% rezultata – dakle teorijski (ovo sa +3,-3) nije tako. Z-VRIJEDNOST Z-vrijednost je broj standardnih devijacija za koji je neki rezultat X distribucije frekvencija neke kvantitativne varijable udaljen od aritmetičke sredine te distribucije, tj. to je razlika vrijednosti zadanog rezultata X od aritmetičke sredine podijeljena iznosom standardne devijacije te distribucije frekvencija. Predznak z-vrijednosti govori je li rezultat na izvornoj skali manji ili veći od prosjeka. rezultati manji od aritmetičke sredine -> negativni predznak, z- vrijednosti rezultati veći od aritmetičke sredine -> pozitivni predznak z- vrijednosti - 19 - Ako standardizirane z vrijednosti ovise o standardnoj devijaciji koja za svoj standardni broj odstupa od aritmetičke sredine, kako se onda može koristiti za ne normalne distribucije? – može se standardizirati, ali onda z vrijednost neće biti relevantna, odnosno neće biti valjana jer aritmetička sredina kao M.C.T. nije valjana za distribucije koje nisu gaussaste. - 20 - to se koristi u onim zadacima kada je potrebno navesti baš navesti broj rezultata, a ne postotak rezultata - 21 - - 22 - - 23 - - 24 - - 25 - - 26 - STATISTIKA - MJERE OBLIKA DISTRIBUCIJE: MJERE ASIMETRIJE I MJERE ZAKRIVLJENOSTI Normalna je distribucija frekvencija kontinuirane kvantitativne varijable simetrična u odnosu na mjere centralne tendencije. I aritmetička sredina i medijan i mod normalne distribucije frekvencija imaju jednaku vrijednost, DAKLE SIMETRIČNA JE AKO SU JOJ SVE M.C.T. NA ISTOM MJESTU GDJE JE SREDINA RASPONA VARIJACIJA. SIMETRIJA JE KRITERIJ ZA ODREĐIVANJE MJERA ASIMETRIJE. Frekvencija rezultata udaljenih za jednak iznos od mjera centralne tendencije potpuno je jednaka. Vrijednost mjera centralne tendencije kod normalne je distribucije frekvencije jednaka vrijednosti sredine raspona varijacija. Asimetrija je odstupanje bilo koje mjere centralne tendencije od sredine raspona varijacija -> to znači da je distribucija frekvencija asimetrična ako vrijednost aritmetičke sredine ili medijana ili moda nije jednaka vrijednosti sredine raspona varijacija (sredina raspona varijacija: xmin – xmax/2 + xmin). Asimetrija se, dakle, utvrđuje prema gomilanju podataka u odnosu na - 27 - sredinu raspona varijacija. VRSTE ASIMETRIJE Vrijednosti mjera centralne tendencije mogu odstupati od vrijednosti sredine raspona varijacija prema nižim (manjim) vrijednostima od sredine raspona varijacija ili prema višim (većim) vrijednostima. Prema tom se odstupanju razlikuju: lijevo asimetrične distribucije i desno asimetrične distribucije. LIJEVA ASIMETRIJA: kada je učestalost rezultata mjerenja veća na nižim (manjim) vrijednostima (poredak: Mo, Mdn, ar. sr.) DESNA ASIMETRIJA: kada je učestalost rezultata mjerenja veća na većim (višim) vrijednostima (poredak: ar. sr., Mdn, Mo) - 28 - Prvi je kriterij užasno blag i velika je većina distribucija po njemu simetrična, što nije, bolji je stroži kriterij iako su najbolji načini za određivanje asimetrije upravo formule za izračun mjera asimetrije. - 29 - - 30 - STATISTIKA – INFERENCIJALNA STATISTIKA Numeričke tehnike koje se rabe radi zaključivanja o populaciji, a na temelju - 31 - podataka dobivenih na reprezentativnom uzorku iz populacije. Sami po sebi, uzorak i statistici uopće nas ne zanimaju; zanima nas populacija Želimo poopćiti rezultate dobivene na uzorku, generalizirati ih na populaciju Inferencijalna statistika uključuje statističke procjene i testove koji pokazuju s kolikom vjerojatnošću možemo rezultate dobivene na uzorku generalizirati na populaciju. Zadaća inferencijalne statistike: statističke procjene, testiranje hipoteza… POPULACIJA I UZORAK - 32 - POPULACIJA (POPULATION) : Teorijski definiran skup svih entiteta (elemenata populacije) koji nas zanimaju, koje želimo opisati i o njima zaključivati. - 33 - Npr. Stanovništvo Hrvatske Populacija obuhvaća sve osobe s hrvatskim državljanstvom na dan XY POPULACIJA ISTRAŽIVANJA (STUDY POPULATION) Skup elemenata iz kojega je doista izabran uzorak Npr. Uzorak studenata i studentica sociologije moguće je odrediti na temelju popisa dobivenoga prozivkom nastavnika na predavanjima tijekom siječnja 2006. god. – populacija i populacija istraživanja vjerojatno se neće potpuno podudarati UZORAK (SAMPLE) Skup elemenata populacije na kojima je provedeno istraživanje Npr. Studenti i studentice sociologije prisutni na predavanjima 9. siječnja 2006. god. - 34 - - 35 -