Curs 3_4 PDF
Document Details

Uploaded by RevolutionaryPrudence3781
Tags
Summary
This document provides an overview of survey methodology, including techniques for pilot studies, sample selection, handling non-response issues, and various imputation methods. It discusses different methods for handling missing data in surveys, such as hot-deck and cold-deck imputation, and considers the practical implications of each method.
Full Transcript
Ancheta pilot Informaţii ce pot fi furnizate de ancheta pilot sunt: Cheltuielile şi durata probabilă a anchetei. Proporţia anticipată de non-răspunsuri totale si partiale si cauzele acestora. În cazul în care nu se cunosc suficiente informaţii în urma organiză...
Ancheta pilot Informaţii ce pot fi furnizate de ancheta pilot sunt: Cheltuielile şi durata probabilă a anchetei. Proporţia anticipată de non-răspunsuri totale si partiale si cauzele acestora. În cazul în care nu se cunosc suficiente informaţii în urma organizării anchetei pilot se pot opţiune informaţii despre gradul de variabilitate al populaţiei şi structura acesteia. Cel mai important rol al anchetei pilot îl reprezintă pretestarea chestionarului. Extragerea eşantionului În această etapă se stabileşte: planul de sondaj procedeul de extracţie mărimea eşantionului, precizia teoretică a estimatorilor Probleme ridicate: 1. Cunoaşterea, chiar cu o aproximaţie, dispersia populaţiei sau o estimaţie a acesteia 2. Caracteristica în raport cu care se calculează volumul eşantionului 3. Modul în care urmează să fie analizate rezultatele 4. Restricţii de ordin financiar volumul eşantionului de pornire 1 1 1 n p = nth Pr Pe Pv Problema nonraspunsurilor intrebarea nr. Chest 1 2.. j …. p 1 Nonrăspuns partial 2 … i Nonrăspuns total … npornire Non-răspunsurile determina: - cresterea erorii de reprezentativitate prin diminuarea volumului eşantionului. - modificarea structrurii eşantionului, non-respondenţii formând o subpopulaţie aparte A. Metode de tratare a nonrăspunsurilor parţiale A.1. Metoda eliminării complete Dezavantaje: 1. odată cu ştergerea unităţilor ce conţin valori lipsă mărimea eşantionului disponibil se reduce simţitor fapt ce determină o scădere a preciziei estimaţiei; 2. este posibil ca indivizii cărora le corespund valorile lipsă (ce urmează să fie înlăturaţi din baza de date) să fie foarte diferiţi de cei rămaşi. Acest lucru va face ca estimatorii rezultaţi să fie puternic deplasaţi; 3. În schemele sondajelor complexe fiecărui individ îi este atribuită o greutate (pondere) ce poate reflecta printre altele şi probabilitatea cu care a fost selectată unitatea. Ştergerea din bază a unităţilor ce conţin valori lipsă este foarte probabil să invalideze schema de ponderare. A.2. Metoda imputaţiilor Notăm: yij = răspunsul pe care îl dă individului i din eşantionul E la întrebarea j (i=1,..,n, j=1,... ,p). (yi1,...., yip) vectorul format din raspunsurile individului i Fiecare poziţie de coordonate (i,j) unde avem valoare lipsa trebuie tratată separat, prin crearea unei valori y’ij numită ’’valoare atribuită’’ sau ’’imputaţie’’. Imputaţia predictivă prin mediere globală Se realizează înlocuind non-răspunsul de pe poziţia (i,j) cu media răspunsurilor care au fost obţinute la întrebarea j. r y'ij = y r, j = yij r i =1 Avantaje: înlocuirea valorii lipsă se face cu o valoare probabilă ceea ce îi dă un oarecare grad de stabilitate. subevaluare severă a dispersiei estimatorului pentru Dezavantaje: media sau totalul caracteristicii yj. Imputaţia predictivă prin mediere pe clase Este similară imputaţiei predictive prin mediere globală, cu deosebirea că nu se utilizează o singură ’’imputaţie’’, ci mai multe corespunzătoare unor clase în care a fost împărţită mulţimea respondenţilor. Astfel, partiţionăm mulţimea respondenţilor r la întrebarea j în q clase disjuncte. Identificăm clasa căruia îi aparţine individul şi construim imputaţia: k y'ij = y rjt = y ij k unde t ia valorile 1,..,q iar k este numărul de respondenţi din clasa respectivă. i =1 Avantaje: reduce gradul de subestimare a dispersiei estimatorului Imputaţia „hot-deck”. Este utilizată la scară largă deoarece, spre deosebire de imputaţia prin mediere globală sau pe clase, evită subestimarea dispersiei estimatorului. Etapa1: fişierul ce conţine baza de date este în prealabil sortat după caracteristicile demografice, economice sau sociale pe baza cărora se poate pune în evidenţă structura eşantionului. Etapa 2: Un registru de lucru este iniţializat cu valorile aferente câmpurilor cuprinse în prima înregistrare a unei caracteristici după care s-a realizat sortarea. Etapa 3: Fişierul se parcurge înregistrare cu înregistrare si fiecare câmp este identificat şi verificat să nu conţină valori lipsă. Etapa 4: În cazul în care unul din câmpuri conţine valori lipsă acesta va fi înlocuit cu valoarea corespunzătoare din registru. Nr. Mediul NVINST F_ANG Venit 1 1 1 1 2,5 2 1 2 3 2,6 3 1 2 - 3,8 Registru de lucru 4 1 3 1 4 5 1 3 1 - 6 1 3 - 4 Mediul NVINST F_ANG Venit 7 1 3 2 4,5 1 1 1 2,5 8 1 4 1 8 1 2 3 2,6 9 1 4 1 8 1 3 1 4 10 1 4 2 - 1 4 1 8 11 1 4 2 12 2 1 1 2,5 12 2 1 1 2,5 2 2 2 2,8 13 2 1 2 1,8 2 3 3 3 14 2 2 2 2,8 2 4 4 1,6 15 2 2 - - 16 2 2 1 2,8 17 2 3 3 3 18 2 3 1 3,1 19 2 3 3 2 20 2 4 4 1,6 Fisier sortat dupa mediul de provenienta si nivel de instruire Nr. Mediul NVINST F_ANG Venit 1 1 1 1 2,5 2 1 2 3 2,6 3 1 2 3 3,8 Avantaje: 4 1 3 1 4 5 1 3 1 4 6 1 3 1 4 7 1 3 2 4,5 reduce gradul de subestimare a 8 1 4 1 8 dispersiei estimatorului şi deplasarea 9 1 4 1 8 estimatorilor 10 1 4 2 8 11 1 4 2 12 12 2 1 1 2,5 13 2 1 2 1,8 14 2 2 2 2,8 15 2 2 2 2,8 16 2 2 2 2,8 17 2 3 3 3 18 2 3 1 3,1 19 2 3 3 2 20 2 4 4 1,6 Se recomanda în cazul în care exista mai multe valori lipsa ca registrul de lucru sa conţina mai mult de o singură înregistrare corespunzătoare unei caracteristici după care s-a sortat fişierul. Aceste înregistrări vor fi supuse unei rotaţii în timpul procesului de imputare. Imputaţia aleatoare. Constă în alegerea aleatoare din mulţimea respondenţilor sau dintr-o clasă a unui ’’donator’’ h din mulţimea de r respondenţi la întrebarea j. În acest caz avem: y'ij = y hj Este o variantă a imputaţiei hot-deck Imputaţia obiectivă. La baza acestei metode stă generarea unei ecuaţii de regresie pe baza setului de date ce conţin înregistrări complete ale variabilei ce urmează a fi supuse procesului de imputare. Ecuaţia poate avea următoarea formă: y = b0 + b1 x1 + b2 x 2 +...... + bk x k unde y este variabila ce urmează a fi imputată pentru valorile date ale variabilelor xi, i=1,…,k corelate cu variabila y. Avantaje: Imputaţia se armonizează cu restul înregistrărilor individului respectiv. reduce gradul de subestimare a dispersiei estimatorului şi deplasarea estimatorilor Metoda imputaţiilor multiple Metoda constă în umplerea fiecărei celule corespunzătoare unei valori lipsă cu una, două sau mai multe imputaţii şi analizarea fiecărui set de date. Combinând rezultatul acestei analize cu rezultatul inferenţei statistice vom lua în consideraţie şi nivelul de incertitudine introdus de valorile lipsă. Etapa 1. Se stabilesc variabilele auxiliare care sunt puternic corelate cu variabila pentru care trebuie sa tratăm non-răspunsurile şi se sortează fişierul după aceste variabile. Etapa 2. Se parcurge fişierului ce conţine tabelul indivizi-variabile înregistrare cu înregistrare şi identificarea şi numărarea valorilor lipsă (MV1…..MVk). Fiecare valoare lipsă se tratează individual. Etapa 3. Se identifică valorile variabilelor auxiliare corespunzătoare înregistrării ce conţine o valoare lipsă. Etapa 4. Valoarea lipsa i ar putea fi substituită de oricare din valorile corespunzătoare altor înregistrări ce au aceleaşi valori în câmpul variabilelor auxiliare considerate. Notăm cu Ci numărul de variante posibile corespuzătoate unei valori lipsă (MVi). Se procedează în mod similar pentru toate valorile lipsă determinând pentru fiecare valorile cu care acestea pot fi înlocuite. Numărul de combinaţii posibile este C1xC2x….Ck. Etapa 5. Pentru fiecare combinaţie se va obţine un set de date şi se va calcula media şi eroarea de reprezentativitate. Etapa 6 Estimatorul mediei populaţiei se calculează ca medie a mediilor seturilor de date. k x i xi este media combinaţiei k. x= i =1 = k Etrapa 7 Pentru construirea unui interval de încredere pentru media populaţiei care să ia în considerare incertitudinea introdusă prin folosirea imputaţiei este necesară calcularea unei variaţii totale a estimatorului (mediei). Aceasta este formată din două componente: variaţia interioară (S2int) ce reprezintă media variaţiilor faţă de mediile estimate, condiţionate de valoarea imputaţiei şi variaţia dintre mediile estimate pe baza diferitelor valori ale imputaţiilor (S2ext). K 2 S 2 int = x k i =1 i 2 1 k S 2 ext = 1 + (xi − x ) /(k − 1) k i =1 Var ( x ) = S 2 int +S 2 ext A. Metode de tratare a nonrăspunsurilor totale B.1 Reselecţia pentru non-respondenţi Este o metodă utilizată pentru tratarea non-răspunsurilor totale. Dacă timpul şi bugetul alocate sondajului permit, se poate face o reselecţie pentru non- respondenţi. Împărţim în mod formal populaţia de volum N în două straturi: cel al respondenţilor de volum N1 şi cel al non-respondenţilor de volum N2. Figura 3.3.4 Organizarea reselecţiei pentru nunrespondenţi Faza 1 Faza 2 Respondenti n1 Respondenti n1 y 1 = y i n1 N1 i =1 m y Non-respondenti n2 m y2 = i m i =1 Non-respondenti N2 n1 n2 y= y1 + y2 n n B.2. Metoda post-stratificării şi a calibrării generalizate Utilizarea acestor metode necesită utilizarea unor informaţii deteliate privind repartiţiile încrucisate după mai multe variabile auxiliare, o dotare tehnică superioară şi un soft specializat. Verificarea reprezentativitatii esantiounului x − X0 zc = H0: x = X0 şi H1: x X0. 2 n w−p zc = H0: w= p şi H1: w p p (1 − p ) n Verificarea concordantei repartitiilor Testul 2 H0: ft= fe şi H1: ftfe ft reprezintă frecvenţele teoretice fe frecvenţele empirice f ti = Fti N n Fti frecvenţa corespunzătoare a grupei i din populaţie k (f ei − f ti )2 c = 2 i =1 f ti Daca c 2 2 ;df df=k-1 Esantionul nu este reprezentativ Testul Kolmogorov –Smirnov Testul Kolmogorov –Smirnov este o extindere a testului Kolmogorov pentru verificarea concordantei dintre o repatritie empirica si una teoretica 1. Stabilirea frecvenţelor absolute in populatie si in esantion 2. Calcularea frecventelor cumulate crescator 3. Calcularea funcţiilor de repartiţie empirice F(xP) şi F(xE) prin raportarea frecventelor cumulate la total 4. Se calculeaza diferentele pe clase. Pe baza diferentei maxime se calculeaza statistica testului: n1n2 c = max F ( xP) − F ( xE). n1 + n2