Estadística TEMA 2 PDF

Summary

Aquest document conté notes sobre l'organització de dades i bases de dades, incloent temes com la codificació, introducció, depuració i transformacions de dades. També explica conceptes com valors atípics, valors absents, distribució de freqüències i quantils. Ofereix exemples per a comprendre aquests temes.

Full Transcript

TEMA 2. ORGANITZACIÓ DE DADES Bases de dades Codificació, introduccióde dades, depuració, transformacions i tractament de fitxers Abans de començar l’anàlisi hem de revisar que no hi ha errors a la base de dades. Comprovem: No hi ha valors impossibles. Per exemple, una variable ordinal de 1 a 4...

TEMA 2. ORGANITZACIÓ DE DADES Bases de dades Codificació, introduccióde dades, depuració, transformacions i tractament de fitxers Abans de començar l’anàlisi hem de revisar que no hi ha errors a la base de dades. Comprovem: No hi ha valors impossibles. Per exemple, una variable ordinal de 1 a 4, no pot tindre com valor un 11. Tots els valors estén codificats correctament. No queda cap valor sense codificar. Els valors perduts es corresponen realment amb respostes incompletes. COM? examinant les taules de freqüències de cada variable (a continuació) Valors atípics També coneguts com OUTLIERS Són valors inusuals, generalment per estar en l’extrem superior o inferior de l’escala de mesura de la variable. Un valor molt diferent a la resta. Es poden identificar, la qual cosa resulta necessària ja que poden distorsionar les conclusions. Afecten a la tendència central, la variabilitat i les relacions entre variables. Un valor molt diferent a la resta. Valors absents/perduts Qualsevol base de dades pot presentar dades absents, que no han sigut registrats. Habitualment solen aparèixer perquè la persona no ha consignat eixa dada (per exemple, no ha contestat a eixa pregunta). Haurem d’explorar el grau de valors perduts que presenten les variables quan comencem a treballar amb una nova base de dades. N’hi ha diversos motius pels què podem trobar dades absents: MCAR (Missing Completely At Random). Pèrdua aleatòria, les dades absents són independents. Per exemple, a una persona se li oblida contestar una pregunta d’una enquesta. MAR (Missing At Random). La pèrdua d’una dada en una variable depèn d’una altra variable. Per exemple, a les persones que no tenen fills no se’ls pregunta quants nets tenen (un 0 en nfills implica un NA en nnets). NMAR (Not Missing At Random). La pèrdua depèn del valor de la variable. Per exemple, una persona amb demència no serà capaç de contestar un test per a avaluar el seu estat cognitiu. QUÈ FEM AMB ELS VALORS PERDUTS? ELIMINACIÓ. Dels casos: si hi ha pocs casos amb NA i a més són MCAR. De les variables: si hi ha variables amb molts valors perduts. IMPUTACIÓ. “Simple”: substituïm la dada absent per una estimació. Per exemple, per la mitjana de la variable. Múltiple. Tipus d’imputació molt complexa, fora de l’abast de l’assignatura. DISTRIBUCIÓ DE FREQÜÈNCIES Les freqüències d’una variable són una característica descriptiva que ens permet conèixer quants casos hi ha i de quin tipus són. Diversos tipus de freqüències: ABSOLUTES ABSOLUTES ACUMULADES RELATIVES RELATIVES ACUMULADES FREQÜÈNCIES ABSOLUTES (ni ). Nombre de vegades que es repeteix cadascun dels valors d’una variable. La suma de totes les freqüències absolutes representa el total de la mostra (n). Exemple: Variable “Penses que hi ha vida després de la mort?” FREQÜÈNCIES ABSOLUTES ACUMULADES (na). Nombre de vegades que es repeteixen certs valors d’una variable. FREQÜÈNCIES RELATIVES (pi ). Quocient entre la freqüència absoluta (ni ) d’una modalitat de la variable i el total de la grandària de la mostra (n). Es pot expressar en proporció (0 a 1) o en percentatge (%). FREQÜÈNCIES RELATIVES ACUMULADES (pa). Quocient entre la freqüència absoluta acumulada (na) d’una modalitat de la variable i el total de la grandària de la mostra (n). Es pot expressar en proporció (0 a 1) o en percentatge (%). Com podem presentar aquesta informació de manera resumida? Mitjançant una DISTRIBUCIÓ DE FREQÜÈNCIES És una taula que resumeix la informació disponible d’una variable. Se situen els valors de la variable per files i en les columnes es disposen els valors de les freqüències absolutes, les freqüències relatives... INTRODUCCIÓ ALS QUANTILS Els quantils són MESURES DE POSICIÓ perquè ens diuen quin lloc ocupa una puntuació respecte al total de puntuacions. Indiquen una POSICIÓ RELATIVA respecte a un grup. Un cas específic dels quantils són els PERCENTILS (també anomenats CENTILS). Són 99 valors de la variable que la divideixen en 100 seccions iguals. NO es poden calcular en variables categòriques QUARTILS: 25%, 50% 75% i 100% Per exemple, un C50 (centil 50) = 6.5 ens indica que el 50% del grup ha obtingut PUNTUACIONS INFERIORS a 6.5. Mediana= Q2= C50 Valor atípic: La persona de la fila 4 està molt per baix de la mitjana. C25=P25=Q1→ Hi ha 25% de persones per davall de 3,5 de puntuació C75=P75=Q3→ 75% de persones per damunt de 4,75 de puntuació 25% Màxim

Use Quizgecko on...
Browser
Browser