Tema 3. Poblaciones y Muestras PDF
Document Details
Uploaded by ExquisiteConnotation2534
USC - Universidad de Santiago de Compostela
Tags
Summary
Este documento proporciona una descripción de las poblaciones y las muestras en estadística, incluyendo conceptos como poblaciones finitas e infinitas, marcos muestrales, censos, parámetros y estadísticos, y diferentes tipos de muestreo, como el aleatorio simple y estratificado. También se analiza la estimación de parámetros y el error de muestreo.
Full Transcript
Tema 3. Poblaciones y Muestras. Conceptos clave: → Población/Universo: conjunto de individuos o elementos, que representan la totalidad de individuos objeto de estudio, a los que se pretende generalizar los resultados 𝑍 2𝑃𝑄𝑁 o P...
Tema 3. Poblaciones y Muestras. Conceptos clave: → Población/Universo: conjunto de individuos o elementos, que representan la totalidad de individuos objeto de estudio, a los que se pretende generalizar los resultados 𝑍 2𝑃𝑄𝑁 o Población finita: N ≤ 100.000 𝑛 = 𝐸2 (𝑁−1)+𝑍 2𝑃𝑄 𝑍 2𝑃𝑄 o Población infinita: N > 100.000 𝑛= 𝐸2 → Marco muestral: Elementos muestrales que forman la población a estudiar, de los que se conocen ciertas características que los permite identificar (género, edad, nacionalidad, …). → Censo: listado completo de los individuos que componen una población. Imprescindible para poder extraer la muestra a analizar y esencial para el muestreo aleatorio. → Parámetro: Dato que se obtiene mediante una estadística a la población, de manera estimada. Característica poblacional que se desea estudiar. → Estadístico: Dato que se obtiene mediante una estadística a la muestra, con cálculos (Ej.: media, mediana, varianza...). Característica de la muestra analizada a partir de las observaciones disponibles. → Muestra: Subconjunto de la población. Lo ideal es que sea representativa; aleatoria y con tamaño proporcional. → Muestreo: Conjunto de procedimientos utilizados para la selección de una muestra representativa de la población. Todo estudio tiene un error de muestreo que depende de la proporcionalidad entre la población y la muestra. Para ser representativa debe ser escogida aleatoriamente, ser proporcional y tener un tamaño suficiente. → Fracción muestral: Proporción entre el tamaño de la muestra y el tamaño de la población (hemos seleccionado 1 de cada x sujetos de la población, n/N). Lo ideal es que la fracción muestral no sea inferior a 0,05 o 5% (entre 0,1 y 0,05). Tiene relevancia si son poblaciones finitas. → Error de muestreo: Lo fija el investigador en función del interés por el grado de precisión que quiera alcanzar salvo que venga impuesto por la disponibilidad económica. En investigación social los valores más habituales están entre 2% y 3% (nunca superior a 5%). → Estimación de parámetros: Procedimiento de inferencia que nos permite calcular los valores poblacionales a partir de la muestra. Permite pasa de un valor muestral a uno poblacional. o Puntual: dato exacto (la media es 20 años) o Por intervalos: intervalo entre dos valores (la media esta entre 19 y 20 años → Validez externa: Grado de representatividad de la muestra. Tiene que ver con el tamaño de la muestra y con su selección. → Nivel de confianza: Probabilidad de que las conclusiones sacadas de la muestra y aplicadas a la población sean correctas. Muestreo Probabilístico: → Características: o Disponemos de un censo o Cada sujeto tiene una probabilidad conocida de formar parte de la muestra o Selección aleatoria de las unidades muestrales o Permite la estimación de parámetros, con un error muestral conocido → Muestreo Aleatorio: o M.A. Simple: Todos los individuos de la población tienen la misma probabilidad de pertenecer a la muestra, puesto que se selecciona sobre el conjunto del censo, mediante afijación simple. No se sigue ningún criterio ni ninguna variable. o M.A. Estratificado: La población está dividida en estrados o subconjuntos homogéneos en base a determinadas características (Género, edad, estado civil, …) y se realizan una selección aleatoria dentro de cada uno para obtener representatividad y precisión en las estimaciones. Incluye dos opciones: Afijación simple: se atribuye el mismo peso a cada estrato (el n seleccionado es el mismo para cada uno de ellos) Afijación proporcional: se calcula el peso de cada estrato en la población y la muestra proporcional a cada estrato y se selecciona representando dicho peso o proporción. → Muestreo Sistemático/Pseudoaleatorio: Muy similar al aleatorio simple, pero se diferencia en la manera de seleccionar a los individuos de la muestra. Requiere que la población esté ordenada por algún criterio (orden alfabético) y consiste en ir seleccionando los individuos siguiendo algún patrón semi-aleatorio hasta completar la muestra necesaria. → Muestreo por Conglomerado: Las unidades muestrales no son los individuos sino un elemento de orden superior, como colegios, barrios, etc. a los que se denomina conglomerados. A partir de un censo, se escoge de forma aleatoria. → Muestreo Bietápico: Se establecen o distinguen unidades de diferente orden y el muestreo se lleva a cabo por etapas. En la primera se seleccionan las unidades de primer nivel (conglomerados) y la segunda los individuos. Si se establecen más de dos etapas se denomina polietápico. Muestreo No Probabilístico: → Características: o Selección de las unidades muestrales bajo un criterio distinto del azar o Existencia de sesgos o Útil en estudios exploratorios Ventajas Desventajas → Permite ahorrar recursos y tiempo → Puede incluir importantes sesgos → Permite un mayor control sobre la → El conocimiento que permite es situación aproximado → En muchos casos es la única solución → Se necesita el aval de expertos posible → Muestreo Intencionado/Conveniencia: Se seleccionan los individuos que convienen al investigador porque le son más próximo, conocidos, etc. La selección de la muestra es sencilla. Suele emplearse en estudios exploratorios, para comprobar si se cumplen las hipótesis iniciales que se plantea el investigador. → Muestreo Accidental/Incidental/fortuito: Los sujetos se eligen de manera casual, sin ningún juicio previo, que accidentalmente se encuentran a disposición del investigador. Permite hacernos una idea de la opinión/situación de la gente. Su resultado es meramente orientativo. Intencionado Accidental → Muestreo Bola de Nieve: Útil para estudiar poblaciones en las que no se conoce bien sus individuos, son de difícil acceso, localización o identificación (sectas, indigentes, grupos minoritario, etc.). Cada sujeto estudiado propone a otros (muestro por referidos) produciendo un efecto acumulativo parecido al de una bola de nieve. → Muestra por cuotas: Es similar al muestro accidental, pero busca corresponder a una cierta variabilidad. Corresponde al muestro aleatorio estratificado, pero sigue un método no aleatorio, no se guía por un censo, pero se determinan unos porcentajes para seguir la proporción de la población, por ello es la mejor opción de los muestreos no probabilísticos. Se determinan las subclases más importantes dentro de la población, ya se refieran a personas, grupos de edad, género, etc. Se determinan los porcentajes de cada una de ellas, lo que se conoce como cuotas. Se asignan las cuotas al encuestador y este intenta cubrirla de manera escrupulosa. Bola de Nieve Por Cuotas Muestra: → Factores que afectan en la representatividad de la muestra: o Población o Técnicas de muestreo o Tiempo y recursos o Margen de error o Varianza poblacional o Nivel de confianza → Variables que influyen en el tamaño de la muestra: o Tiempo y recursos disponibles (presupuesto) o Tamaño de la población (N): Finita (N ≤ 100.000) Infinita (N > 100.000) o Nivel de confianza: la probabilidad de que nuestras conclusiones sean correctas (99%/95%) Error tipo (𝛼): 0,01 o 0,05 Z: 2.57 o 1.96 Nivel de confianza Error tipo(𝛼) Z 99% 0,01 1,96 95% 0,05 2,57 o Varianza poblacional: cuanto más heterogénea sea la población mayor será su varianza y, por lo tanto, mayor será el tamaño de la muestra. P=Q=0.50 (Cuando no conocemos la varianza poblacional nos situamos en la situación más desfavorable donde la incertidumbre máxima). o Error muestral: lo fija el investigador en función de su interés por el grado de precisión que quiera alcanzar (salvo cuando venga impuesto por la disponibilidad económica); en investigación social, lo más habitual son valores comprendidos entre 2% y 3%. Nunca más del 5%. (A mayor muestra menor error, y a mayor erro menor muestra, aunque no se comporta proporcionalmente). → Determinación del tamaño muestral (Formulas de muestreo) Poblaciones Finitas (N ≤ 100.000) Poblaciones Infinitas (N > 100.000) 𝑁 ⋅ 𝑍2 ⋅ 𝑃 ⋅ 𝑄 𝑍2 ⋅ 𝑃 ⋅ 𝑄 𝑛= 𝑛= 𝐸 2 ⋅ (𝑁 − 1) + 𝑍 2 ⋅ 𝑃 ⋅ 𝑄 𝐸2 n = Tamaño de muestra buscado E = Error de estimación máximo aceptado N = Tamaño de la Población P = Probabilidad de que ocurra el evento estudiado (éxito) Z = Parámetro estadístico que depende del Q = (1-P) = Probabilidad de que no ocurra el Nivel de Confianza evento estudiado Casos prácticos 1.Determina el tamaño de la muestra necesario para hacer un estudio sobre los hábitos de ocio de los estudiantes gallegos de ESO, Bachillerato y FP, con un error máximo deseado del ±4% y un nivel de confianza del 95% (α=0.05). 1′962⋅50⋅50 N=125.000 (Infinita) Z=1,96 𝑛= = 600 𝑠𝑢𝑗𝑒𝑡𝑜𝑠 42 2.Determina el tamaño de la muestra necesario para hacer un estudio sobre los hábitos de ocio de los estudiantes gallegos de ESO, con un error máximo deseado del ±4% y un nivel de confianza del 95% (α=0.05). 86000⋅1′962⋅50⋅50 N= 86.000 (Finita) Z= 1.96 𝑛 = 4 2⋅85999+1′962⋅50⋅50 = 596 𝑠𝑢𝑗𝑒𝑡𝑜𝑠 3.Determina el tamaño de la muestra necesario para hacer un estudio sobre el uso de las redes sociales entre los estudiantes españoles de ESO, con un error máximo deseado del ±1% y un nivel de confianza del 95% (α=0.05). 1′962⋅50⋅50 N= 2.000.000 (Infinita) Z= 1.96 𝑛= 12 = 9604 𝑠𝑢𝑗𝑒𝑡𝑜𝑠 3.1.Y si con las mismas condiciones soy capaz de alcanzar una muestra de 41.509 estudiantes ¿cuál sería el error muestral asociado? N= 2.000.000 (Infinita) Z= 1.96 n=41.509 1′ 962 ⋅ 50 ⋅ 50 𝐸2 = ⇒ 𝐸 2 = 0′ 231 ⇒ 𝐸 = √0′ 231 ⇒ 𝐸 = 0′ 48% 41509 4. Afijación simple o “igual” N n=600 18-30: ? 150 31-43: ? 𝑛𝑖 = 𝑛 ⁄ 𝑛º 𝑑𝑒 𝑒𝑠𝑡𝑟𝑎𝑡𝑜𝑠 150 44-56: ? 150 57-65: ? 150 5.Afijación proporcional N n=600 18-30: 35% 210 31-43: 28% 𝑁𝑖 168 𝑛𝑖 = ⋅𝑛 44-56: 17% 𝑁 102 57-65: 20% 120 6.Determina el tamaño de la muestra necesario para hacer un estudio sobre los hábitos de ocio de los estudiantes de la USC, con un error máximo deseado del ±2% y un nivel de confianza del 95% (α=0.05). 25000⋅1′962⋅50⋅50 N= 25.000 (Finita) Z= 1.96 𝑛 = 22 ⋅(24999)+1′962⋅50⋅50 = 2190 𝑠𝑢𝑗𝑒𝑡𝑜𝑠 7.Determina el tamaño de la muestra necesario para hacer un estudio sobre la valoración del gobierno de la población gallega, con un error máximo deseado del ±3% y un nivel de confianza del 99% (α=0.01). N aprox.= 2.000.000 habitantes mayores de edad (Infinita) Z= 2.57 2′ 572 ⋅ 50 ⋅ 50 𝑛= = 1835 𝑠𝑢𝑗𝑒𝑡𝑜𝑠 32 8.Deseamos conocer la percepción que tienen las personas de 66 a 70 años del ayuntamiento de Sevilla en torno a cuestiones referidas a la seguridad ciudadana. A partir de los datos de la siguiente tabla, determina el tamaño de la muestra para un E = ± 4 y α=0.05. Luego realiza una afijación simple y una afijación proporcional. Completa la siguiente tabla. Edad Nᵢ % Nᵢ Proporción Nᵢ Af. Simple Af. Proporcional 66 11.000 25’6% 0’256 118 144 67 10.500 24’5% 0’245 118 138 68 8.000 18’6% 0’186 118 105 69 7.000 16’3% 0’163 118 91 70 6.400 15% 0’15 118 84 TOTAL 42.900 100% 1 562 562 N= 42900 α=0.05 ⇒ NC=95% ⇒ Z=1’96 𝑁 ⋅ 𝑍2 ⋅ 𝑃 ⋅ 𝑄 42900 ⋅ 1′ 962 ⋅ 50 ⋅ 50 412011600 𝑛= 2 2 = 2 ′ 2 = = 562 𝐸 ⋅ (𝑁 − 1) + 𝑍 ⋅ 𝑃 ⋅ 𝑄 4 (42899) + 1 96 ⋅ 50 ⋅ 50 696004