Temas 1-8 Producción Estadística Oficial PDF
Document Details
Uploaded by SecureBliss4137
2021
Tags
Summary
This document is a set of notes on topics 1-8 relating to official production statistics. The topics cover surveys, sampling techniques, and data collection methods. It includes various concepts, principles, and illustrative examples.
Full Transcript
O POSICIONES AL C UERPO S UPERIOR DE E STADÍSTICOS DEL E STADO BOE NÚM. 270, DE 12 DE OCTUBRE DE 2020, PÁG. 87165 Producción Estadística Oficial: Principios Básicos del Ciclo de Producción de Operaciones Estadísticas Grupo de Materias Co...
O POSICIONES AL C UERPO S UPERIOR DE E STADÍSTICOS DEL E STADO BOE NÚM. 270, DE 12 DE OCTUBRE DE 2020, PÁG. 87165 Producción Estadística Oficial: Principios Básicos del Ciclo de Producción de Operaciones Estadísticas Grupo de Materias Comunes INE 25 de julio de 2021 Índice general 1 Introducción a las encuestas y formulación de objetivos y marcos 1 1.1 Introducción a las encuestas y formulación de objetivos y marcos.... 1 1.2 Esquema general de una encuesta...................... 2 1.3 Muestreo probabilístico............................ 6 1.4 Marco muestral................................. 7 1.5 Marco de áreas y otros marcos......................... 12 1.6 Población marco y población objetivo.................... 14 1.7 Planificación de una encuesta......................... 16 1.8 Diseño total de una encuesta.......................... 19 Bibliografía....................................... 20 2 Ideas básicas sobre estimación en muestreo probabilístico 1 2.1 Ideas básicas sobre estimación en muestreo probabilístico......... 1 2.2 Diseño muestral................................. 3 2.3 Probabilidades de inclusión.......................... 4 2.4 La noción de estadístico............................ 6 2.5 Indicadores de pertenencia a la muestra................... 7 2.6 Estimadores y sus propiedades básicas.................... 8 2.7 El estimador Horvitz-Thompson (estimador π) y sus propiedades.... 13 2.8 Muestreo con reemplazamiento........................ 16 2.9 Efecto de diseño................................. 20 2.10 Intervalos de confianza............................. 21 Bibliografía....................................... 22 3 Estimación insesgada en diseños muestrales sobre unidades elementales I 1 3.1 Introducción................................... 1 3.2 Muestreo de Bernoulli............................. 2 3.2.1 Definición................................ 2 3.2.2 Estimadores, varianza y estimador de la varianza......... 4 3.3 Muestreo aleatorio simple sin reemplazamiento.............. 8 3.3.1 Definición................................ 8 3.3.2 Estimadores, varianza y estimador de la varianza......... 10 3.3.3 Estimación en dominios........................ 15 3.3.4 Comparación del muestreo aleatorio simple sin reemplazamiento y el muestreo de Bernoulli....................... 18 3.4 Muestreo aleatorio simple con reemplazamiento.............. 19 3.4.1 Definición................................ 19 3.4.2 Estimadores, varianza y estimador de la varianza......... 20 3.4.3 Comparación del muestreo aleatorio simple sin y con reemplaza- miento.................................. 22 Bibliografía....................................... 23 i Índice general 0-2 4 Estimación insesgada en diseños muestrales sobre unidades elementales II. 1 4.1 Introducción................................... 1 4.2 Muestreo sistemático: definición, estimadores, varianza del estimador. 2 4.2.1 El control del tamaño muestral.................... 7 4.3 La eficiencia del muestreo sistemático.................... 8 4.4 Problemática de la estimación de la varianza................ 14 Bibliografía....................................... 18 5 Estimación insesgada en diseños muestrales sobre unidades elementales III. 1 5.1 Introducción................................... 1 5.2 Muestreo de Poisson.............................. 2 5.2.1 Definición................................ 2 5.2.2 Estimadores, varianza y estimador de la varianza......... 3 5.3 Muestreo con probabilidades proporcionales al tamaño.......... 5 5.3.1 Muestreo sin reemplazamiento.................... 6 5.3.2 Muestreo con reemplazamiento.................... 14 Bibliografía....................................... 17 6 Estimación insesgada en diseños muestrales sobre unidades elementales IV 1 6.1 Muestreo estratificado: definición, estimadores, varianza y estimador de la varianza.................................... 1 6.1.1 Introducción y definición....................... 1 6.1.2 Estimadores, varianza y estimador de la varianza......... 5 6.2 Afijación óptima................................. 10 6.2.1 Afijación en el caso de múltiples variables de estudio....... 15 6.3 Otras afijaciones bajo muestreo aleatorio simple.............. 17 6.3.1 Afijación de Neyman.......................... 17 6.3.2 Afijación óptima con información auxiliar.............. 17 6.3.3 Afijación proporcional......................... 18 6.3.4 Afijación proporcional al total de la variable y........... 19 6.3.5 Afijación proporcional al total de una variable auxiliar...... 19 6.4 Comparación de la precisión del estimador de Horvitz-Thompson en muestreo aleatorio estratificado según el tipo de afijación y el muestreo aleatorio simple................................. 20 Bibliografía....................................... 25 7 Estimación insesgada en diseños muestrales por conglomerados I. 1 7.1 Definición, estimadores, varianza y estimador de la varianza....... 1 7.1.1 Introducción y definiciones...................... 1 7.1.2 Estimadores, varianza y estimador de la varianza......... 4 7.1.3 Muestreo por conglomerados aleatorio simple........... 9 Bibliografía....................................... 17 8 Métodos y gestión de la recogida de datos. 1 8.1 Introducción a los métodos de la recogida de datos............. 1 8.2 Métodos de recogida de datos básicos.................... 2 8.3 Recogida de datos asistida por ordenador.................. 4 Índice general Índice general 0-3 8.4 Otros métodos de recogida........................... 6 8.4.1 Observación directa.......................... 6 8.4.2 Intercambio electrónico de datos (EDI, Electronic Data Interchange) 6 8.4.3 Datos administrativos......................... 8 8.4.4 Modos combinados (Mixed-modes)................. 9 8.5 Introducción a la gestión de la recogida de datos.............. 11 8.6 Implementación de la encuesta........................ 12 8.7 Gestión activa del trabajo de campo..................... 14 8.8 Paradatos..................................... 16 8.9 Monitorización de la calidad de la respuesta................ 17 8.10 Monitorización del proceso de producción de una encuesta........ 18 8.11 Evaluación de la encuesta y el informe de calidad............. 19 Bibliografía....................................... 20 9 Introducción a la depuración e imputación de datos estadísticos en el proceso estadístico. 1 9.1 Introducción a la depuración e imputación de datos estadísticos en el proceso estadístico............................... 1 9.2 Datos, errores, datos ausentes y controles (edits).............. 3 9.2.1 Tipos de errores............................. 4 9.2.2 Tipos de datos missing......................... 7 9.2.3 Reglas de depuración......................... 8 9.3 Métodos básicos para la depuración e imputación de datos estadísticos. 11 9.3.1 Depuración durante la fase de recogida de datos.......... 12 9.3.2 Métodos modernos de depuración.................. 12 9.3.3 Métodos de imputación........................ 13 9.4 Estrategia de depuración e imputación.................... 17 Bibliografía....................................... 19 10 Introducción a la estimación en presencia de falta de respuesta. 1 10.1 Introducción a la estimación en presencia de falta de respuesta...... 1 10.2 Errores debidos al muestreo y a la falta de respuesta............ 3 10.3 Error cuadrático medio y sus componentes bajo falta de respuesta.... 5 10.4 Estimadores simples y sus sesgos debidos a la falta de respuesta..... 6 10.4.1 Vector auxiliar.............................. 7 10.4.2 Clasificación unidireccional...................... 7 10.4.3 Una sola variable auxiliar cuantitativa................ 11 10.4.4 Clasificación unidireccional combinada con un variable cuantitativa 13 10.4.5 Clasificación bidireccional....................... 15 10.4.6 Estimadores simples y su sesgo por falta de respuesta....... 16 Bibliografía....................................... 19 11 Imputación. 1 11.1 Introducción................................... 1 11.2 ¿Qué es la imputación?............................ 4 11.3 Terminología................................... 5 11.4 Múltiples variables de estudio......................... 8 Índice general Índice general 0-4 11.5 El enfoque de imputación completa..................... 9 11.6 El enfoque combinado............................. 10 11.7 El enfoque de reponderación completa.................... 11 11.8 Imputación por reglas estadísticas...................... 13 11.8.1 Imputación por regresión....................... 14 11.8.2 Imputación por el vecino más cercano................ 15 11.8.3 Imputación hot deck.......................... 15 11.8.4 Grupos de imputación......................... 16 11.8.5 Introducción de un residuo seleccionado aleatoriamente..... 17 11.9 Imputación por juicio del experto y por datos históricos.......... 18 Bibliografía....................................... 20 12 Control del secreto estadístico. 1 12.1 Conceptos y definiciones: Control del secreto estadístico, datos tabulares, microdatos, riesgo y utilidad......................... 1 12.2 Un enfoque el control del secreto estadístico: por qué la protección de la confidencialidad es importante, características clave y usos de los datos, riesgos contra los que la protección es necesaria, métodos de control del secreto, implementación............................ 5 12.2.1 Aplicación a resultados en tablas................... 5 12.2.2 Aplicación a microdatos........................ 10 12.3 Conclusiones................................... 18 Bibliografía....................................... 18 13 Difusión de datos: Presentación de estadísticas. 1 13.1 Introducción................................... 1 13.2 Transmitir el mensaje.............................. 1 13.3 Visualización de las estadísticas........................ 3 13.4 Tablas....................................... 6 13.5 Gráficos...................................... 8 13.6 Mapas...................................... 14 13.7 Técnicas de visualización emergentes.................... 18 13.8 Cuestiones de accesibilidad.......................... 19 Bibliografía....................................... 20 14 Record linkage. 1 14.1 Introducción................................... 1 14.2 Los datos administrativos en la estadística oficial.............. 3 14.3 Visión conjunta de los métodos........................ 7 14.3.1 El modelo de record linkage de Fellegi-Sunter............ 7 14.3.2 Parámetros de aprendizaje...................... 8 14.3.3 Comparadores de cadenas....................... 12 14.3.4 Datos de entrenamiento........................ 13 14.4 Preparación de los datos............................ 13 14.4.1 Descripción de un proyecto de matching............... 13 14.4.2 Preparación inicial de ficheros.................... 14 14.4.3 Estandarización y análisis sintáctico de nombres.......... 16 Índice general Índice general 0-5 14.4.4 Estandarización y análisis sintáctico de direcciones........ 17 14.4.5 Estandarización y normalización de registros administrativos.. 17 14.4.6 Resumen sobre el preprocesamiento................. 21 14.5 Caso práctico con registros administrativos................. 21 Bibliografía....................................... 22 15 Metadatos de la producción Estadística. I. 1 15.1 Introducción................................... 1 15.2 El modelo.................................... 2 15.2.1 La estructura.............................. 3 15.2.2 Aplicabilidad.............................. 4 15.2.3 El uso del GSBPM........................... 5 15.3 Relaciones con otros modelos y estándares................. 6 15.3.1 GAMSO................................. 6 15.3.2 GSIM................................... 7 15.4 Niveles 1 y 2 del GSBPM............................ 8 15.5 Descripciones de fases y subprocesos (fases 1 a 3)............. 10 Bibliografía....................................... 17 16 Metadatos de la producción Estadística. II. 1 16.1 Descripciones de fases y subprocesos (fases 4 a 8)............. 1 16.2 Procesos generales (overarching processes)................... 12 16.3 Otros usos del GSBPM............................. 16 16.4 Data Documentation Initiative (DDI), SDMX y comparación con el GSBPM 18 Bibliografía....................................... 20 17 Metadatos de la producción Estadística. III. 1 17.1 Introducción genérica al GSIM........................ 1 17.2 Introducción al Documento de Comunicación del GSIM.......... 2 17.3 Alcance...................................... 3 17.4 ¿Qué es el GSIM?................................ 3 17.5 Beneficios del GSIM para la organización como un todo.......... 7 17.6 Relación con otros modelos ModernStats: GSIM y GSBPM........ 9 17.7 ¿Qué implica para el estadístico?....................... 11 17.8 SDMX, DDI y otros estándares........................ 15 Bibliografía....................................... 20 18 La calidad en la estadística oficial y el Código de Buenas Prácticas de las Estadísticas Europeas. 1 18.1 El concepto de calidad en la estadística oficial................ 2 18.2 El Código de Buenas Prácticas de las Estadísticas Europeas........ 4 18.3 El marco de garantía de la calidad del Sistema Estadístico Europeo... 14 18.4 La calidad en los productos y en los procesos estadísticos......... 18 18.5 Sistemas de evaluación global de la calidad: auditorías, autoevaluación y revisiones por homólogos en las oficinas de Estadística.......... 21 Bibliografía....................................... 23 Índice general Tema 1 Introducción a las encuestas y formulación de objetivos y marcos. Es- quema general de una encuesta. Muestreo probabilístico. Marco mues- tral. Marco de áreas y otros marcos. Población marco y población objeti- vo. Planificación de una encuesta. Diseño global de una encuesta. Este tema está elaborado como una adaptación casi literal en español del capítulo 1 de la siguiente bibliografía: C.-E. Särndal, B. Swensson y J.H. Wretman (1992). Model assisted survey sampling. New York: Springer Esta documentación es orientativa y no es exclusiva ni única para el correcto desa- rrollo de este tema. Tampoco vincula al órgano convocante ni al Tribunal actuante. Aviso: El INE se reserva las acciones legales que pudieran corresponder por la venta de esta información. 1.1 Introducción a las encuestas y formulación de objetivos y mar- cos La necesidad de información estadística parece interminable en la sociedad moderna en que vivimos. En particular, se recogen datos de forma regular para satisfacer la necesidad de información sobre conjuntos específicos de elementos, llamados pobla- ciones finitas. Por ejemplo, nuestro objetivo puede ser obtener información sobre los hogares en una ciudad y sus comportamientos en materia de gastos, empresas en una determinada industria y sus beneficios, las personas de un país y su situación laboral, o las granjas de una región y su producción de cereales. Una de las formas más importantes de recogida de datos en la producción estadística oficial para satisfacer estas necesidades es una encuesta muestral, es decir, una investi- gación parcial de la población finita a través de una encuesta. Una encuesta muestral cuesta menos que un censo, es más rápida y puede ser, incluso, más acurada1 que los censos. 1 Empleamos el término acurado como traducción literal de accurate pensando en el indicador del error cuadrático medio, por distinción al término preciso, cuyo uso restringimos para referirnos solo a la varianza de estimador (véase más abajo). 1 1.2. Esquema general de una encuesta 1-2 A lo largo del siglo XX el muestreo con encuestas2 ha evolucionado hacia un conjunto de teorías, métodos y operaciones usadas diariamente en todo el mundo. En muchos países, se constituye legalmente un instituto nacional de estadística con el fin de proporcionar información estadística sobre la situación del país. Las encuestas son una parte importante de esta actividad. Por ejemplo, en España, el Instituto Nacional de Estadística (INE) se rige, básicamente, por la Ley 12/1989, de 9 de mayo, de la Función Estadística Pública (LFEP) 3 , que regula la actividad estadística para fines estatales, que es competencia exclusiva del Estado. Por tanto, los INEs producen regularmente estadísticas sobre características y activida- des nacionales importantes, incluyendo la demografía (distribución por edad y sexo, fertilidad, mortalidad), agricultura (distribución de las cosechas), población activa (em- pleo), salud y condiciones de vida, industria y comercio. Gran parte de la teoría básica de muestreo se desarrolló en oficinas de estadística. En las universidades, el muestreo es ampliamente utilizado, especialmente en sociología e investigación de la opinión pública, y también en economía, ciencias políticas y psico- logía. El muestreo ha crecido mucho y es un enfoque hoy día aceptado universalmente como forma de obtener información. Todos los años se dedican muchos recursos a realizar encuestas. Los medios de comunicación proporcionan al público resultados de encuestas nuevas o periódicas. Y es ampliamente aceptado que una muestra puede proporcionar una ima- gen acurada de una población más grande4 ; por ejemplo, una muestra bien seleccionada de unas miles de personas puede describir una población de varios millones. Sin embar- go, reunir los datos es muy costoso. Por tanto, por razones de efectividad de los costes, es imprescindible usar los mejores métodos disponibles para diseñar las muestras y para el cálculo de estimaciones, utilizar la información auxiliar, etcétera. 1.2 Esquema general de una encuesta Para empezar, necesitamos un esquema general de una encuesta y una terminolo- gía básica. Los términos encuesta (survey) y muestreo con encuestas (survey sampling) se usan para denotar investigaciones estadísticas que tienen las siguientes características metodológicas: 2 Traducimos survey sampling como muestreo con encuestas para hacer explícitos los dos elementos fundamentales de este modo de producir información (muestras y encuestas), que distinguirlo de otros (censos, registros administrativos, nuevas fuentes de datos digitales). 3 https://www.boe.es/buscar/doc.php?id=BOE-A-1989-10767 4 No obstante, desde la propuesta original a finales del s. XIX de emplear muestras pasaron alrededor de 40 años hasta que empezaron a emplearse de manera rutinaria. Tema 1. Introducción a las encuestas y formulación de objetivos y marcos 1.2. Esquema general de una encuesta 1-3 i. Una encuesta hace referencia a un conjunto finito de elementos llamado población finita. Existe una regla de enumeración que define de forma unívoca a los ele- mentos de la población. El objetivo de una encuesta es proporcionar información sobre la población finita en cuestión o sobre subpoblaciones de especial interés, por ejemplo, ’hombres’ y ’mujeres’ pueden ser dos subpoblaciones de ’todas las personas’. Estas subpoblaciones se denominan dominios de estudio o simplemente dominios. ii. Se asocia el valor de una o más variables de estudio (a veces también variables objetivo (target variables)) con cada elemento de la población. El objetivo de una encuesta es obtener información sobre características de la población, parámetros, agregados o indicadores desconocidos. Los parámetros son funciones de los valores de las variables de estudio. Son medidas cuantitativas desconocidas de interés, por ejemplo, los ingresos totales, los ingresos medios, la producción total, el número de desempleados, tanto para la población completa como usualmente para dominios específicos. iii. En la mayoría de las encuestas, el acceso y la observación de elementos indivi- duales de la población se establece mediante un marco de muestreo, un recurso que asocia los elementos de la población con las unidades muestrales en el marco. iv. A partir de la población, se selecciona una muestra (es decir, un subconjunto) de elementos. Esto se puede llevar a cabo seleccionando unidades del marco. Una muestra será una muestra probabilística si se obtiene utilizando un mecanismo aleatorio como se verá en la Sección 1.3. v. Los elementos de la muestra son observados, es decir, para cada elemento de la muestra, las variables de estudio son medidas y sus valores son grabados. La medición se ajusta a un plan de medición bien definido, especificado en términos de instrumentos de medida, una o más operaciones de medida, el orden entre estas y las condiciones bajo las cuales se llevan a cabo. vi. Los valores de las variables grabados se usan para calcular estimaciones (puntuales) de los parámetros de interés de la población finita (totales, medias, medianas, proporciones, coeficientes de regresión, etc.). También se calculan estimaciones de la precisión de las estimaciones. Las estimaciones son finalmente publicadas. En una encuesta por muestreo, la observación (medición) se limita a un subconjunto de la población. El tipo de encuestas en las que se observa/mide toda la población se llama censo. Ejemplo 1. Las encuestas de población activa se llevan a cabo en muchos países. Estas encuestas tienen como objetivo responder preguntas como: ¿Cuántas personas activas hay en el país y en cada una de sus regiones? ¿Qué proporción de éstas están des- empleadas? En este caso, algunos de los conceptos clave son los siguientes. Población: Todas las personas del país con ciertas excepciones (como menores de 16 años, personas ingresadas en instituciones). Dominios de interés: Grupos por edad y sexo de la población, grupos por ocupación y regiones del país. Variables: Cada persona, en el momento de la Tema 1. Introducción a las encuestas y formulación de objetivos y marcos 1.2. Esquema general de una encuesta 1-4 encuesta, se puede clasificar en (a) perteneciente a la población activa o no, y (b) em- pleada o no. Por tanto, hay una variable de interés que toma el valor ’uno’ si la persona pertenece a la población activa y ’cero’, en caso contrario. Para medir el desempleo, se define una segunda variable de interés que toma el valor ’uno’ si una persona está desempleada, ’cero’, en caso contrario. Son esenciales las definiciones precisas. Si el motivo es estimar el desempleo en un mes determinado y una persona entrevistada indica que ha trabajado una semana durante ese mes, pero está desempleada el día de la entrevista, debe haber una regla precisa que indica si esa persona está desempleada o no. Características de interés de la población: Número de personas activas/ocupadas/- paradas/inactivas, proporción de ocupados/parados en la población activa. Muestra: Se selecciona una muestra de personas de la población de la manera más eficiente teniendo en cuenta los recursos existentes. Observaciones/mediciones: Un entrevistador visita a cada persona incluida en la muestra, le pregunta las cuestiones incluidas en un cuestionario estandarizado y graba las respuestas. Procesamiento de datos y estimación: Los datos grabados son depurados, es decir, se preparan para la fase de estimación; se tienen en cuenta las reglas para la falta de respuesta; se calculan las estimaciones de las características de la población. Se calculan indicadores sobre la precisión de las estimaciones. Se publican los resultados. Ejemplo 2. Consideremos una encuesta a hogares cuyo objetivo es obtener información sobre los gastos planificados por los hogares para el año para un bien específico. En este caso, algunos de los conceptos clave son los siguientes. Población: Todos los hogares del país. Variables: Gasto planificado en euros para bienes específicos, como coches, neveras, etc. Características de interés de la población: Gasto total planificado por hogar para los bienes específicos. Muestra: Se obtiene una muestra de hogares seleccionando, inicialmente, una muestra de áreas geográficas y, a continuación, una submuestra de hogares en las áreas seleccionadas. Observaciones/mediciones: Cada hogar seleccionado rellena un cuestionario (electrónico o en papel). La mayoría de los hogares responden al cuestionario. Las que no responden son recontactadas por teléfono o en persona. Procesamiento de datos y estimación: Los datos son depurados. Se calculan las estimaciones y la precisión teniendo en cuenta el diseño en dos etapas. Esta visión de la producción como un proceso en fases y etapas es fundamental para la modernización e industrialización de la producción estadística oficial y está íntimamen- te relacionada con los estándares internacionales como el GSBPM (UNECE 2019b) 5 y el GSIM (UNECE 2019a) 6. Las características metodológicas (i) a (vi) identificadas anteriormente dan lugar a varios comentarios. 1. La complejidad de una encuesta puede variar mucho, dependiendo del tamaño de la población y de los medios para acceder a la población. Encuestar a los socios de una asociación, los hospitales de una región o los residentes en un pequeño pueblo puede ser relativamente sencillo. En el otro extremo están las encuestas 5 Véanse los temas 15 y 16 6 Véase tema 17 Tema 1. Introducción a las encuestas y formulación de objetivos y marcos 1.2. Esquema general de una encuesta 1-5 complejas a nivel nacional, con una población de millones de personas residiendo en un territorio grande; este tipo de encuestas son llevadas a cabo por los INEs y requieren muchos recursos administrativos y económicos. 2. Aunque las encuestas suponen observaciones de elementos individuales de la población, el motivo de una encuesta no es usar estos datos para tomar decisiones sobre elementos individuales, sino para obtener estadísticas generales sobre la población o subgrupos específicos. 3. En la misma encuesta a menudo hay muchas variables de estudio y muchas dominios de interés. El número de características a estimar puede ser grande, cientos o miles. 4. Los parámetros de poblaciones finitas son medidas cuantitativas de varios aspectos de la población. Antes de la encuesta estos parámetros son desconocidos. Hay distintos tipos de parámetros: el total, la media, la mediana de la variable de estudio, el coeficiente de variación entre dos variables, etcétera. El valor exacto del parámetro puede ser obtenido en casos especiales, si se realiza un censo, no hay errores de medida y sin falta de respuesta. Un censo no significa automáticamente ’estimación sin error’. 5. Una muestra es cualquier subconjunto de la población. Puede ser seleccionada con un mecanismo aleatorio o no. Un ejemplo sencillo de un esquema de diseño aleatorio es uno que da a cada muestra de tamaño fijo la misma probabilidad de selección (esto es un muestreo aleatorio simple sin reemplazamiento). En la práctica, los esquemas de selección son más complejos. El muestreo probabilístico ha demostrado a lo largo de los años ser un instrumento acurado y se ha convertido en la herramienta fundamental para hacer inferencia a partir de una muestra en la producción estadística oficial. El muestreo también puede ser no probabilístico, por ejemplo, seleccionando unidades muestrales mediante el criterio de un experto. En estos casos, el control de la acuracidad (sesgo y varianza) es prácticamente imposible o depende de hipótesis de difícil comprobación. 6. Medir de forma correcta y grabar la información necesaria para todos los elemen- tos de la muestra puede ser difícil o imposible. Se pueden obtener respuestas falsas o erróneas. Para algunas unidades de la muestra puede no ser posible obtener los datos por ser imposible el contacto o por negativa a responder. Estos llamados errores ajenos al muestreo pueden ser grandes y afectar muy negativamente a la acuracidad de la operación estadística. 7. Los avances en la informática han hecho posible producir un gran número de estadísticas oficiales a partir de datos administrativos. Se pueden usar muchos ficheros. Por ejemplo, se cruzan los elementos de dos registros completos de pobla- ción. Los ficheros cruzados proporcionan una base mayor para la producción de estadísticas. También se puede combinar la información de una encuesta muestral con información de uno o más registros administrativos. Los datos administrativos pueden entonces servir como información auxiliar para fortalecer las estimaciones. Tema 1. Introducción a las encuestas y formulación de objetivos y marcos 1.3. Muestreo probabilístico 1-6 1.3 Muestreo probabilístico El muestreo probabilístico es un enfoque de la selección de muestras que satisface deter- minadas condiciones, las cuales, para el caso de selección directa de elementos de la población, se describen a continuación: 1. Podemos definir el conjunto de muestras S = {s1 , s2 ,..., sM } que se pueden obte- ner con el proceso de muestreo. 2. Existe una probabilidad de selección conocida p(s) asociada a cada muestra posible s ∈ S. 3. El procedimiento otorga a cada elemento en la población una probabilidad no nula de selección. 4. Se selecciona una muestra mediante un mecanismo aleatorio bajo el cual cada posible muestra s ∈ S recibe exactamente una probabilidad p(s). Una muestra obtenida bajo estas cuatro condiciones se llama muestra probabilística. Si la encuesta funciona correctamente sin alteraciones, podemos medir cada elemento de la muestra seleccionada y obtener los valores reales observados para las variables de estudio. Asumimos que existe una fórmula para calcular una estimación de cada parámetro de interés. Los datos de la muestra se incluyen en la fórmula, dando lugar, para cada muestra posible, a una estimación única. La función p(s) define una distribución de probabilidad sobre S = {s1 , s2 ,..., sM }. Se llama diseño de muestreo, diseño muestral o, simplemente, diseño. Se verá una definición más rigurosa en la Sección 2.2. La probabilidad a la que se refiere el punto 3 se llama probabilidad de inclusión del ele- mento (a veces también probabilidad de inclusión de primer orden). Bajo un diseño muestral probabilístico cada elemento de la población tiene una probabilidad de inclusión estric- tamente positiva. Este requisito es muy exigente, pero juega un papel muy importante en el enfoque del muestreo probabilístico. En la práctica algunas veces hay razones irrefutables para que no se verifique de forma estricta este requisito. El muestreo por cut-off (que se utiliza en el INE en algunas encuestas coyunturales dirigidas a estableci- mientos industriales, por ejemplo) es una técnica en la que determinados elementos son excluidos de forma deliberada de la selección. En ese caso, las conclusiones válidas se limitan a la parte de la población que puede ser muestreada. La aleatorización a la que se refiere el punto 4 se lleva a cabo normalmente mediante la implementación de un algoritmo. Un tipo común de algoritmos es aquel en que se realiza un experimento aleatorizado dando lugar a la inclusión o exclusión de cada elemento del marco en la muestra. Dos referencias básicas sobre algoritmos muestrales para la selección de muestras probabilísticas son (Brewer y Hanif 1983; Tillé 2006). Tema 1. Introducción a las encuestas y formulación de objetivos y marcos 1.4. Marco muestral 1-7 El muestreo a menudo se realiza en dos o más etapas. En primera etapa se seleccio- nan conglomerados de elementos. Esto puede venir seguido de una o más etapas de submuestreo; los propios elementos son muestreados en la última etapa. Para tener un diseño de muestreo probabilístico en estos casos se deben verificar las condiciones 1 a 4 anteriores en cada etapa. El procedimiento en su conjunto debe proporcionar a cada elemento de la población una probabilidad de inclusión estrictamente positiva. El muestreo probabilístico ha evolucionado hacia un enfoque científico importante. Las dos principales razones para la selección aleatorizada (muestras probabilísticas) son (1) la eliminación de los sesgos de selección y (2) las muestras seleccionadas aleatoriamente son ’objetivas’ y aceptables para el público. Estas dos mismas razones suponen un reto en la actualidad para la incorporación de nuevas fuentes de datos (como Big Data) en la producción estadística oficial. 1.4 Marco muestral El marco o marco muestral es cualquier material o recurso usado para obtener acceso a la población finita de interés. Con la ayuda del marco debe ser posible (1) identificar y seleccionar una muestra de forma que respete un diseño muestral probabilístico y (2) establecer contacto con los elementos seleccionados (por teléfono, correo, dirección postal, etc.). La siguiente definición es de (Lessler y Kalsbeek 1992): Definición 1 Un marco muestral consiste en materiales, procedimientos y recursos que identifican, distinguen y permiten el acceso a los elementos de la población objetivo. Se compone de un conjunto finito de unidades al que se aplica el diseño muestral probabilístico [o no probabilístico, en sentido más general]. Incluye también información auxiliar (medidas de tamaño, información demográfica) usadas para (1) técnicas muestrales especiales, como la estratificación o la selección muestral proporcional al tamaño o (2) técnicas de estimación especiales, como la estimación de razón o de regresión. Los marcos muestrales son listas o procedimientos para identificar todos los elemen- tos de la población objetivo. Pueden ser mapas de áreas donde pueden encontrarse a los elementos de la población (véase la Sección 1.5). En su concepción más simple, un marco muestral constituye una sencilla lista de elementos de la población. Existen poblaciones para las que tales listas verdaderamente existen y están disponibles, como los establecimientos industriales de un país, los hospitales, las escuelas y otro tipo de instituciones. En las oficinas de estadística existen también registros de personas y/o direcciones postales de viviendas que pueden servir como marcos de personas. Como en la definición anterior, llamamos elementos7 a las entidades que forman la 7 A veces también unidades estadísticas de la población o, a secas, unidades estadísticas. Tema 1. Introducción a las encuestas y formulación de objetivos y marcos 1.4. Marco muestral 1-8 población y unidades muestrales (a veces solo unidades) a las entidades del marco. Es conveniente también distinguir las unidades informantes (Statistics Canada 2010). Por ejemplo, en una encuesta en la que quieran analizarse menores de edad, los elementos de la población serían las personas menores de 18 años. Ahora bien, para acceder a ellos a menudo se selecciona una muestra de un marco de viviendas, que serían las unidades muestrales. Por último, al ser menores, es posible que la información sea proporcionada por un adulto (padre/madre/tutor legal), que sería la unidad informante. En muchas operaciones estadísticas, los tres tipos de unidades coinciden. Ejemplo 3. El Padrón Municipal 8 es un marco que contiene información sobre todos los vecinos de los municipios de España. Este marco contiene, para cada individuo, información sobre variables como la fecha y el lugar de nacimiento, el sexo, la nacionali- dad o el domicilio habitual. Faltan algunas personas, e incluye algunas que realmente no pertenecen a él, pero es un buen marco muestral. Una característica muy interesan- te es que proporciona acceso directo a la población de España. A menudo se usa un muestreo estratificado a partir de este marco para las encuestas dirigidas a personas llevadas a cabo por el INE. Se puede contactar fácilmente con los elementos muestreados (individuos). Ejemplo 4. El Directorio Central de Empresas (DIRCE) 9 es el marco muestral usado en el INE para las encuestas a empresas. Es un marco bastante complejo y está basado en la información de varias fuentes. Por un lado, utiliza información de registros administrativos, como el Impuesto sobre el Valor Añadido, el Impuesto de Sociedades y el Impuesto sobre la Renta de las Personas Físicas de la Agencia Estatal de Administración Tributaria, el Registro de Cuentas de Cotización y el Registro de Trabajadores Activos en Cuenta Propia de la Seguridad Social, los movimientos del Registro Mercantil y también información de las encuestas estructurales y coyunturales de empresas realizadas por el INE. Es necesaria la actualización continua para registrar los ’nacimientos’ (nuevas empresas que inician su actividad), ’muertes’ (finalización de la actividad de la empresa) y cambios en la clasificación basados en el tamaño, la actividad o su ubicación geográfica. Usaremos el término muestreo directo de elementos para denotar la selección muestral de un marco que identifica directamente a los elementos individuales de la población de interés. Es decir, las unidades del marco son objetos del mismo tipo que aquellos que queremos medir y observar. Una selección de elementos puede tener lugar directamente del marco. De forma ideal, el conjunto de elementos identificados en el marco coincide con el conjunto de elementos en la población de interés. Por ejemplo, si la población de interés son los individuos residentes en España, po- demos llevar a cabo un muestreo directo de elementos a partir del Padrón Municipal 8 https://www.ine.es/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid= 1254736177011&menu=resultados&idp=1254734710990 9 https://www.ine.es/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid= 1254736160707&menu=ultiDatos&idp=1254735576550 Tema 1. Introducción a las encuestas y formulación de objetivos y marcos 1.4. Marco muestral 1-9 indicado en el Ejemplo 3. Aquí, la unidad muestral coincide con el elemento, que es el individuo. (Los dos conjuntos realmente no son exactamente iguales, pero las diferen- cias son pequeñas). El marco del Ejemplo 4 se puede usar para el muestreo directo de elementos con el objetivo de estudiar la población de empresas en España; en este caso, las unidades muestrales coinciden con los elementos, que son las empresas. Un marco muestral debería incluir idealmente los siguientes elementos (Statistics Cana- da 2010): 1. Datos de identificación. Son las variables del marco muestral que sirven para identificar de forma única cada unidad muestral, por ejemplo, nombre, apellidos, edad, sexo y un número identificador. En el Padrón Municipal el identificador es el número de Documento Nacional de Identidad o, tratándose de extranjeros, del documento que lo sustituya y, en el caso del DIRCE, es el Número de Identificación Fiscal. 2. Datos de contacto. Son las variables necesarias para localizar a las unidades muestrales durante la recogida, por ejemplo, la dirección postal o el número de teléfono. 3. Datos de clasificación. Son variables útiles tanto para la selección muestral como para la estimación. Por ejemplo, si la gente que viva en apartamentos tiene que ser encuestada de forma diferente a la que vive en casa, entonces el marco debe clasificar los distintos tipos de viviendas (p.ej. apartamentos, casas independientes, etc.). Los datos de clasificación pueden también incluir una medida de tamaño que se pueda usar en el muestreo, por ejemplo, el número de empleados trabajando en una empresa o el número de hectáreas de una explotación agrícola. Otros ejemplos de clasificaciones son clasificaciones geográficas (p.ej. la provincia, el municipio, la sección censal), la clasificación nacional de actividades económicas, etc. 4. Datos de mantenimiento. Datos necesarios si la encuesta se repetirá en otro mo- mento posterior, por ejemplo, fechas de incorporación o de cambios en los datos del marco. 5. Datos de cruce o de enlace. Son variables que se usan para enlazar las unidades muestrales con una fuente de datos más actualizada, por ejemplo, para actualizar el marco de la encuesta. Se simplifica el procedimiento de selección de la muestra si se verifica lo siguiente: 6. El marco está organizado de forma sistemática, por ejemplo, las unidades están ordenadas por tamaño o por situación geográfica. Otra información a menudo está disponible en el marco y a menudo mejorará las estimaciones. Las siguientes características son deseables: 7. El marco contiene información adicional para cada unidad; esta información puede usarse para mejorar la eficiencia, como en la estratificación, o para construir estimadores que involucren variables auxiliares. Tema 1. Introducción a las encuestas y formulación de objetivos y marcos 1.4. Marco muestral 1-10 8. Cuando es necesaria una estimación por dominios (subpoblaciones), el marco especifica el dominio al cual pertenece cada unidad. Otras propiedades deseables implican la relación entre las unidades en el marco y los elementos de la población: 9. Cada elemento en la población de interés está presente una única vez en el marco. 10. Ningún elemento que no esté en la población de interés estará en el marco. Estas dos características simplificarán muchos procedimientos de selección y de estima- ción. 12. Cada elemento de la población de interés está presente en el marco. La última propiedad es particularmente importante, porque si no se verifica el marco no proporciona acceso al total de la población de interés. En tal caso, ni siquiera la observación de todos los elementos en el marco haría posible calcular el verdadero valor del parámetro de la población finita de interés. En la práctica, un marco a menudo toma la forma de un fichero de datos. Como mínimo, es un fichero con un elemento identificador k que va desde 1 hasta NF. Puede contener otra información, como la indicada en los puntos 7 y 8. Podemos especificar todo lo que está disponible en el marco acerca de la k-ésima unidad muestral con un vector10 xk = (x1k , x2k ,..., xjk ,..., xqk )t. Aquí, xjk es el valor de la j-ésima variable en la k-ésima unidad muestral. El valor xjk puede ser cuantitativo (por ejemplo, la cifra de negocios del individuo k) o cualitativa (por ejemplo, la dirección del individuo k). El marco se puede ver como una matriz con NF filas (registros) y con cada fila se asocian q + 1 entradas de datos (campos); una entrada por identificador y q entradas para las componentes del vector xk , como a continuación: Identificador Vector conocido 1 xt1 2 xt2...... k xtk...... NF xtNF En resumen, las características básicas que un marco muestral debe tener idealmente son (Burg y col. 2019): el marco debe estar disponible en formato digital; el marco tiene por objeto representar la población objetivo tan acuradamente como sea posible; 10 Todos los vectores se entenderán como vectores columna; de ahí, el uso de t para indicar transposición cuando se escribe el vector en fila. Tema 1. Introducción a las encuestas y formulación de objetivos y marcos 1.4. Marco muestral 1-11 el marco contiene las unidades muestrales básicas correspondientes a los elemen- tos de la población objetivo y asigna a cada unidad muestral un identificador unívoco; el marco incluye variables de enlace (linking variables), que permiten conectar las unidades muestrales básicas con registros externos; el marco está enriquecido con variables auxiliares, permitiendo un mejor uso (al menos con las variables de contacto); Si existen unidades muestrales compuestas de unidades muestrales básicas (por ejemplo, hogares a partir de personas), el enlace entre ambos tipos de unidades está incluido en el marco. Por último, dada la proliferación del uso de registros administrativos en las oficinas de estadística, es importante reseñar las diferencias entre estos y los marcos muestrales. Un registro es un conjunto completo escrito de registros que contiene entradas de elementos y detalles sobre un conjunto particular de objetos11 Debe distinguirse entre registros administrativos y registros estadísticos (véase la Figura 1.1). Figura 1.1: Relación y diferencias entre registros administrativos, registros estadísticos y marcos muestrales. Tomado de Burg y col. 2019. Mientras un registro administrativo es mantenido por un propietario de los datos ex- terno a la oficina estadística para un propósito administrativo concreto (p.ej. cotizaciones 11 https://stats.oecd.org/glossary/detail.asp?ID=3003. Tema 1. Introducción a las encuestas y formulación de objetivos y marcos 1.5. Marco de áreas y otros marcos 1-12 a la Seguridad Social), un registro estadístico está creado para propósitos estadísticos, normalmente por oficinas de estadística. Un registro estadístico se crea usualmente pro- cesando datos de registros administrativos y/u otras fuentes de datos administrativos12. Dos de las diferencias más importantes entre los registros administrativos y estadísticos están relacionadas con la propiedad de los datos y con la unidad de análisis de interés: en el caso de los registros estadísticos, el propietario es la oficina estadística y la unidad del registro es la unidad de análisis (p.ej. una persona, un hogar, un establecimiento industrial... y no un formulario de alta, baja o modificación para recibir una subvención o un cambio en una cotización social). Los registros estadísticos se basan a menudo en registros administrativos, pero es preciso ejecutar muchos pasos del proceso de producción para que el registro estadístico satisfaga los requisitos para la producción estadística oficial. 1.5 Marco de áreas y otros marcos Es importante la siguiente distinción: i. Un marco como una lista directa o identificación directa de elementos de la población objetivo. ii. Un marco como una lista o identificación de conjuntos (más grandes o más peque- ños) de elementos de la población objetivo. En el caso (i), se puede llevar a cabo un muestreo directo de elementos. En el caso (ii), el acceso a los elementos es más indirecto, concretamente, seleccionando conjuntos de ele- mentos y observando todos o algunos de los elementos en estos conjuntos seleccionados. En muchas situaciones, el caso (ii) es la única opción, ya que no es posible encontrar o construir (sin un coste prohibitivo) una lista de elementos. El número total de elementos en la población a menudo es desconocido en el caso (ii). Por ejemplo, pensemos en la población de hogares en un gran área metropolitana. En muchas ciudades no existe nada parecido a un registro completo de hogares. Se debe considerar otras unidades muestrales distintos de los hogares. Una forma es definir unidades muestrales como viviendas y seleccionar una muestra de este tipo de unidades. Con relativa facilidad podemos entonces conseguir acceso a los hogares en (un número reducido de) las viviendas seleccionadas. Una variante de la misma idea tiene lugar cuando se identifican segmentos dentro de un mapa forestal y se selecciona una muestra de fragmentos con el objetivo de observar árboles en los segmentos seleccionados. 12 Se define una fuente de datos administrativos como una tenencia de datos que contienen información recogida primariamente para propósitos administrativos (ni de investigación ni estadísticos). Este tipo de da- tos se recoge por departamentos ministeriales y otras organizaciones para los propósitos de registro, transacción y almacenamiento, normalmente durante la administración de un servicio. Incluye registros administrativos (con identificador único) pero también posiblemente otros datos administrativos sin identificador único. Tema 1. Introducción a las encuestas y formulación de objetivos y marcos 1.5. Marco de áreas y otros marcos 1-13 El concepto de marco de áreas se define, por tanto, como Särndal, Swensson y Wretman 1992: Definición 2 Se define un marco de áreas como un marco geográfico que consiste en unidades de áreas; cada elemento de la población objetivo pertenece a una unidad muestral de área y puede ser identificado tras una inspección de esta unidad de área. La unidad de área puede variar en tamaño y en el número de elementos que contiene. El muestreo de áreas implica muestrear a partir de un marco de áreas, como un mapa de una ciudad, un mapa forestal o una fotografía aérea. Los conjuntos de elementos seleccionados con la ayuda de un marco de áreas a menudo se llaman conglomerados13. En un segundo paso de selección los conglomerados seleccionados pueden ser submues- treados. Se puede definir y muestrear una muestra de áreas incluso más pequeñas y así consecutivamente hasta que los elementos en sí mismos son finalmente muestreados en el paso final. Los mapas, por supuesto, no siempre se usan cuando se muestrean conjuntos (conglo- merados) de elementos; se puede usar en su lugar una sucesión de listas. Un marco para estudiar una población de estudiantes universitarios puede consistir en el primer paso en una lista de universidades, a continuación una lista de las facultades en las uni- versidades seleccionadas y en el tercer y último paso se tendría acceso a los estudiantes. “Marco” aquí se refiere a un recurso con tres capas consecutivas. Las universidades son las unidades muestrales de primera etapa; las facultades, las unidades muestrales de segunda etapa y los elementos individuales (los estudiantes) son las unidades muestra- les en la tercera y última etapa. En una selección que consiste de distintas etapas, cada etapa tiene su propio tipo de unidad muestral. Una población finita está compuesta de elementos. A menudo se denominan también unidades de análisis, lo que recalca que son unidades que son medidas y para las cuales se graban los valores. Por ejemplo, si alguien está interesado en estimar el total poblacional de la variable ’ingreso del hogar’, el elemento (o unidad de análisis) es naturalmente el hogar. El marco es un instrumento para acceder (de forma más o menos directa) a estos elementos. Una forma es seleccionar primero bloques de viviendas y después observar los hogares de los bloques seleccionados. Nuestros ejemplos hasta ahora pueden haber dado la impresión de que en la práctica «elemento» es siempre algo «menor que» o al menos «igual a» una «unidad muestral». Esto no tiene por qué ser así necesariamente, como se ve en el siguiente ejemplo. 13 Traducimos cluster como conglomerado. Tema 1. Introducción a las encuestas y formulación de objetivos y marcos 1.6. Población marco y población objetivo 1-14 Ejemplo 5. Supongamos que quiere estimarse la prevalencia en hogares de una enferme- dad rara. Una posible estrategia es seleccionar los historiales médicos de enfermos en hospitales y entrevistar a padres e hijos biológicos de tales enfermos, así como todos los miembros de sus hogares. En este caso, la unidad de análisis es el hogar, pero la unidad muestral es el enfermo registrado en hospitales. Este tipo de selección de unidades es característico del llamado muestreo en redes14 o muestreo de multiplicidad15 (véase p.ej. Thompson 2012). 1.6 Población marco y población objetivo Resulta necesario en este punto distinguir entre población objetivo y población marco. La población objetivo es el conjunto de elementos sobre los cuales queremos obtener información y para la que es necesaria estimaciones de los parámetros. La población marco es el conjunto de elementos que o están directamente incluidas como unidades en el marco o pueden ser identificadas mediante un concepto de marco más complejo, como un marco de selección en varias etapas. La calidad del marco puede evaluarse considerando distintos tipos de errores (Burg y col. 2019): Errores de cobertura debidos a unidades muestrales faltantes, erróneamente in- cluidas o duplicadas. Errores de clasificación y de dominios de las unidades muestrales (p.ej. en el código de actividad económica principal de una empresa o en el municipio de residencia de una persona). Errores en la información de contacto de las unidades muestrales (p.ej. direcciones postales desactualizadas). Errores de alineación16 en las unidades muestrales. Errores de unidad en las unidades muestrales compuestas (p.ej. al componer erróneamente hogares a partir de personas). Todos estos errores son errores ajenos al muestreo (non-sampling errors) y, por tanto, afectan a la dimensión de la calidad llamada acuracidad (véase el Tema 18 sobre la calidad en la producción estadística oficial). La cobertura es uno de los aspectos más importantes de la calidad del marco. En primer lugar, la subcobertura (under-coverage), en la que determinadas partes y ele- mentos de la población objetivo no están integrados de modo sistemático y correcto, conduce a severos problemas en el uso del marco. Por ejemplo, personas viviendo en 14 Network sampling. 15 Multiplicity sampling. 16 Traducimos alignment como alineación. Por error de alineación (alignment error se indica la falta de concordancia entre variables respecto de una misma unidad. Por ejemplo, entre nombres de empresas y razones sociales. Este error conlleva la aparición de más errores (como el error de unidad (unit error)). Tema 1. Introducción a las encuestas y formulación de objetivos y marcos 1.6. Población marco y población objetivo 1-15 el extranjero o personas sin hogar a menudo no están incluidos en numerosos proce- dimientos administrativos de registro de la población que alimentan el marco, que, por tanto, no las contiene. El impacto de la subcobertura en la estimación mediante estimadores lineales se hace presente, sobre todo, en el sesgo de las estimaciones. Puede hacerse una distinción entre la subcobertura por diseño y la subcobertura intrínseca. La primera se produce cuando se excluyen voluntariamente por parte del estadístico determinadas unidades muestrales (por ejemplo, porque son difíciles de localizar o su contacto tiene asociado costes muy altos). La subcobertura intrínseca se produce cuando las unidades muestrales no se encuentran en el marco por otras razones no voluntarias. Por su parte, la sobrecobertura (over-coverage) tiene lugar si existen unidades muestrales duplicadas, no existentes o fuera del ámbito de la población objetivo. Se distinguen igualmente dos tipos de sobrecobertura: listados duplicados17 (duplicate listings) y enumeración errónea. El primer tipo corresponde a elementos de la población objetivo que están referidos al menos dos veces mediante unidades muestrales. Los duplicados afectan especialmente a la calidad de las estimaciones por su efecto a través de las variables auxiliares. Además, incrementan el coste tanto de la recogida como del procesamiento de datos. El segundo tipo hace referencia a elementos no elegibles para la población objetivo bajo análisis. Su efecto negativo, en contraposición a la subcobertura, surge en la variabilidad (varianza) de los estimadores, al reducir el tamaño muestral (al ser descartadas durante la recogida). En segundo lugar, los errores de clasificación y de dominios equivalen a subcobertura en un dominio y sobrecobertura en otro dominio (p.ej. una empresa con un código de actividad económica principal erróneo o una persona con un municipio de residencia erróneo). Por tanto, este tipo de errores introduce información auxiliar incorrecta. En tercer lugar, las variables de contacto en un marco desempeñan un papel fundamen- tal para poder recoger la información en la correspondiente fase de producción. Deben estar, por tanto, monitorizadas y comprobadas periódicamente. Por último, la relación entre las unidades muestrales es cada vez más importante. Tradi- cionalmente ya en las estadísticas sociales estas relaciones han sido importantes para identificar hogares y unidades compuestas de diversa naturaleza. En las encuestas económicas, aunque tradicionalmente las unidades legales han sido objeto de estudio, los grupos y holdings empresariales formados por varias unidades representan más recientemente un objetivo de análisis económico de creciente importancia. En este sen- tido, los errores de alineamiento y de unidad deben ser detectados y corregidos en la creación y mantenimiento de los marcos. Es importante recordar que si se selecciona una muestra probabilística de un marco muestral, se puede hacer inferencia estadística válida sobre la población marco. Si la población marco difiere de la población objetivo, la inferencia sobre la población obje- tivo no será válida y, por tanto, el objetivo de la encuesta puede fallar. El problema es particularmente serio si el marco da acceso sólo a parte de la población objetivo. Este es 17 En español también se usa el término unidades repetidas. Tema 1. Introducción a las encuestas y formulación de objetivos y marcos 1.7. Planificación de una encuesta 1-16 uno de los retos más notables para el uso de las nuevas fuentes de datos digitales en la producción estadística oficial, pues los datos se generan antes incluso de identificar las necesidades de información y objetivos de la estadística concreta. Trabajar con un marco de muestreo prefecto no siempre es posible en la práctica. Se pueden tolerar imperfecciones leves, ya que puede no ser posible obtener un marco perfecto sin un coste excesivo. Sin embargo, es muy importante que las imperfecciones del marco sean leves. Construir un marco de alta calidad para la población objetivo es un aspecto importante de la planificación de la encuesta y debe disponerse de recursos adecuados para esta actividad. Visto de una forma diferente, cuando se define la población objetivo, debe establecerse un objetivo realista. No tiene sentido fijar una población objetivo para la que no se puede obtener un buen marco dentro de las restricciones presupuestarias. Se pueden obtener resultados inválidos a partir de muestras obtenidas de marcos erróneos. Deben evitarse marcos baratos y fáciles de construir si sólo dan acceso parcial a la población objetivo. 1.7 Planificación de una encuesta Normalmente una encuesta tiene su origen en algún problema práctico. Alguien - un miembro del parlamento, un investigador, una asociación de empresarios (necesidades externas) o incluso otro departamento de la propia oficina estadística (necesidades internas) - tiene una necesidad de disponer de determinada información. Lo importante en este momento es que el problema se explique de una forma clara y concisa. Puede que esa información ya exista y únicamente sea necesario recabarla, pero puede que no exista y que sea necesario llevar a cabo una operación estadística 18. La realización de una operación estadística puede llevarse a cabo usando registros administrativos, realizando un censo o una encuesta, mediante la síntesis de otras operaciones, etc19. Si se opta por la realización de una encuesta, los estadísticos deben tener claro desde el principio cuáles son los objetivos. ¿Cuál es exactamente el problema? ¿Cuál es exacta- mente la información necesaria? Por ejemplo, supongamos que la propuesta es realizar una encuesta sobre las condi- ciones de la vivienda de los ancianos. Esta descripción es vaga y demasiado general. Se deben proporcionar definiciones claras de los conceptos involucrados. Es necesario precisar cuál es la población objetivo, a partir de qué edad se considerará a una persona «anciana» a la hora de realizar la encuesta. ¿Se debe considerar únicamente aquellas viviendas en las que viven ancianos o también aquéllas en las que personas ancianas conviven con personas de otras edades? ¿Cuál es la definición de condiciones de la 18 Se define como operación estadística al conjunto de actividades, incluidas las preparatorias, que partiendo de una recogida de datos individuales conducen a la obtención y/o difusión de resultados estadísticos agregados, en forma de tablas o de índices, sobre un determinado tema relativo a la realidad demográfica, social, económica, ecológica, etc. de la nación o sobre un determinado territorio de ella. Véase https://www.ine.es/GS_FILES/IOE_Metodologia.pdf 19 Uno de los retos presentes en la producción estadística oficial es la incorporación de nuevas fuentes de datos digitales (Big Data), como datos de la web, datos de transacciones financieras, datos de telefonía móvil, etc. Tema 1. Introducción a las encuestas y formulación de objetivos y marcos 1.7. Planificación de una encuesta 1-17 vivienda? ¿Nos referimos a la edad de la vivienda o a alguna otra medida de calidad de la vivienda? ¿Qué periodo de tiempo se estudiará? ¿Se debería distinguir entre la población anciana rural y la urbana? A medida que se van respondiendo a estas preguntas, los estadísticos trabajan en la reformulación del proyecto inicial hacia uno en el que figuren todas las necesidades. La formulación final de estas necesidades debe clarificar los siguientes puntos: i. La población finita y las subpoblaciones para las cuales se requiere la información. ii. Los tipos de información necesarios para esta población, es decir, las variables a medir y los parámetros a estimar. Una vez que las definiciones operacionales 20 se han enunciado de forma clara, los estadísticos pueden trabajar en la especificación de un diseño de encuesta adecuado, incluyendo el diseño del marco y de la muestra, el método de recogida de datos, el procesamiento y el análisis de datos (integración, codificación, depuración, imputación, estimación, validación, control del secreto estadístico, ajuste estacional y de efecto ca- lendario, etc.) y la difusión y presentación de resultados. De acuerdo a Deming 1950, pág. 3, la exigencia de una declaración sencilla de lo que se desea (la especificación de la encuesta) es quizá una de las mayores contribuciones de la estadística teórica moderna. El uso de la probabilidad para la selección de las muestras y la cons- trucción de estimadores (muestreo probabilístico) fue un hito histórico no ya desde el punto de visto matemático, sino desde el punto de vista de la gestión de la producción, porque permitió por primera vez conectar de modo directo una medida objetiva de la acuracidad de una encuesta con el coste asociado, entendiendo por coste no solo la cuestión presupuestaria, sino restricciones como el tiempo de publicación y los recursos tanto humanos como tecnológicos y logísticos. La consideración del coste en el diseño de una operación estadística es un elemento fundamental que debe estar muy presente. Antes de comenzar los trabajos de desarrollo e implementación de metodologías, tecno- logías y recursos, el estadístico responsable debe asegurarse que las necesidades del usuario están claramente identificadas y el diseño podrá dar una solución, al menos suficientemente aproximada y precisa, al problema planteado. Algunos aspectos importantes de la planificación de una encuesta son (Särndal, Swensson y Wretman 1992): Especificación de los objetivos de la encuesta. 20 La definición de operacionalizar es proceso metodológico por el que ciertos elementos del problema de estimación (sobre todo, unidades estadísticas, variables y parámetros poblacionales) se representan mediante conceptos matemáticos o estadísticos (operacionales). Este proceso consiste en hacer operativo un concepto abstracto o matemático. Por ejemplo, la variable parado/a, de claro interés para el usuario, no se recoge directamente en el cuestionario. Se trata de un concepto que resulta de un proceso de operacionalización sobre variables objetivo recogidas efectivamente en el cuestionario. Tema 1. Introducción a las encuestas y formulación de objetivos y marcos 1.7. Planificación de una encuesta 1-18 Traducción del problema en el contexto temático de interés en un problema de producción de encuestas. Especificación de una población objetivo, variables conocidas (variables auxiliares), variables de análisis, parámetros poblacionales a estimar. Construcción del marco muestral, si no existe ninguno disponible que se ajuste a las necesidades de la encuesta. Inventario de recursos disponibles en términos de presupuesto, personal, metodo- logía estadística, tecnologías, logística y cualquier otro equipamiento. Especificaciones de los requisitos a alcanzar, por ejemplo, plazos previstos de ejecución y acuracidad de las estimaciones. Especificación de los métodos de recogida de datos, incluyendo el diseño y cons- trucción del cuestionario. Especificación del diseño muestral, mecanismo de selección de la muestra (algorit- mo muestral) y determinación del tamaño muestral. Especificación de los métodos de integración de datos, especialmente cuando se precisa usar varias fuentes de datos. Especificación de clasificaciones (preferiblemente estándares) y la codificación de variables. Especificación de los métodos de depuración e imputación y del tratamiento de los errores ajenos al muestreo, en general. Especificación de los estimadores (puntuales) y las medidas de precisión (estima- dores de la varianza), teniendo en cuenta también los errores ajenos al muestreo. Especificación del método de control del secreto estadístico. Especificación del ajuste estacional y de efecto calendario. Formación del personal y organización del trabajo de campo. Distribución de los recursos entre las distintas operaciones de la encuesta. Distribución de los recursos de control y evaluación. Elaboración del plan de evaluación de la calidad (indicadores, etc.). La planificación de la encuesta debería dar lugar a una decisión para cada operación en la encuesta. La teoría estadística nos puede llevar a importantes conclusiones sobre algu- nas de estas decisiones, en particular en relación con la selección de la muestra, elección del estimador, distintas fuentes de error y sus componentes de la varianza asociadas, métodos para evaluar la acuracidad de las estimaciones y el análisis estadístico de los datos de la encuesta. Tema 1. Introducción a las encuestas y formulación de objetivos y marcos 1.8. Diseño total de una encuesta 1-19 El proceso de planificación debe tratar de predecir dificultades que pueden surgir. Deben reservarse algunos recursos e identificarse procesos de back-up con el fin de enfrentarse con posibles dificultades. Por ejemplo, se puede esperar de forma segura alguna falta de respuesta y esto debe ser tenido en cuenta a la hora de seleccionar la muestra con el fin de que la falta de respuesta sea lo menor posible y no afecte a la calidad de las estimaciones21. Deben identificarse procedimientos de seguimiento y recontacto con los informantes que no responden y tenidos en cuenta en el presupuesto y en la previsión de plazos. Deben identificarse procedimientos metodológicos que permitan un ajuste por falta de respuesta y otros errores ajenos al muestreo en general. De forma ideal, la planificación de la encuesta debería dar lugar a unas especificaciones óptimas para la producción de la encuesta en conjunto. El objetivo es obtener la mejor acuracidad posible sujeto a un presupuesto fijo. En una encuesta de grandes dimen- siones, sin embargo, la complejidad es tan grande que no es concebible obtener una solución óptima. Hay demasiadas decisiones interrelacionadas y demasiadas variables a tener en cuenta. El concepto de diseño total de una encuesta22 , que se verá en la siguiente Sección 1.8 puede verse como una herramienta orientada a conseguir una optimización global de una encuesta. En la actualidad, las tareas para la planificación de una operación estadística están detalladas en las fases 1 a 3 del estándar internacional de producción GSBPM (UNECE 2019b), que incluyen la especificación de las necesidades de información, el diseño de la operación y la construcción de las herramientas de producción necesarias. 1.8 Diseño total de una encuesta El término diseño total de una encuesta se usa en los procesos de planificación que buscan una optimización de conjunto en una encuesta. El concepto surgió del objetivo de control de conjunto sobre todas las fuentes de error en una encuesta. Hoy día también se conoce como el paradigma del error de encuesta total23 Véase, p.ej., Groves y Lyberg 2010 y mútiples referencias allí citadas. El diseño global de una encuesta está interesado en obtener la mejor precisión posi- ble en las estimaciones de una encuesta a la vez que busca un equilibrio económico general entre los errores de muestreo y los errores ajenos al muestreo. Para una visión general del diseño global de una encuesta, es útil considerar una encuesta desde tres perspectivas: 1. Los requisitos. 2. Las especificaciones de la encuesta. 21 En el caso de las operaciones estadísticas económicas en España la falta de respuesta suele ser baja debido a las sanciones económicas conforme a la legislación estadística correspondiente y al seguimiento realizado. 22 Total survey design. 23 Total survey error. Tema 1. Introducción a las encuestas y formulación de objetivos y marcos 1.8. Diseño total de una encuesta 1-20 3. Las tareas de producción de la encuesta. Por requisitos nos referimos a las necesidades de información sobre la población obje- tivo, normalmente generadas por algún problema relacionado con algún tema social, económico, demográfico, etc. Con estos requisitos se corresponde una encuesta con- ceptual que alcanzará el objetivo ideal, si se lleva a cabo bajo las mejores circunstancias posibles. Las especificaciones de la encuesta son un conjunto de reglas y de operaciones, que juntos constituyen un objetivo definido de la encuesta. Debido a las condiciones reales, este objetivo definido puede diferir del objetivo ideal. El objetivo definido especifica los elementos principales de la encuesta, como la población, el diseño muestral, los procedimientos de medida, los estimadores y las variables auxiliares. Normalmente existen varios diseños de encuesta que nos permiten alcanzar el objetivo definido. Los estadísticos eligen de un conjunto de diseños de encuestas operacional- mente viables uno que se acerca lo más posible a la realización del objetivo definido. El diseño seleccionado da lugar a varias tareas de producción de la encuesta. La encues- ta finalmente se lleva a cabo realizando estas tareas tan cuidadosamente como sea posible. Bibliografía Brewer, K.R.W. y M. Hanif (1983). Sampling with unequal probabilities. Springer. Burg, T., A. Kowarik, M. Six, G. Brancato y D. Krapavickaité (2019). Quality Guidelines for Frames in Social Statistics. ESSnet KOMUSO Quality in Multisource Statistics. URL : https : / / ec. europa. eu / eurostat / cros / system / files / qgfss - v1.51.pdf. Deming, W.E. (1950). Some theory of sampling. New York: Wiley. Groves, R.M. y L. Lyberg (2010). “Total survey error: past, present, and future”. En: Public Opinion Quarterly 74, págs. 849-879. Lessler, J.T. y W.D. Kalsbeek (1992). Nonsampling error in surveys. New York: Wiley. Särndal, C.-E., B. Swensson y J.H. Wretman (1992). Model assisted survey sampling. New York: Springer. Statistics Canada (2010). Survey methods and practices. Ottawa: Ministry of Industry of Canada. ISBN: 978-1-100-16410-6. URL: https://www150.statcan.gc.ca/n1/ en/pub/12-587-x/12-587-x2003001-eng.pdf?st=-RZ4HER2. Thompson, S.K. (2012). Sampling. 3rd. Wiley. Tillé, Y. (2006). Sampling algorithms. Springer. UNECE (2019a). Generic Statistical Information Model v1.2. URL: https://statswiki. unece.org/display/gsim/. – (2019b). The Generic Statistical Business Process Model v5.1. URL: https://statswiki. unece.org/display/GSBPM/Generic+Statistical+Business+Process+ Model. Tema 1. Introducción a las encuestas y formulación de objetivos y marcos Tema 2 Ideas básicas sobre estimación en muestreo probabilístico. Diseño muestral. Probabilidades de inclusión. La noción de estadístico. Indi- cadores de pertenencia a la muestra. Estimadores y sus propiedades básicas. El estimador Horvitz-Thompson (estimador π) y sus propieda- des. Muestreo con reemplazamiento. Efecto de diseño. Intervalos de confianza. Este tema está elaborado como una adaptación casi literal en español del capítulo 2 de la siguiente bibliografía: C.-E. Särndal, B. Swensson y J.H. Wretman (1992). Model assisted survey sampling. New York: Springer Esta documentación es orientativa y no es exclusiva ni única para el correcto desa- rrollo de este tema. Tampoco vincula al órgano convocante ni al Tribunal actuante. Aviso: El INE se reserva las acciones legales que pudieran corresponder por la venta de esta información. 2.1 Ideas básicas sobre estimación en muestreo probabilístico El objetivo fundamental de una encuesta por muestreo consiste en obtener información sobre características de la población, parámetros, agregados o indicadores desconocidos a partir de la información procedente de una muestra representativa que permita hacer inferencia sobre la población. Considérese una población constituida por N elementos {u1 ,..., uN }, que se denota por U = {1,... , N }, donde el tamaño de la población N es conocido. Una muestra es un subconjunto de elementos de la población U seleccionados de un marco muestral. Asumiremos que se trata de una muestra probabilística, es decir, ha sido obtenida a partir de un esquema de muestreo probabilístico y se denota por s. S representará a la muestra aleatoria y nS al número de elementos o cardinal de S. Supongamos que se desea obtener información sobre la variable ’ingreso del hogar’. A 1 2.1. Ideas básicas sobre estimación en muestreo probabilístico 2-2 esta variable de interés se la denomina variable de estudio o variable objetivo. Podríamos estar interesados en obtener información sobre el total de ingresos de los hogares de la población, esto es, X YU = yk k∈U o bien sobre el ingreso medio 1 X ȳU = yk , N k∈U donde yk es el ingreso del hogar k. El estadístico debe elegir el diseño muestral que desea aplicar para estimar los parámetros poblacionales total o media, por ejemplo, puede elegir un muestreo aleatorio simple sin reemplazamiento, diseño que produce muestras equiprobables de tamaño de muestra fijo con todos sus elementos distintos. Asimismo, debe determinar el procedimiento de selec- ción de la muestra1 y elegir una fórmula (estimador) que le permita calcular una estimación para el parámetro de interés, cuya elección no es independiente, ya que, como se ve- rá más adelante, normalmente la elección del estimador depende del diseño seleccionado. Un procedimiento de selección de muestras probabilísticas es un algoritmo mues- tral. Existen múltiples tipos de algoritmos muestrales, que pueden clasificarse en (i) enumerativos, (ii) de martingalas, (iii) secuenciales, (iv) por extracción individual, (v) eli- minatorios y (vi) de rechazo (véase Tillé 2006, para los detalles). Generalmente hablando, estos algoritmos consisten en la realización secuencial de experimentos aleatorizados que producen como resultado un elemento seleccionado en la muestra tras cada experi- mento o bien la inclusión o exclusión en la muestra de cada elemento del marco. En el Ejemplo 6 se muestra un ejemplo del primer caso. Ejemplo 6. Consideremos el siguiente procedimiento de selección de la muestra: 1 1. Se selecciona un elemento de los N posibles con igual probabilidad: N. 2. Se selecciona un segundo elemento de entre los N − 1 restantes con igual probabi- lidad: N1−1.. 3... n. Se selecciona un elemento de entre los N − n + 1 restantes con igual probabilidad: 1 N −n+1. Este algoritmo secuencial es una posible forma de realizar un muestreo aleatorio simple sin reemplazamiento o muestreo aleatorio simple sin reposición, que produce una muestra de tamaño n. Consiste en realizar n experimentos aleatorizados (en este caso extracciones) donde el resultado es la selección de un elemento en la muestra. 1 También algoritmo muestral (sampling algorithm). Tema 2. Ideas básicas sobre estimación en muestreo probabilístico 2.2. Diseño muestral 2-3 Una vez extraída la muestra, los elementos son observados, es decir, para cada elemento de la muestra k se mide el valor yk y su valor es grabado. Los valores grabados son usados para calcular estimaciones de los parámetros de interés, el ingreso total y el ingreso medio de los hogares de la población U. 2.2 Diseño muestral Definición 3 Dado un mecanismo de selección de la muestra (algoritmo muestral), se define el concepto de diseño de muestreo, diseño muestral o, simplemente, diseño como una función p(·) que a cada muestra s le hace corresponder la probabilidad de que dicha muestra sea seleccionada, p(s), para todo s del conjunto de posibles muestras, denotado por Ω. En otras palabras, el diseño muestral p(·) es la función de probabilidad de la variable aleatoria S, que toma valores en Ω: P(S = s) = p(s), para todo s ∈ Ω. La función p(·) define una función de probabilidad sobre el espacio muestral: i. p(s) ≥ 0, para todo s ∈ Ω. P ii. p(s) = 1. s∈Ω El diseño muestral define un conjunto de muestras posibles, donde la probabilidad de selección de cada una de ellas es estrictamente positiva, p(s) > 0. El resto de muestras tendrán probabilidad nula de selección y no están en Ω. Ejemplo 7. Bajo el mecanismo de selección de la muestra definido en el Ejemplo 6, la N cardinalidad del espacio muestral es n y todas las muestras tienen probabilidad igual a N1. El diseño muestral es: (n) 1 p(s) = N , para todo s ∈ Ω. n Se denota como diseño del muestreo aleatorio simple sin reemplazamiento. Se puede observar que en el diseño del muestreo aleatorio simple sin reemplazamiento todas las muestras obtenidas tienen el mismo número de elementos, n. Sin embargo, el tamaño de muestra producido por un determinado diseño p(·) no es necesariamente el mismo para todas las muestras, como es el caso del muestreo de Bernoulli. Estos diseños se estudiarán con detalle en el Tema 3. Tema 2. Ideas básicas sobre estimación en muestreo probabilístico 2.3. Probabilidades de inclusión 2-4 Por otra parte, cabe destacar que diferentes mecanismos de selección de la muestra (algoritmos muestrales) pueden ser aplicados para implementar un mismo diseño muestral. Ejemplo 8. Consideremos el diseño del muestreo aleatorio simple sin reemplazamiento e implementemos el siguiente algoritmo de selección de la muestra: 1 - Se selecciona un elemento de los N posibles con igual probabilidad: N. Se reem- plaza el elemento obtenido. - Se repite el paso anterior hasta que se obtengan n elementos distintos en la mues- tra. Los algoritmos expuestos en el Ejemplo 6 y el Ejemplo 8 son dos formas de implementar el mismo diseño. Dos de las decisiones más importantes en el diseño de una encuesta por muestreo es (i) la elección del diseño muestral y el algoritmo muestral y (ii) la elección de un estimador con el que calcular las estimaciones del parámetro poblacional de interés. Esta combinación de diseño muestral y estimador se denomina estrategia muestral. 2.3 Probabilidades de inclusión Dada una población de N elementos {u1 ,..., uN } y un diseño muestral p(.), con p(s) la probabilidad de seleccionar la muestra s, se define la variable aleatoria indicador de pertenencia a la muestra del elemento k, para representar la pertenencia de un elemento a la muestra, como: ( 1, si uk ∈ S, Ik = Ik (S) = 0, si uk ∈ / S. La probabilidad de que el elemento uk pertenezca a la muestra se puede obtener como la suma de las probabilidades de todas las muestras que contengan al elemento uk y se denomina probabilidad de inclusión. Formalmente, esto se puede expresar a través de la Definición 4. Se denotará uk ∈ S o bien k ∈ S para indicar que el elemento k pertenece a la muestra aleatoria. Definición 4 La probabilidad de inclusión, también denominada probabilidad de inclusión de primer orden del elemento uk , se define como la probabilidad de que uk pertenezca a la muestra. Se denota por πk y se puede calcular como: X πk = P(uk ∈ S) = P(Ik = 1) = p(s). (2.1) s 3 uk Tema 2. Ideas básicas sobre estimación en muestreo probabilístico 2.3. Probabilidades de inclusión 2-5 La probabilidad de inclusión de segundo orden de los elementos uk y ul se define como la probabilidad de que uk y ul pertenezcan a la muestra. Se denota por πkl y se puede calcular como: X πkl = P(uk , ul ∈ S) = P(Ik · Il = 1) = p(s). (2.2) s 3 uk ,ul Ejemplo 9. Se selecciona una muestra aleatoria simple sin reemplazamiento, es decir, siguiendo el diseño de muestreo definido en el Ejemplo 7. La probabilidad de inclusión de primer orden para cualquier elemento de la población es Nn y la probabilidad de inclusión de segundo orden para cualesquiera uk y ul es Nn·(n−1) ·(N −1) , con k 6= l. En efecto: πk = P(uk ∈ S) = P(uk aparezca una vez en la muestra y las n − 1 unidades restantes que forman parte de la muestra no sean uk ) = N −1 (N −1)! n−1 (N −n)!·(n−1)! n = N = N! = ; k = 1,... , N. n (N −n)!·n! N N −2 (N −2)! n−2 (N −n)!·(n−2)! n · (n − 1) πkl = P(uk , ul ∈ S) = N = N! = ; k 6= l = 1,... , N. N · (N − 1) n (N −n)!·n! Un diseño muestral p(s) se denomina diseño muestral probabilístico si cada elemento de la población tiene una probabilidad de inclusión estrictamente positiva, esto es, πk > 0, ∀k = 1,... , N. Todo elemento de la población tiene oportunidad de aparecer en la muestra. En diseños muestrales directos sobre elementos de la población donde el proceso de muestreo se realiza en una única etapa y se seleccionan directamente los elementos de la población, las probabilidades de inclusión son normalmente conocidas al principio. Sin embargo, en determinados diseños más complejos, como por ejemplo, muestreo en varias etapas, el proceso de muestreo es a menudo llevado a cabo de tal manera que no es posible calcular al principio el valor de πk ∀k ∈ U. Por otra parte, un diseño muestral p(s) se denomina diseño muestral medible si cada elemento de la población tiene probabilidad de inclusión, así como probabilidad de inclusión de segundo orden estrictamente positivas, esto es, πk > 0, ∀k = 1,... , N y πkl > 0, ∀k 6= l = 1,... , N. Adviértase que si k = l, se tiene πkl = πkk = πk , ya que πkk = P (Ik2 = 1) = P (Ik = 1) = πk. Tema 2. Ideas básicas sobre estimación en muestreo probabilístico 2.4. La noción de estadístico 2-6 2.4 La noción de estadístico El objetivo del muestreo por encuestas es realizar estimaciones de los parámetros de interés a partir de los valores observados de una muestra. Por ello, se deben construir funciones matemáticas dependientes de la muestra extraída que permitan al investiga- dor estimar dichos parámetros. Definición 5 Sea S una variable aleatoria (muestra aleatoria) que toma valores en Ω. Un estadístico Q = Q(S) es una función real de S. La distribución de probabilidad de un estadístico se denomina distribución en el muestreo de Q. Un estadístico es una variable aleatoria que toma valores distintos en función de la muestra s extraída y no depende de un parámetro desconocido. Una vez extraída una muestra s, se podrá calcular Q(s) para todo s. La información que proporciona un estadístico es muy diversa, por ejemplo, podría ofrecer información acerca de la pertenencia del elemento k a la muestra seleccionada, Ik (S), cuál es el valor más bajo o más alto de los elementos de la muestra para una variable y, el número de veces que aparece un elemento en la muestra o el número de elementos que contiene la muestra, nS. El tamaño de muestra se puede escribir como X nS = Ik (S) k∈U nS es otro ejemplo de estadístico, así como el total muestral, la varianza muestral y la cuasivarianza muestral. Para el propósito de la estimación de parámetros poblacionales por muestreo, nos inte- resará obtener determinados estadísticos, denominados estimadores, cuyos valores no varíen demasiado de una muestra a otra y se concentren en torno al valor desconocido del parámetro de interés. La esperanza y la varianza de un estadístico Q = Q(S) se definen, respectivamente, de la siguiente forma: X E(Q) = p(s) · Q(s) s∈Ω V(Q) = E (Q − E(Q))2 = X = p(s) · [Q(s) − E(Q)]2 s∈Ω La covarianza entre dos estadísticos Q1 (S) y Q2 (S) se define como C(Q1 , Q2 ) = E [(Q1 − E(Q1 )) · (Q2 − E(Q2 ))] = X = p(s) · (Q1 (s) − E(Q1 )) · (Q2 (s) − E(Q2 )) s∈Ω Tema 2. Ideas básicas sobre estimación en muestreo probabilístico 2.5. Indicadores de pertenencia a la muestra 2-7 2.5 Indicadores de pertenencia a la muestra Los estadísticos que estamos interesados en estudiar pueden ser expresados en función de los indicadores P de pertenencia a la muestra. Consideremos por ejemplo el estadístico Q(S) = yk , es decir, la suma de los valores muestrales de la característica y para los k∈S elementos de la muestra aleatoria S. El estadístico se puede expresar como X Q(S) = Ik (S) · yk. k∈U A continuación se definen algunas propiedades básicas del estadístico Ik. Proposición 1 Dado un diseño muestral p(s) se tienen los siguientes resultados para todo k, l = 1,... , N : i. E[Ik ] = πk ; ii. V(Ik ) = πk · (1 − πk ); iii. C(Ik , Il ) = πkl − πk · πl , donde E[Ik ] y V(Ik ) representan la esperanza y la varianza de Ik , respectivamente, y C(Ik , Il ), la covarianza de Ik e Il. Demostración 1 Ik es una variable aleatoria con distribución Bernoulli con P(Ik = 1) = πk , usando (2.1). Por tanto: i. E[Ik ] = πk. ii. V(Ik ) = E[Ik2 ] − [E[Ik ]]2 = πk · (1 − πk ). iii. C(Ik , Il ) = E[Ik · Il ] − E[Ik ] − E[Il ] = πkl − πk · πl , usando (2.2). Proposición 2 Dado un diseño muestral p(s) con tamaño de muestra fijo n, se tiene: P i. πk = n. k∈U P P ii. πkl = n · (n − 1). k∈U l∈U l6=k P iii. πkl = (n − 1) · πk. l∈U l6=k Tema 2. Ideas básicas sobre estimación en muestreo probabilístico 2.6. Estimadores y sus propiedades básicas 2-8 Demostración 2