Temario del Cuerpo General Administrativo de la Administración del Estado, PDF
Document Details
Uploaded by GoldRuthenium
IES Blas de Prado
Tags
Summary
This document is a guide for the General Administrative Body of the State Administration, specifically focusing on the subject of statistics. It covers fundamental concepts, variables, frequency distributions, statistical tables, and graphical representations.
Full Transcript
Temario del Cuerpo General Administrativo de la Administración del Estado, especialidad Estadística (CAMBIO RÉGIMEN JURIDICO) Tema 4: Estadística. Conceptos básicos. Variables estadísticas. Distribuciones de frecuencias. Tipos de frecuencias. Tablas estadísticas. Representación gráfica. ÍNDICE Te...
Temario del Cuerpo General Administrativo de la Administración del Estado, especialidad Estadística (CAMBIO RÉGIMEN JURIDICO) Tema 4: Estadística. Conceptos básicos. Variables estadísticas. Distribuciones de frecuencias. Tipos de frecuencias. Tablas estadísticas. Representación gráfica. ÍNDICE Tema 4. Estadística. Conceptos básicos. Variables estadísticas. Distribuciones de frecuencias. Tipos de frecuencias. Tablas estadísticas. Representación gráfica......................................................................................................................... 1 4.1 Estadística........................................................................................................... 1 4.2 Conceptos básicos............................................................................................... 2 4.3 Variables estadísticas.......................................................................................... 2 4.4 Distribuciones de frecuencias............................................................................. 5 4.4.1 Tipos de frecuencias........................................................................................ 5 4.4.2 Tablas estadísticas........................................................................................... 7 4.5 Representación gráfica...................................................................................... 11 Tema 4 Tema 4. Estadística. Conceptos básicos. Variables estadísticas. Distribuciones de frecuencias. Tipos de frecuencias. Tablas estadísticas. Representación gráfica. 4.1 Estadística Existen múltiples definiciones de la palabra estadística, ahora bien, lo relevante es que se buscan leyes de comportamiento a partir de la observación de la realidad que sirvan para: definir, cuantificar o describir un conjunto de casos, permitir la posibilidad de realizar predicciones sobre su evolución y si es necesario servir de apoyo en la toma de decisiones adecuadas. Por ejemplo, gracias a las investigaciones estadísticas realizadas en los últimos años sobre la población española se ha constatado que el índice de natalidad en nuestro país ha descendido considerablemente, teniendo uno de los más bajos de Europa. Esta descripción hace posible predecir que España sufrirá en los próximos años un envejecimiento progresivo de su población. Todo ello permitirá a las autoridades competentes tomar decisiones estratégicas sobre política sanitaria (por ejemplo, mayores dotaciones en geriatría) o económica (por ejemplo, elevación progresiva de las cuotas de la seguridad social para poder sostener el actual sistema de pensiones). Los conocimientos que componen la Estadística se pueden agrupar en tres ramas: La estadística descriptiva trata del recuento, ordenación y clasificación de un conjunto de información. Es decir, se encarga de analizar de forma descriptiva los datos con el objeto de caracterizarlos y calificarlos, sin pretender inferir o generalizar a un subconjunto más amplio los resultados obtenidos. El cálculo de probabilidades que tiene como objetivo el estudio de métodos de análisis del comportamiento de los fenómenos aleatorios. Inferencia estadística comprende los métodos y procedimientos para deducir propiedades de un fenómeno que se estudia en una población, a partir de una pequeña parte de la misma, llamada muestra. Tema 4 No se debe confundir Estadística como ciencia, con estadísticas en plural. Estas últimas son colecciones de datos numéricos presentados de forma sistemática que veremos más adelante. 4.2 Conceptos básicos Se define Población como cualquier conjunto de personas, objetos, ideas o acontecimientos que se someten a la observación estadística de una o varias características que comparten sus elementos y que permiten diferenciarlos. A cada uno de los componentes de la población se le denomina elemento o unidad estadística de la población. En un estudio estadístico la información se obtiene de los elementos, por lo que también se denominan unidades de análisis. En algunas ocasiones será posible investigar a toda la población, mientras que en otras ocasiones tendremos que conformarnos con una muestra, por eso resulta conveniente para la realización de estudios disponer de un buen directorio de unidades estadísticas. De una población observamos una serie de caracteres o características. Un carácter es cada una de las propiedades, rasgos o cualidades que poseen los elementos de una población. Los caracteres proporcionan información del elemento, sus datos. En ocasiones se les denomina características. Las tres propiedades que debe cumplir un carácter o una característica son: Que sea observable Poseer varios grados, modalidades o valores posibles Cada uno de los elementos de la población debe pertenecer a una y solo una de las modalidades, o tomar uno y solo un valor de la característica observada. Por ejemplo la nacionalidad, el color de pelo, la edad, el sexo, estatura, profesión,... son características que se pueden observar de la población de un determinado territorio. 4.3 Variables estadísticas De una población observamos una serie de características que cuantificamos mediante variables. Las variables pueden ser clasificadas en dos grupos: Tema 4 a) Variable cualitativa o atributo: es cualquier carácter de los elementos de una población no susceptible de ser medido numéricamente. Es decir, este tipo de variables no toman valores numéricos y describen cualidades. Las variables cualitativas permiten clasificar los elementos de la población determinando si el elemento pertenece o no a una modalidad, aunque esta pueda identificarse con un código numérico. Ejemplo: La provincia de residencia de una persona es una variable cualitativa aunque podría identificarse cada provincia con su código correspondiente: 8 Barcelona, 15 A Coruña, 28 Madrid. Cada una de las diferentes formas en que pueden presentarse se denomina modalidad. Cuando un atributo presenta dos modalidades se le denomina dicotómico y cuando presenta más de dos modalidades, múltiple. Ejemplo: Variable cualitativa dicotómica: el sexo de una persona presenta dos modalidades, hombre o mujer. Variable cualitativa o atributo de modalidad múltiple: Color favorito de una persona, (rojo, azul, amarillo, verde...), nacionalidad de una persona (española, italiana, portuguesa,...). A su vez se pueden clasificar atendiendo a las propiedades de su escala de medida como: Escala Nominal: es cuando los posibles valores de la variable se pueden clasificar en categorías no numéricas y mutuamente excluyentes y entre las cuales no es posible determinar un orden. Se denominan variables nominales. Generalmente se suele asignar un número a cada posible valor. A este hecho se le denomina codificación. Podemos encontrar como ejemplo de este tipo las variables cualitativas: partido político al que pertenece una persona, estado civil, raza,... Escala Ordinal: es cuando los posibles valores de la variable se pueden clasificar en categorías no numéricas y mutuamente excluyentes pero a diferencia de las de escala nominal, puede establecerse algún orden entre las categorías. Por ejemplo: nivel de estudios, grado de satisfacción de un producto o servicio,… b) Variable cuantitativa: es cualquier carácter de los elementos de una población susceptible de tomar valores numéricos. La variable observada en todos los Tema 4 elementos de la población no se presenta normalmente con la misma intensidad en cada uno de ellos. Estas intensidades son números que corresponden a los diferentes valores de la variable. Las variables cuantitativas se clasifican en continuas o discretas, según admitan o no infinitos valores intermedios entre dos valores próximos respectivamente: se puede decir, con carácter general, que las variables discretas toman únicamente un conjunto finito (o a lo sumo infinito numerable) de valores de un intervalo y normalmente se limitan a contar el número de veces que ocurre un suceso y las continuas pueden tomar infinitos valores de un intervalo. Ejemplo: Variable cuantitativa discreta: número de alumnos en una clase o número de hijos (será 0, 1, 2,3,...pero nunca 2,56). Es fácil ver que entre el 1 y el 3, sólo puede haber un valor, el 2 Variable cuantitativa continua: peso de los alumnos de una clase (75 kg, 77 kg, 75,5 kg, 76 kg,...). Entre el 75 y 77, además del 76, hay infinitos posibles valores, por ejemplo: 75,5, 75,55, 75,55555, 75,55555555 Acabamos de ver la clasificación de las variables, a continuación vamos a introducir un par de conceptos que son el recorrido y el dominio. El recorrido de una variable cuantitativa queda determinado por la diferencia entre el valor máximo y el mínimo de esta variable. También se denomina rango. Ejemplo: Si consideramos los pesos de una población de diez personas, en kg: 67, 78, 95, 63, 53, 56, 73, 79, 86, 55. El rango sería: 95-53=42 El dominio es el conjunto de todos los diferentes valores o modalidades posibles que puede tomar la variable. Si la variable toma solamente un valor se dice que es una constante. Notación: En general, dada una variable X, a los posibles valores que puede tomar los representamos por 𝒙𝟏 , 𝒙𝟐 , …., 𝒙𝒌 , siendo este conjunto el dominio de la variable. Ejemplo: En el caso de la población Provincias de España, el dominio sería la enumeración de cada una de las provincias españolas. Tema 4 4.4 Distribuciones de frecuencias Cuando se realiza una observación estadística se obtiene en la mayoría de ocasiones, un gran volumen datos que resulta poco manejable para su análisis estadístico, puesto que por una parte, estos datos están desordenados y, por otra, se pueden repetir varias veces algunos valores. Por ello, el análisis de dichos datos comienza con una ordenación y presentación de los resultados obtenidos, para facilitar su manejo e interpretación. Al proceso de ordenar y agrupar datos o valores comunes de una variable se le denomina tabulación. Se llama distribución de frecuencias la disposición final obtenida para los datos. Recordemos que la Estadística Descriptiva elabora técnicas para la presentación y reducción de datos. Para realizar todo esto, resulta necesario introducir algunos conceptos y notación matemática. Supongamos que tenemos una población compuesta por 𝑁 elementos. Sea 𝑋 la variable de estudio y supongamos que 𝑋 puede tomar un número k de valores distintos. Representamos dichos valores por 𝑥1 , 𝑥2 , … 𝑥𝑘. De manera general, se representará cada valor por 𝑥𝑖 , donde i variará desde 1 hasta k. 4.4.1 Tipos de frecuencias Frecuencia absoluta de un valor 𝑥𝑖 es el número de veces que se repite cada valor o modalidad.Se suele representar por 𝑛𝑖 , donde i variará desde 1 hasta k. o Evidentemente, 𝑛𝑖 es un número entero mayor o igual que cero. o La suma total de todas las frecuencias absolutas es el tamaño de la población de elementos observados. Se denomina frecuencia total y se representa por N. ∑𝑘𝑖=1 𝑛𝑖 = 𝑛1 +𝑛2 +𝑛3 +……+𝑛𝑘 = 𝑁 Frecuencia relativa de un valor 𝑥𝑖 es el cociente obtenido al dividir la frecuencia absoluta de un determinado valor 𝑥𝑖 entre la suma de las frecuencias Tema 4 absolutas de todos los valores observados (frecuencia total), es decir, el tamaño de la población. Se representa por 𝑛𝑖 𝑓𝑖 = 𝑁 Se verifica que: a) La frecuencia relativa será un valor comprendido entre 0 y 1. b) La suma de todas las frecuencias relativas de todos los valores de la variable estadística es siempre la unidad. 𝑛𝑖 𝑛1 𝑛2 𝑛𝑘 (𝑛1 + 𝑛2 +⋯.+𝑛𝑘 ) 𝑁 ∑𝑘𝑖=1 𝑓𝑖 = ∑𝑘𝑖=1 = + +……+ = = =1 𝑁 𝑁 𝑁 𝑁 𝑁 𝑁 Frecuencia absoluta acumulada de un valor 𝑥𝑖 es igual a la frecuencia absoluta de ese valor más la suma de las frecuencias absolutas de los valores menores que él. Se representa por 𝑁𝑖. Suponiendo que los valores de X están ordenados crecientemente, tal que 𝑥1 < 𝑥2 < ⋯ < 𝑥𝑘.La frecuencia absoluta acumulada de 𝑥𝑖 será: 𝑁𝑖 = 𝑛1 +𝑛2 + …..+𝑛𝑖−1 +𝑛𝑖 = ∑𝑖𝑗=1 𝑛𝑗 La frecuencia absoluta acumulada del último valor de la variable tiene que coincidir con la frecuencia total N, por ser la suma de todas las frecuencias absolutas. En el caso de variables cualitativas de escala nominal no tiene sentido calcularla puesto que las modalidades de nuestra variable no se pueden ordenar de menor a mayor. Frecuencia relativa acumulada de un valor 𝑥𝑖 es igual a la suma de las frecuencias relativas de todos los valores menores o iguales que 𝑥𝑖 , o bien la frecuencia absoluta acumulada, dividida por el número total de datos. Se representa por 𝐹𝑖. Es decir, suponiendo que los valores de X están ordenados crecientemente, tal que 𝑥1 < 𝑥2 < ⋯ < 𝑥𝑘 , la frecuencia absoluta acumulada de 𝑥𝑖 será: o 𝐹𝑖 = ∑𝑖𝑗=1 𝑓𝑗 = 𝑓1 + 𝑓2 +….+𝑓𝑖−1 +𝑓𝑖 𝑁𝑖⁄ o También se puede obtener 𝐹𝑖 = 𝑁, i=1,..., k Tema 4 4.4.2 Tablas estadísticas Hasta este momento, el proceso seguido con los datos obtenidos en la observación es el siguiente: Ordenación Agrupación de los valores que se repiten (frecuencias) Las distribuciones de frecuencias se presentan mediante tablas estadísticas. En líneas generales estas se diseñan de la siguiente manera: en una columna se disponen los valores o modalidades de la variable (cuantitativa o cualitativa) en estudio y en otra/s la/s frecuencia/s correspondiente/ a ese determinado valor. Si se observa un solo carácter de la población, sus datos se presentarán mediante una tabla denominada distribución de frecuencias unidimensional, en la que los datos que se repiten aparecen agrupados. A la hora de tabular se debe tener en cuenta el número de elementos observados así como el número de valores o modalidades distintos que toma la variable. En el caso de variables cualitativas, la tabla estadística contiene en la primera columna la modalidad de la variable y en la segunda y siguientes las frecuencias correspondientes. Ejemplo: Se conoce que la distribución de alumnos de un centro de aprendizaje de idiomas según sexo, es de 64 mujeres y 46 hombres. El tamaño de la población sería 110 alumnos. Frecuencias Frecuencias Modalidades absolutas relativas (número de del sexo personas ) Mujeres 64 64/110 Varones 46 46/110 Vamos a realizar una distinción, que modifica ligeramente la construcción de las tablas estadísticas. a) Datos no agrupados en intervalos Tema 4 b) Datos agrupados en intervalos Datos no agrupados en intervalos Supongamos que disponemos de un gran número de observaciones pero los datos diferentes son pocos, siendo estos últimos, valores discretos de la variable cuantitativa o modalidades distintas de un atributo. En este caso se presentan los datos en una distribución de frecuencias, de tal forma que en la tabla se reflejan en la primera columna los pocos valores o modalidades del carácter o variable y, en las siguientes columnas, cada uno de los diferentes tipos de frecuencias de cada dato. Como hemos indicado anteriormente, para realizar la tabulación de los datos obtenidos, en primer lugar, se tienen que contar los elementos con igual valor o modalidad (frecuencia absoluta), utilizando un método de punteo o conteo. Con estos datos iniciales se determinan el resto de frecuencias. La tabla tendría las siguientes cabeceras Valores de la Frecuencia Frecuencia variable ordenados absoluta Frecuencia relativa de menor a Frecuencia acumulada relativa 𝑓𝑖 (o acumulada 𝐹𝑖 (o mayor(𝑥𝑖 ) absoluta (𝑛𝑖 ) (𝑁𝑖 ) en %) en %) Datos agrupados en intervalos En el caso de variables cuantitativas continuas o variables discretas que tienen un elevado número de valores, si se construyeran tablas como las indicadas en el caso inmediatamente anterior se obtendrían unas columnas larguísimas, que carecerían de utilidad. Se busca facilitar los cálculos y atribuir un significado a datos dispersos, aunque suponga pérdida de información. Se pretende simplificar sin perder demasiada información, obteniendo intervalos o clases homogéneos, aunque no hay criterio estándar para esta agrupación. o Clases: son cada uno de los diferentes grupos que se forman al reunir los valores correlativos o próximos de la variable. La frecuencia correspondiente a cada clase será la suma de las frecuencias de todos los valores distintos que forman la clase. Lo ideal es trabajar con distribuciones de entre 5 y 15 clases. o Límites de clase: Son los valores extremos de cada clase. Denotaremos con 𝐿𝑖−1 el límite inferior o valor menor de la clase i y 𝐿𝑖 , límite superior o valor mayor de la clase i. Tema 4 o Intervalo: es la identificación de una clase por sus límites de clase. Los intervalos normalmente acaban en un número (límite superior) que es el mismo con el que empieza el intervalo siguiente (límite inferior), y suelen ser de la forma (𝐿𝑖−1 , 𝐿𝑖 ] es decir abiertos inferiormente y cerrados superiormente. Hay una regla para determinar aproximadamente el número de clases seguida por algunos autores, Sturges propone tomar como número de intervalos k: k= 1 + (3,3 log N) o Amplitud del intervalo: Es la diferencia entre el límite superior y el inferior de la clase. Se suele representar por 𝑎𝑖 = 𝐿𝑖 − 𝐿𝑖−1.La amplitud de la clase puede ser constante o no, dependiendo del estudio que se lleve a cabo. Hay también una regla aproximada para determinar la anchura de cada intervalo: 𝑎𝑛𝑐ℎ𝑢𝑟𝑎 = (𝑣𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜 − 𝑣𝑎𝑙𝑜𝑟 𝑚𝑖𝑛𝑖𝑚𝑜)/𝑛º 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠⬚ o Marca de clase: valor concreto representativo de cada clase, necesario para el tratamiento numérico. Normalmente se toma el valor central del intervalo que se calcula hallando la media de los dos límites del intervalo y se denota por 𝑐𝑖 = (𝐿𝑖 + 𝐿𝑖−1 )/2. La pérdida de información que se produce al agrupar los valores de la variable y tomar como valor representativo la marca de clase da lugar a unos valores distintos a los que se obtendrían si no se realizase el agrupamiento. La diferencia entre ambos valores se denomina “error de agrupamiento”. Hay que tener en cuenta que este tipo de distribuciones no suelen utilizarse para atributos por la dificultad que tiene el agrupar modalidades y por serles difícilmente aplicables la mayoría de los conceptos empleados en estas distribuciones: límites, amplitud de intervalos, marca de clase,... La tabla obtenida tendría las siguientes columnas: Frecuencia Frecuencia Frecuencia Frecuencia Marcas absoluta relativa absoluta relativa Intervalos de clase acumulada acumulada (𝐿𝑖−1 , 𝐿𝑖 ] 𝑐𝑖 𝑛𝑖 𝑁𝑖 𝑓𝑖 𝐹𝑖 Ejercicio 4.1 La edad de una población viene representada por la siguiente distribución de frecuencias Tema 4 Años