Estadística Descriptiva PDF
Document Details
Uploaded by NobleRhythm3046
Henry
Tags
Summary
Esta presentación introduce los conceptos fundamentales de estadística descriptiva, incluyendo temas como tipos de estadística, población y muestra, distribución de frecuencias, histogramas y conceptos de tendencia central.
Full Transcript
Estadística Descriptiva Data Science Agenda ➜ Tipos de estadística ➜ Población y muestra ➜ Distribución de frecuencias ➜ Histograma ➜ Tendencia ➜ Media, mediana y moda ➜ Explicación de la HW OBJETIVOS DE LA CLASE Al finalizar esta lecture estarás en la capacidad de…...
Estadística Descriptiva Data Science Agenda ➜ Tipos de estadística ➜ Población y muestra ➜ Distribución de frecuencias ➜ Histograma ➜ Tendencia ➜ Media, mediana y moda ➜ Explicación de la HW OBJETIVOS DE LA CLASE Al finalizar esta lecture estarás en la capacidad de… ➜ Conocer los conceptos fundamentales de la Estadística. ➜ Comprender el uso de la estadística aplicada con Python ¡COMENCEMOS! Estadística La estadística es el arte y la ciencia de reunir datos, analizarlos, presentarlos e interpretarlos. Esto ayuda a las personas que deben tomar decisiones una mejor comprensión del entorno, permitiéndoles así tomar mejores decisiones con base en mejor información. La mayor parte de la información estadística en periódicos, revistas, informes de empresas y otras publicaciones consta de datos que se resumen y presentan en una forma fácil de leer y de entender. A estos resúmenes de datos, que pueden ser tabulares, gráficos o numéricos se les conoce como estadística descriptiva. Inferencia estadística Una de las principales contribuciones de la estadística es emplear datos de una muestra para hacer estimaciones y probar hipótesis acerca de las características de una población mediante un proceso al que se le conoce como inferencia estadística. Población y muestra Población Muestra Cuando se examina un Cuando se examina una grupo entero o pequeña parte del universo completo de grupo. observaciones. Población Se puede hablar de la población de viviendas de un barrio; de la población de comprobantes contables de una empresa; de la población de alumnos en Henry, etc. Distribución de frecuencias Distribución de frecuencias ✔ Forma de presentación de los datos que facilita su tratamiento conjunto y permite una comprensión diferente de ellos. ✔ Es una tabla de datos con base en observaciones (frecuencias). ✔ La frecuencia es el número de casos que pertenecen a un valor determinado. Histograma Histograma Gráfico de la distribución de frecuencias, que se construye con rectángulos de superficie proporcional al producto de la amplitud por la frecuencia absoluta (o relativa) de cada uno de los intervalos de clase. Tendencia Tendencia central Se refiere al punto medio de una distribución. El sesgo se produce cuando al trazar una línea vertical que pase por el punto más alto de la curva dividirá su área en dos partes que no son iguales. Tendencia central Cuando se da el caso de que cada parte es una imagen de espejo de la otra, esta curva se denomina simétrica. Si la curva está sesgada hacia la derecha, se considera positivamente sesgada y si el sesgo se pronuncia hacia la izquierda, se denomina negativamente sesgada. Sesgos Media, Mediana, Moda Media aritmética (Promedio) ✔ Es la suma de los valores de todas las observaciones, dividido la cantidad de elementos de la muestra. Media aritmética Población Media aritmética de la muestra Ventajas Desventajas ✔ Un solo número que representa a un conjunto de ✘ Puede verse afectada por datos completo. valores extremos. ✔ Concepto familiar. ✘ Resulta un cálculo tedioso. ✔ Es única. ✘ Cuando existen valores de clase ✔ Es útil para la comparación de extremos abiertos ("60 años o medias de varios conjuntos de más", "18 años o menos", etc.) no datos. se puede calcular. La mediana ✔ Mide la observación central del conjunto. ✔ Para hallar la mediana de un conjunto de datos, primero se organizan en orden descendente o ascendente. ✔ El elemento que está más al centro del conjunto de números, la mitad de los elementos están por arriba de este punto y la otra mitad está por debajo. A tomar en cuenta Si el conjunto de datos contiene un número impar de elementos, el de en medio en el arreglo es la mediana; si hay un número par de observaciones, la mediana es el promedio de los dos elementos de en medio. Ventajas Desventajas ✔ No se ve afectada por valores ✘ Ciertos procedimientos extremos. estadísticos que utilizan la ✔ Es fácil de entender y se mediana son más complejos que calcula a partir de cualquier aquellos que utilizan la media. tipo de datos. ✘ Debemos ordenar los datos ✔ La podemos encontrar incluso antes de llevar a cabo cualquier cuando nuestros datos son cálculo. descripciones cualitativas, en lugar de números. Moda ✔ La moda es el valor que más se repite en el conjunto de datos. Ventajas Desventajas ✔ Se puede utilizar como una posición central para datos ✘ No se utiliza tan a menudo como tanto cualitativos como medida de tendencia central. cuantitativos. ✘ A veces, no existe un valor ✔ La mediana, los valores modal extremos no afectan ✘ Conjuntos de datos contienen indebidamente a la moda. dos, tres o más modas, es difícil ✔ La podemos utilizar aun interpretarlos y compararlos. cuando una o más clases sean de extremo abierto. Media, Mediana, Moda Sesgo Negativo La moda se encuentra en el punto más alto de la distribución, la mediana está a la izquierda y la media se encuentra todavía más a la izquierda de la moda y la mediana. Sesgo Positivo La moda se encuentra en el punto más alto de la distribución, la mediana está a la derecha de la moda y la media se encuentra todavía más a la derecha de la moda y la mediana. Dispersión, rango, varianza Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda sólo nos revelan una parte de la información que debemos conocer acerca de las características de los datos. Para aumentar nuestro entendimiento del patrón de los datos, debemos medir también su Dispersión Separación Variabilidad El rango ✔ El rango es la diferencia entre el más alto y el más pequeño de los valores observados La Varianza ✔ Es la suma de los cuadrados de las distancias entre la media y cada elemento de la población, dividido entre el número total de observaciones. La desviación estándar Coeficientes de variación Data Science Clase 2 Probabilidad Agenda ➜ Probabilidad ➜ Modelos matemáticos ➜ Reglas de conteo ➜ Interpretaciones de la probabilidad ➜ Diferencia entre estadística y probabilidad OBJETIVOS DE LA CLASE Al finalizar esta lecture estarás en la capacidad de… -Conocer los conceptos fundamentales de la probabilidad. -Saber las reglas de conteo, combinaciones y permutaciones. -Comprender la diferencia entre estadística y probabilidad. Probabilidad La probabilidad es una rama de las matemáticas que se ocupa de medir o determinar cuantitativamente la posibilidad de que ocurra un determinado suceso. Modelos matemáticos Modelos matemáticos Modelos determinísticos Cuando se realiza el modelo matemático de un fenómeno y en este se pueden manejar los factores que intervienen en su estudio con el propósito de predecir sus resultados, se llama modelo determinístico. Si lanzamos la moneda 100 veces, podemos utilizar el modelo determinístico para predecir que obtendremos aproximadamente 50 caras y 50 cruces, ya que la probabilidad de cada evento es exactamente del 50%. Modelos probabilísticos En este tipo de modelo, no podemos controlar los factores que intervienen en dichos modelos. A partir de lo cual surge la definición de modelo probabilístico o estocástico. Además de que dichos factores ocurren de tal manera que no es posible predecir sus resultados. Ejemplos: Tasa de natalidad o mortalidad Estimación de productos defectuosos de una línea de producción. Experimentos Un experimento aleatorio es el proceso de obtención de una observación en que se cumplen las siguientes condiciones: a) Todos los resultados posibles son conocidos. b) Antes de realizar el experimento el resultado es desconocido. c) Es posible repetir el experimento en condiciones ideales. Existen también experimentos del tipo determinísticos que se basan en la aplicación de modelos como el desarrollado en el ejemplo de la moneda. Experimento Resultado experimental Lanzar una moneda Cara, cruz Tomar una pieza para experimentarla Con defecto, sin defecto Realizar una llamada de ventas Vender o no vender Lanzar un dado 1,2,3,4,5,6 Espacio muestral Conjunto de todos los resultados posibles de un experimento, la colección de todos los posibles eventos. La forma en que se subdivide el espacio muestral depende del tipo de probabilidades que se va a determinar. ¿Cómo observar un espacio muestral? Clasificación cruzada de los eventos en una tabla llamada tabla de contingencias o tabla de probabilidad. Representación gráfica de los diversos eventos como uniones o intersecciones de círculos en un diagrama de Venn. Tabla de contingencias Diagrama de Venn Reglas de conteo ¿Para qué sirven? La regla de conteo para experimentos de pasos múltiples permite determinar el número de resultados experimentales sin tener que enumerarlos. Reglas de conteo Interpretaciones de la probabilidad. Corriente clásica “La probabilidad de un evento que se está llevando a cabo se calcula dividiendo el número de resultados favorables por el número de resultados posibles". Ej. el lanzamiento de un dado, y esperar que salga 1 Corriente frecuentista Se asigna un valor de probabilidad a un evento, a partir del cual se considera que ocurrirá. Ejemplo El éxito del lanzamiento de un cohete, no se puede obtener a partir de una gran cantidad de lanzamientos de cohetes; por tanto, la probabilidad se obtiene en forma frecuentista del éxito de un lanzamiento. Corriente subjetivista Se asignan probabilidades a eventos basándose en el conocimiento o experiencia que cada persona tiene sobre el experimento. La probabilidad asignada está sujeta al conocimiento que el científico tenga con respecto al fenómeno estudiado. Corriente bayesiana Se asignan probabilidades a los eventos después del experimento. Es decir, la asignación de probabilidades está basada en el conocimiento de la ocurrencia de eventos que están en dependencia con el evento de estudio. Estadística y Probabilidad Estadística Probabilidad Se basa en el estudio de los Se encarga del estudio de datos para analizarlos e variables aleatorias para medir la intentar obtener frecuencia con la que se consigue conclusiones sobre un resultado determinado en un fenómenos que ocurren de fenómeno aleatorio que en la forma aleatoria. mayoría de ocasiones depende del azar. Data Science Clase 3 Espacios muestrales y sucesos Agenda ➜ Clasificación de los sucesos ➜ Reglas de la adición ➜ Reglas de la multiplicación OBJETIVOS DE LA CLASE Al finalizar esta lecture estarás en la capacidad de… -Conocer los conceptos de espacios muestrales y Sucesos -Aplicar las reglas de adición y multiplicación -Reconocer sucesos condicionales e independientes. Clasificación de los sucesos Elementos básicos de la teoría de probabilidad: los resultados de un experimento aleatorio. Experimento: un ensayo o juego que puede constar de uno o más intentos Resultado: es la ocurrencia de uno, y sólo uno de los varios resultados posibles y no se sabe cual ocurrirá. La probabilidad de cualquier evento es igual a la suma de las probabilidades de los puntos muestrales que forman el evento. Clasificación de los sucesos Ejemplo: Simple: Coche nacional Excluyente: Que el auto sea nacional o importado, son sucesos colectivamente exhaustivos. Uno de ellos debe ocurrir. Si no ocurre nacional, debe ocurrir importado y viceversa. Dos sucesos son compatibles cuando pueden ocurrir al mismo tiempo. Ejemplo: nacional o más de 40 años. Esta definición no indica que estos sucesos deban necesariamente ocurrir en forma conjunta. Regla de la adición Se emplea para calcular la probabilidad de dos eventos P(A U B) = P(A) + P(B) - P(A ∩ B) P(A U B) = P(A) + P(B) Regla de la multiplicación Sucesos independientes Dos eventos son independientes cuando la ocurrencia o no ocurrencia de un suceso o evento no tiene ningún efecto en la probabilidad de ocurrencia de otro suceso o evento. Cuando para dos sucesos o eventos cualquiera A y B la P(A/B)=P(A), ambos sucesos son independientes. En ese caso también ocurre que P(B/A)=P(B), y a partir de estas dos últimas igualdades, se verifica que, si A y B son independientes P(A y B) = P(A) * P(B). Cuando para dos sucesos o eventos cualquiera A y B la P(A/B)=P(A), ambos sucesos son independientes. La ley de las suma de probabilidades sirve para calcular la probabilidad de la unión de dos eventos, la ley de la multiplicación es útil para calcular la probabilidad de la intersección de dos eventos. Ley de la multiplicación P(A∩ B)=P(B)P(A|B) P(A∩ B)=P(A)P(B|A) La notación | indica que se está considerando la probabilidad del evento A dada la condición de que el evento B ha ocurrido. Por tanto, la notación P(A | B) se lee “la probabilidad de A dado B”. Dos sucesos o eventos son condicionales cuando la ocurrencia o no ocurrencia de un suceso o evento afecta la probabilidad de ocurrencia del otro. Probabilidad condicional P(A│B)=P(A"∩ B" )/P(B) P(B|A)=(P(A"∩ B" ))/(P(A)) Cuando para dos sucesos o eventos cualquiera A y B la P(A/B)=P(A), ambos sucesos son independientes. En ese caso también ocurre que P(B/A)=P(B), y a partir de estas dos últimas igualdades, se verifica que, si A y B son independientes: P(AyB) = P(A)*P(B). Data Science Clase 4 Distribuciones de Probabilidad Agenda ➜ Distribuciones de probabilidad ➜ Variables discretas ➜ Variables continuas OBJETIVOS DE LA CLASE Al finalizar esta lecture estarás en la capacidad de… Entender el concepto de distribución de probabilidad y sus características. Distribuciones de Probabilidad Cuando a todos los posibles valores numéricos de una variable aleatoria se le asignan valores de probabilidad, ya sea mediante un listado o una función matemática el resultado es una distribución de probabilidad. La suma de las probabilidades de todos los resultados numéricos posibles debe ser igual a 1. Una función de probabilidad puede asignar valores de probabilidad a cada estado del espacio muestral. Características Las características generales de las distribuciones de probabilidad difieren según el tipo de variable aleatoria, discreta o continua, que se encuentre bajo estudio. Si la variable aleatoria es continua, no pueden listarse todos los posibles valores de la variable, motivo por el cual las probabilidades que se determinan por medio de una función matemática son gráficamente representadas por una función de densidad de probabilidad, o curva de probabilidad. Variables discretas Puede tomar solamente algunos valores dentro de un intervalo definido. Las probabilidades se representan con los símbolos pi o p(xi). El gráfico de la distribución de probabilidad se denomina gráfico de bastones. La condición de cierre se verifica realizando la sumatoria de las probabilidades p = 1. La distribución de probabilidad en el caso de una variable aleatoria discreta se denomina genéricamente función de probabilidad. Las probabilidades se calculan mediante la aplicación de las reglas provenientes de la teoría clásica de probabilidad así como de fórmulas específicas. Distribuciones Distribución Binomial Se utilizan para variables del tipo binario (lanzar una moneda) para describir el resultado del experimento. p= probabilidad de éxito. q= Probabilidad de fracaso. n= espacio muestral. k= número de éxitos. Ejemplo Una novela ha tenido un gran éxito, y se estima que el 80% de un grupo de lectores ya la han leído. En un grupo de 4 amigos aficionados a la lectura: ¿Cuál es la probabilidad de que en el grupo hayan leído la novela 2 personas? Caso binario : Haber leído la novela - No haber leído la novela. Distribución Poisson Se utiliza para describir sucesos en donde se considera que la probabilidad del suceso es muy pequeña. La variable aleatoria es el número de veces que ocurre un evento en un intervalo de tiempo, distancia, área, volumen u otra similar. lamda= espacio muestral. k= número de éxitos. Ejemplo La probabilidad de que en el lapso de una semana en el taller de la concesionaria uno de los autos vendidos tenga problemas cubiertos por la garantía es 0,02. Suponiendo que en el taller se atienden 450 autos semanalmente. ¿Cuál es la probabilidad de que se presenten 5 autos con problemas por semana? Distribución Hipergeométrica En un experimento de características hipergeométricas el resultado de una observación es afectado por los resultados de las observaciones previas, por tanto las probabilidades son condicionales. Ejemplo Una empresa que importa los autos que vende una concesionaria, desea hacer una encuesta de satisfacción a los compradores de estos autos. De una muestra de 80 autos, 30 son importados. Si se seleccionan 9 clientes. ¿Cuál es la probabilidad de que haya 2 que compraron autos importados?. Variables continuas Puede tomar cualquier valor en un determinado campo de variación. La probabilidad se representa con los símbolos fi o f(x). En un punto la probabilidad no tiene sentido. Sólo tiene sentido en un intervalo particular de la variable aleatoria xi, por más pequeño que éste sea. En el gráfico, se ve como una función continua f(x), y la probabilidad en sí misma, denominada A, se representa como un área entre los puntos x1 y x2. Distribución Normal Dada por una función de densidad y la probabilidad se obtiene en base a una variable aleatoria xi que se encuentra entre dos valores arbitrarios de x1 y x2, la cual está dada por el área A bajo la curva cuyo valor se encuentra integrando la función f(x) entre ambos valores, es decir que en tanto la probabilidad en un punto cualquiera no tiene sentido. Distribución Normal La solución práctica para obtener esas probabilidades consiste en utilizar la Tabla de Probabilidades apropiada para calcular cualquier probabilidad en el caso normal, sin que importe cuáles son los valores particulares de la variable aleatoria ni los parámetros de la distribución. Estandarización La distribución normal requiere la estandarización de las variables mediante la siguiente fórmula: X = Variable aleatoria. mu = Media. sigma = Desvío estándar. Ejemplo Luego de estandarizar las variables, se debe buscar el valor de Z en la tabla de distribución normal y determinar la probabilidad con base al área delimitada por el experimento. Data Science Clase 5 Sistemas de gestión de bases de datos Agenda ➜ Modelos relacionales ➜ Introducción a SQL ➜ Introducción a bases de datos OBJETIVOS DE LA CLASE Al finalizar esta lecture estarás en la capacidad de… ➜ Reconocer el concepto de Sistemas de Gestión de Bases de Datos y de Modelo de Entidad Relación. ➜ Conocer el Lenguaje Estructurado de Consulta (SQL). ➜ Comprender la diferencia entre bases de datos transaccionales y analíticas. Modelos relacionales El modelo de datos es el equivalente al plano de un edificio y representa de forma conceptual aquello que quiere diseñar. En pocas palabras… El modelado de datos es el proceso mediante el cual se definen los requisitos de negocios y se diseñan las mejores estructuras de datos para soportarlo. Modelo entidad-relación Para modelar la realidad y traducirla en estructuras… Se usa el modelo de ENTIDAD-RELACIÓN. ENTIDAD-RELACIÓN. Para construirlo se basa en el relevamiento del modelo de negocios de la organización a través de entidades, atributos y relaciones.. Relaciones Bases de datos ¿Qué son? Se representa mediante dos elementos Tipos de relaciones Las relaciones pueden ser 1-1 (uno a uno), 1-M ( uno a muchos), N- M (mucho a muchos), lo que se denomina cardinalidad. Introducción a SQL ¿Qué es SQL? SQL por sus siglas en inglés significa Lenguaje de Consulta Estructurada (Structured Query Language). Lenguaje diseñado para interactuar con las bases de datos relacionales. SQL se subdivide a su vez entre distintos tipos de sublenguajes como DDL, DML, DCL y TCL. Sublenguajes DDL: Data Definition Lenguage Sentencias que permiten definir la estructura de una base de datos, esta estructura está compuesta por “objetos” (no confundir con POO en Python). Los tipos de objetos que se pueden generar son: bases de datos, tablas, vistas, procedimientos. Las acciones que se pueden ejecutar son: crear, modificar, eliminar. Bases de datos Tablas Vistas Procedimientos On-Premise VS Cloud Relacionales vs No relacionales Analíticas vs Operacionales Data Science Clase 6 Introducción a DML Agenda ➜ Introducción a DML y ORM. ➜ DML (INSERT, UPDATE, DROP, SELECT, WHERE). ➜ Operadores ariméticos. OBJETIVOS DE LA CLASE Al finalizar esta lecture estarás en la capacidad de… ➜ Aplicar las instrucciones básicas para realizar consultas en una base de datos relacional DML SQL no solo permite interactuar con las bases de datos para crear sus objetos, sino que además nos permite escribir y recuperar datos. Esto es posible gracias al DML. DML (INSERT, UPDATE, DROP, SELECT, WHERE) Sentencias INSERTAR ELIMINAR MODIFICAR CONSULTAR Insertar datos Insertar datos (1) Se detallan en orden los campos y los registros a ingresar en cada uno de ellos. Por cada sentencia INSERT INTO se puede declarar un VALUES. Es la opción menos eficiente para insertar datos en una tabla. Insertar datos (2) Al igual que en la opción anterior, se detallan en orden los campos y los datos a ingresar en cada uno de ellos. Solo se declara una sentencia INSERT INTO y luego se listan en VALUES cada uno de los registros separados por coma. Insertar datos (3) Se declara la sentencia INSERT INTO y el nombre de la tabla, luego se repite el VALUES de la opción 2. La diferencia con las anteriores es que se deben insertar datos para todos los campos que forman parte de la tabla. Modificar datos Modificar datos (1) Se modifica un solo campo del registro. Es importante establecer cuidadosamente el registro a modificar, si no lo hacemos corremos el riesgo de modificar varios registros. Ese campo u otros pueden ser “filtrados” mediante la sentencia WHERE. Modificar datos (2) Se modifica más de un campo del registro. Eliminar datos Eliminar datos DELETE se utiliza para borrar registros, esto quiere decir que se eliminaran todos los campos de ese registro. Si verificamos un error en un solo campo no se debería eliminar el registro, sino realizar un UPDATE. Consultar datos Consultar datos Para consultar los datos en una tabla, se utiliza la sentencia SELECT, esta sentencia debe estar acompañada de manera obligatoria por FROM. SELECT es una sentencia de proyección, donde puedes “solicitar” los campos a consultar. En FROM se debe especificar cuál será la tabla a consultar. La cláusula WHERE permite establecer criterios de filtrado o segmentación. Operadores Operadores aritméticos c Al igual que en python, dentro de SQL se pueden utilizar operadores para realizar cálculos en la sentencia SELECT. Es necesario que los campos sean de tipos enteros o decimales. Operadores aritméticos Operadores relacionales Operadores lógicos ¿Qué es ORM? ORM Un ORM es un modelo de programación que permite interactuar con las estructuras de una base de datos relacional (SQL Server, MySQL, PostgreSQL, etc.), lo que ayuda a simplificar y acelerar el desarrollo de aplicaciones. Es a través de las aplicaciones como habitualmente se realizan los procesos de inserción, actualización, eliminación y consulta en una base de datos, el ORM permite a los desarrolladores simplificar estos procesos. ORM ORM en python, creando una tabla: Data Science KPI’S & BUSINESS APPLICATIONS Agenda ➜ KPIs & Business Applications ➜ Funciones en SQL ➜ Orden de las sentencias OBJETIVOS DE LA CLASE Al finalizar esta lecture estarás en la capacidad de… -Comprender el concepto y características de los KPI. -Conocer algunos ejemplos de los KPI’s más importantes. ¿Qué es un KPI? Indicador clave de rendimiento, es útil para el seguimiento de los resultados en función de un objetivo definido. Características Medible Relevante Alcanzable Aunque suene No te llenes de Los objetivos deben obvio, un KPI debe datos, selecciona ser realistas. de poder medirse. sólo los más importantes. Exacto Periódico Elige sólo la parte El indicador tiene más precisa de que ser analizable toda información periódicamente. recabada. Un KPI es un número, que puede obtenerse de manera directa o mediante alguna fórmula de cálculo. Por ejemplo, si el objetivo es incrementar las ventas anuales un 25 %, nuestro KPI sería el resultado de “VENTAS ACTUALES x 1.25”. Ese mismo KPI podría expresarse en N° de unidades, volumen de ventas, etc., depende del objetivo. Ejemplos de KPI’s KPI´s relevantes en tecnología Runway Es la cantidad de tiempo de vida que tiene una startup antes de quedarse sin efectivo, medido en número de meses. Gastos mensuales Runway Efectivo totales. (Expresado en meses). Por ejemplo, si una startup gasta USD $ 10 mil al mes y tienes USD $ 50 mil en caja, tiene 5 meses de “vida”. I KPI’S Conversion rate Permite conocer la capacidad de monetizar un negocio. La tasa de conversión es la cantidad de clientes que compraron mi producto sobre la cantidad total de clientes "registrados" o "interesados". Para cada paso se puede medir una conversión: Convertir registros registros visitas al sitio Convertir inicios de procesos inicios de procesos registros Convertir compras Compras Inicios del proceso de compra. CAC Los modelos de atribución permiten fidelizar esta métrica a partir de poder distinguir de qué campañas o anuncios se atribuye un cliente. Suma de los costos de Número total de CAC adquisición directos e usuarios captados indirectos de cada canal I KPI’S LVT Es el valor neto de ingresos que genera un cliente durante el tiempo que permanece en cartera. Compra Cantidad Tiempo LVT media de activo en compras cartera I KPI’S ROI ROI (Return On Investment): Esta métrica permite medir el retorno de un determinado proyecto o una empresa, puede darse el caso de que sea en base a estimaciones o variables concretas. Inversión Inversión ROI Ingresos total del total del proyecto proyecto I KPI’S ROI de una campaña de Facebook Ads ROI CI IT IT CT: Compras totales de clientes que fueron captados por Facebook Ads. I IT: Inversión total en anuncio de Facebook Ads KPI’S Churn rate El churn rate es la tasa de cancelación o abandono registrada en la cartera de clientes. Churn Clientes de Clientes al cierre del baja del período Nuevos rate período clientes del período I KPI’S Funciones en SQL Funciones en SQL Para construir KPI es importante relacionar distintas variables y obtener conclusiones a partir de los cálculos que realizamos. Comencemos ahora con un primer acercamiento en SQL. ORDER BY LIMIT COUNT SUM AVG MAX - MIN GROUP BY HAVING ORDEN DE LAS SENTENCIAS SELECT: definir los campos a mostrar en la consulta, 01 cuando utilizamos (*) mostramos todos los campos. FROM: establecer desde qué tabla se obtendrán los 02 campos. 03 WHERE: Condiciones de filtro. ORDEN DE LAS SENTENCIAS GROUP BY: Agrupar los campos en caso de tener 04 funciones de agregación en SELECT. HAVING: Se establecen filtros sobre los campos agregados, 05 es importante agrupar antes de filtrar con HAVING. ORDER BY: Por último, ordenamos según los criterios 06 necesarios. Test Estadísticos Clase 9 Data Science Agenda ➜ Tests Estadísticos ➜ Prueba de una hipótesis de investigación ➜ Prueba de la validez de una afirmación ➜ Prueba en situaciones de toma de decisión ➜ Formas para las hipótesis nula y alternativa ➜ Errores tipo I y II ➜ Pruebas de hipótesis para la media poblacional OBJETIVOS DE LA CLASE Al finalizar esta lecture estarás en la capacidad de… ➜ Usar los conceptos de Tests Estadísticos y Pruebas de Hipótesis. Test Por lo general, en la práctica, se tienen que tomar decisiones sobre poblaciones, partiendo de la información muestral de las mismas. Tales decisiones se llaman, decisiones estadísticas. Hipótesis Estadísticas Para la toma de decisiones se hacen supuestos que son formulados respecto del valor de algún parámetro, que pueden ser o no ciertos. En general, lo son sobre las distribuciones de probabilidad de las poblaciones. Pruebas de hipótesis ¿Qué son? En el procedimiento de test estadísticos, se utilizan las denominadas pruebas de hipótesis y en ellas se usan datos da una muestra para probar dos afirmaciones contrarias indicadas por: Hipótesis en Investigaciones La puntuación promedio de un Henry Challenge es de 78, Henry determina que a través de métodos innovadores puede aumentar esa media. En este caso, se establece un grupo de investigación que busca evidencias para concluir que el nuevo sistema aumenta la media del rendimiento. La hipótesis de investigación es, entonces, que el nuevo sistema proporciona un rendimiento medio mayor. Es decir, μ > 78. Como lineamiento general, una hipótesis de investigación se debe plantear como hipótesis alternativa. HO: μ 78. Hipótesis en afirmación Cuando lo que realizamos es una afirmación, en este caso sería que quienes rinden un HC obtienen por lo menos 78 puntos en promedio, tratamos de corroborar que esa afirmación es correcta. H0: μ >= 78. Ha: μ < 78. En toda situación en la que se desee probar la validez de una afirmación, la hipótesis nula se suele basar en la suposición de que la afirmación sea verdadera. Entonces, la hipótesis alternativa se formula de manera que rechazar H0 proporcione la evidencia estadística de que la suposición establecida es incorrecta. Hipótesis en Decisiones / Alternativa Existen además otras formas de realizar el planteo de H0 y Ha, como cuando se debe tomar una decisión. Por ejemplo controlar la calidad de un determinado repuesto en donde debe medir obligatoriamente 10 cm. H0: μ = 10. HA: μ ! = 10. Lo que determina solo dos alternativas. Resumen Metodología 01 Formular la hipótesis nula 02 Formular la hipótesis alternativa 03 Especificar el nivel de significación. Metodología 04 Determinar el tamaño de la muestra. 05 Determinar el estadístico de prueba. Establecer los valores críticos que dividen 06 las zonas de rechazo y de no rechazo. Metodología 07 Obtener los datos y calcular los estadísticos. Determinar si el estadístico de prueba ha 08 caído en la región de rechazo o en la de no rechazo. 09 Determinar la decisión estadística. Metodología Expresar la decisión estadística en términos 10 del problema. Nivel de significación La distribución muestral del estadístico analizado, suele seguir una distribución estadística conocida, como la distribución normal estandarizada, la distribución t o la distribución chi cuadrado, éstas se utilizan como ayuda para determinar si la hipótesis nula es cierta. Existen dos tipos de errores Tamaño de la muestra El tamaño de la muestra se determina al tomar en cuenta la importancia de Error de Tipo I y Error de Tipo II y al considerar las restricciones presupuestarias al efectuar el estudio. Tamaño de la muestra Generalmente las muestras grandes, permiten detectar incluso diferencias pequeñas entre los valores hipotéticos los parámetros poblacionales. Para un nivel de Error I dado, aumentar el tamaño de la muestra reducirá Error II y así se incrementará el poder de la prueba para detectar que la hipótesis nula es falsa. Estadístico de prueba. Una vez definidas las hipótesis nula y alternativa, y el tamaño de la muestra se puede establecer la distribución a utilizar: normal, t- student ó chi cuadrado. Zonas de rechazo y de no rechazo Se representa como un área (como toda probabilidad en una función de densidad), que se ubica a la derecha, a la izquierda o a ambos lados (en este caso, con la mitad del Error de Tipo I en cada lado) según como se haya definido la Hipótesis alternativa. Obtener los datos y calcular los estadísticos Este paso está reservado a la efectiva realización de la investigación muestral. Es decir que en este momento es cuando se realiza el estudio tendiente a obtener los valores muestrales y calcular los estadísticos. Distribución Normal Se asignan probabilidades a los eventos después del experimento. Es decir, la asignación de probabilidades está basada en el conocimiento de la ocurrencia de eventos que están en dependencia con el evento de estudio. t-Student Chi Cuadrado Determinar la decisión estadística Se determina la decisión de la prueba de hipótesis - si z1 > zc entonces z1 cae en la “zona de rechazo” y se considera que las diferencias entre z1 y zc son significativas entonces Rechazo la Hipótesis nula. - si z1 ≤ zc entonces z1 cae en la “zona de no rechazo” y se considera que las diferencias entre z1 y zc no son significativas entonces No Rechazo la Hipótesis nula. Pruebas de una cola Cuando nos encontramos frente a una prueba de hipótesis del tipo: "H0: μ x" o "H0: μ>= x" y "H1: μ< x" , la denominamos prueba de una cola. Pruebas de una cola Pruebas de dos colas Cuando nos encontramos frente a una prueba de hipótesis del tipo: "H0: μ= x" y "H1: μ!= 1x", la denominamos prueba de dos colas. Pruebas de dos colas