Clase 2: Práctica Ciencia de Datos PDF
Document Details
Uploaded by PlentifulEarthArt
Tags
Summary
Esta clase de ciencia de datos incluye ejemplos prácticos y un ejercicio sobre análisis de datos. El trabajo en equipo se centra en el analisis de un conjunto de datos (dataset) con un enfoque en explorar, limpiar, y modelar los datos.
Full Transcript
CIENCIA DE DATOS BI Ejemplo de Análisis de Datos Ejemplo: Anycar Preguntas Clave Aplicaciones Prácticas Usamos el ejemplo de Es crucial identificar el El análisis de datos es Anycar para ilustrar la tiempo necesario para clave en campañas importan...
CIENCIA DE DATOS BI Ejemplo de Análisis de Datos Ejemplo: Anycar Preguntas Clave Aplicaciones Prácticas Usamos el ejemplo de Es crucial identificar el El análisis de datos es Anycar para ilustrar la tiempo necesario para clave en campañas importancia del análisis y el impacto de políticas y encuestas, análisis de datos, decisiones sin permitiendo decisiones considerando información adecuada. informadas sobre la situaciones como las intención de voto. billeteras virtuales. Desafíos en el Análisis de Datos Inconsistencia de Datos 1 En una empresa de comercio electrónico con sucursales diversas, los datos no unificados presentan un 2 Impacto a Largo Plazo desafío significativo para el análisis. Con cada sucursal manejando su propia base de datos, es difícil obtener una visión global, lo que Decisiones Sin Información 3 obstaculiza la toma de decisiones Sin acceso inmediato a datos, es estratégicas. probable que las decisiones sean ineficaces y que la empresa no logre identificar áreas de mejora. Valor de los Datos Según Clive Humby, "Los datos son el nuevo petróleo; son valiosos, pero deben ser refinados para crear valor". Esta afirmación subraya la necesidad de análisis de datos para obtener insights significativos. Por lo tanto, es vital procesar y analizar los datos adecuadamente para que sean útiles y realmente tengan un impacto positivo en las decisiones y estrategias empresariales. Introducción a la Ciencia de Datos La ciencia de datos es un campo interdisciplinario que utiliza métodos científicos, procesos, algoritmos y sistemas para extraer conocimiento e información a partir de datos estructurados y no estructurados. Ejercicio Práctico TRABAJO EN EQUIPOS !! Utilicen el dataset DATOS_ALUMNOS ubicado en el DRIVE en la carpeta de UNIDAD 1 (Actividad 1) y realicen lo siguiente: 1- Copiar el DATASET (hacer una copia en el drive). 2- REALICEN un análisis exploratorio hojas que tiene, datos (columnas) que tiene el dataset. Información ingresada. 3- A partir del análisis, identifiquen: Cálculos que pueden realizar con los datos que disponen. Problemas que se presentan en los datos que analizan. Definir que otros datos serian importantes de tener para algún análisis adicional. Conclusiones que pueden obtener. 4- REALICEN un informe por escrito para transmitir el análisis del punto 3, incluyendo los insights que encontraron. Fundamentar cada conclusión del informe. 5- PRESENTEN y DEFIENDAN su informe. PROCESO DE CIENCIA DE DATOS PROCESO DE CIENCIA DE DATOS VISUALIZAR Y HACER UNA OBTENER EXPLORAR ANALIZAR COMUNICAR PREGUNTA DATOS DATOS DATOS LOS RESULTADOS ETL (Extract, Transform, Load) Es el proceso de extraer, transformar y cargar los datos Extraemos datos de multiples fuentes (bdd, PostgreSQL, Oracle, CSV, Excel. Transformación consiste en reglas que pueden incluir: FILTRAR, ELIMINAR DUPLICADOS, REEMPLAZAR DATOS, CALCULAR DATOS NUEVOS, AGRUPAR VALORES, UNIR O COMBINAR DATOS, DIVIDIR COLUMNAS, PIVOTEAR TABLAS. Load o carga de datos: es el proceso final del ETL. Los datos listos para el análisis de los mismos. CIENCIA DE DATOS Exploración y BI Visualización La Adquisición de Datos: El Cimiento de la Ciencia de Datos La adquisición de datos es la piedra angular de cualquier proyecto de Ciencia de Datos; sin un conjunto de datos sólido y representativo, incluso los algoritmos más avanzados pueden fallar en entregar soluciones precisas y efectivas. Invertir en la recopilación y curación de datos de alta calidad es invertir en el éxito futuro del proyecto. El Proceso de Adquisición de Datos La adquisición de datos es el proceso de recopilar información relevante. Es una fase crítica, ya que la cantidad, calidad y diversidad de los datos recopilados determinarán en gran medida la precisión y eficacia del modelo resultante. Los datos pueden provenir de diversas fuentes, incluyendo bases de datos internas, sensores, encuestas, registros públicos y medios sociales, entre otros. Fuentes de Datos 1 Los datos pueden provenir de diversas fuentes, incluyendo bases de datos internas, sensores, encuestas, registros públicos y medios sociales, entre otros. 2 Calidad de los Datos La cantidad, calidad y diversidad de los datos recopilados determinarán en gran medida la precisión y eficacia del modelo resultante. 3 Importancia de la Adquisición La adquisición de datos es una fase crítica en el desarrollo de modelos de IA. Pasos Esenciales en la Adquisición de Datos La adquisición de datos implica varios pasos esenciales, como la identificación de fuentes de datos relevantes, la recopilación de datos brutos, el almacenamiento seguro de los datos y la documentación de los métodos de recopilación. Además, es fundamental garantizar la calidad de los datos mediante la limpieza y preprocesamiento, eliminando datos erróneos o incompletos y transformando los datos en un formato utilizable para el análisis y modelado posteriores. 1 Identificación de Fuentes 4 Documentación Identificar fuentes de datos relevantes para Documentar los métodos de recopilación de datos. el proyecto de IA. 2 Recopilación de Datos 5 Limpieza y Preprocesamiento Recopilar datos brutos de las fuentes identificadas. Limpiar y preprocesar los datos para eliminar errores e inconsistencias. 3 Almacenamiento Seguro 6 Transformación de Datos Almacenar los datos de forma segura y confiable. Transformar los datos en un formato utilizable para el análisis y modelado. Desafíos y Responsabilidades Éticas en la Adquisición de Datos La adquisición de datos presenta varios desafíos, como el manejo de grandes volúmenes de datos, la garantía de la representatividad de los datos y la protección de la privacidad y seguridad de la información. Además, es crucial abordar consideraciones éticas, como obtener el consentimiento informado para la recopilación de datos personales y garantizar la equidad y la no discriminación en los conjuntos de datos recopilados. Manejo de Representatividad Privacidad y Consentimiento Grandes de los Datos Seguridad Informado Volúmenes Asegurar que los datos Proteger la privacidad y Obtener el Gestionar grandes recopilados sean seguridad de la consentimiento cantidades de datos de representativos de la información personal informado de las manera eficiente y población objetivo. recopilada. personas antes de efectiva. recopilar sus datos personales. La Importancia de la Calidad de los Datos La calidad de los datos es un aspecto fundamental en la adquisición de datos. Datos precisos, completos y representativos son esenciales para entrenar modelos de IA confiables. Invertir tiempo y recursos en asegurar la calidad de los datos puede prevenir problemas en etapas posteriores del desarrollo del proyecto, como el sobreajuste o el sesgo en los modelos de IA. Precisión Los datos deben ser precisos y reflejar la realidad. Completitud Los datos deben ser completos y no contener valores faltantes. Representatividad Los datos deben ser representativos de la población objetivo. Evaluando la Calidad de los Datos Evaluar la calidad de los datos es crucial para garantizar la confiabilidad de los modelos de IA. Se pueden utilizar diferentes métricas para evaluar la calidad de los datos, como la unicidad, la completitud, la consistencia, la oportunidad, la validez y la precisión. Unicidad Asegura que no haya duplicaciones ni superposición de valores en los conjuntos de datos. Completitud Mide la capacidad de los datos para entregar todos los valores requeridos de manera efectiva. Consistencia Se refiere a la uniformidad de los datos a medida que se mueven a través de redes y aplicaciones. Oportunidad Los datos deben estar disponibles cuando se necesitan. Validez Los datos deben ser recopilados de acuerdo con reglas y parámetros de negocio definidos. Precisión Los datos deben reflejar escenarios reales. Obteniendo Más Datos: Datos Primarios y Secundarios Una posible clasificación es en datos primarios y secundarios. Los datos primarios son datos que nosotros mismo creamos, mientras que los datos secundarios son datos recopilados de fuentes que alguien más posee. Datos Primarios Datos Secundarios Datos que nosotros mismo creamos. Por Datos recopilados de fuentes que alguien ejemplo, cuando entrevistamos a personas más posee. Por ejemplo, cuando se toman para recopilar comentarios sobre el datos de encuestas públicas realizadas por producto. el gobierno. Ejemplo de Datos Primarios Una empresa de moda decide crear una encuesta en línea para preguntar a sus clientes sobre sus preferencias en estilos y colores para la próxima colección. ¿Este tipo de información recopilada se considera un ejemplo de datos primarios o secundarios? Datos Primarios La empresa está recopilando datos directamente de sus clientes, lo que los convierte en datos primarios. Ejemplo de Datos Secundarios Un analista financiero utiliza informes económicos publicados por el Banco Central para evaluar la estabilidad económica del país y su impacto en el mercado de valores. ¿Estos informes representan un ejemplo de datos primarios o secundarios? Datos Secundarios El analista está utilizando datos recopilados por el Banco Central, lo que los convierte en datos secundarios. Obteniendo Más Datos: Datos Internos y Externos Otra clasificación puede ser en datos internos y externos. Los datos internos son datos que creamos, poseemos o controlamos, mientras que los datos externos son datos de fuentes externas fuera de la organización. Datos Internos Datos Externos Datos que la organización posee, controla o Datos de fuentes externas fuera de la recopila. Los datos de ventas o los datos organización, que podrían estar disponibles financieros de la organización son ejemplos públicamente o ser de propiedad privada de datos internos. como Amazon, Facebook, Google, etc. Datos Internos vs. Externos ejemplos Datos Internos Datos Externos Una cadena de supermercados utiliza su Una empresa de marketing digital utiliza sistema de gestión de inventario para estadísticas de uso y tendencias de redes analizar las tendencias de compra de sus sociales obtenidas de una plataforma de clientes y ajustar su estrategia de análisis de medios sociales para planificar abastecimiento. ¿Los datos generados por sus campañas publicitarias. ¿Se este sistema se consideran datos internos o consideran estas estadísticas un ejemplo externos? de datos internos o externos? Exploración de Datos En búsqueda de patrones en los datos La exploración de datos es un paso crucial en el ciclo de desarrollo de la IA, donde los datos recopilados son analizados para descubrir patrones, tendencias y anomalías. Esta etapa es esencial para comprender la naturaleza de los datos y para identificar las características más relevantes que influyen en la eficacia del modelo de IA. A través de técnicas de visualización y estadísticas descriptivas, se obtiene una visión más clara del problema y se sientan las bases para el desarrollo de un modelo preciso y eficiente. Análisis y Visualización de Datos La exploración de datos implica una serie de pasos, que incluyen la limpieza de datos para eliminar inconsistencias, la realización de análisis exploratorios para entender las distribuciones y relaciones entre variables, y la selección de características que serán utilizadas para entrenar el modelo de IA. Herramientas como gráficos de dispersión, histogramas y mapas de calor son fundamentales en esta etapa para visualizar los datos y extraer insights valiosos. Visualización de Datos DATAVIZ La representación gráfica de información y datos es conocida como visualización de datos. Las herramientas de visualización de datos, que incluyen componentes visuales como gráficos, diagramas y mapas, ofrecen un método sencillo para examinar y analizar tendencias, valores atípicos y patrones en los datos. 1 Beneficios de la Visualización de Datos Proporciona conocimientos útiles sobre los datos. 2 Beneficios de la Visualización de Datos La complejidad de los datos se reduce. 3 Beneficios de la Visualización de Datos Proporciona información sobre patrones encontrados en los datos. 4 Beneficios de la Visualización de Datos Ofrece una mejor comprensión de los hechos. Desafíos de la Exploración de Datos La exploración de datos ofrece ventajas significativas, como la identificación temprana de patrones y la posibilidad de ajustar la recopilación de datos para mejorar la calidad del conjunto de datos. Sin embargo, también presenta desafíos, como la necesidad de manejar grandes volúmenes de datos y la posibilidad de sesgos en la interpretación de los resultados. Es crucial abordar estos desafíos con un enfoque metódico y crítico para garantizar la validez de las conclusiones extraídas. Tipos de Datos Tipos de Datos en Ciencia de Datos Descripción Datos Categóricos Datos que se dividen en categorías. Ejemplos incluyen colores, tipo de producto, etc. Datos Numéricos Datos que son numéricos por naturaleza. Se dividen en continuos (e.g., altura, peso) y discretos (e.g., número de hijos). Datos Ordinales Datos categóricos que tienen un orden, pero la distancia entre categorías no es significativa (e.g., calificación de satisfacción: baja, media, alta). Datos de Intervalo Datos numéricos donde la diferencia entre valores es significativa, pero no hay un verdadero cero (e.g., temperatura en Celsius). Datos de Razón Similar a los datos de intervalo, pero con un verdadero cero que indica la ausencia de la cantidad medida (e.g., ingresos, peso). Funciones de Limpieza de Datos Funciones de Limpieza Descripción de Datos Identificación y eliminación de registros Eliminación de duplicados duplicados en el conjunto de datos. Imputación de valores faltantes Técnicas para manejar valores nulos o faltantes, como el relleno con la media, mediana o moda, o el uso de modelos predictivos. Ajustar los datos para que caigan dentro de un Normalización de datos rango común, especialmente útil en datos de intervalos o razones. Estandarización de datos Proceso de ajustar los datos para que tengan una media de cero y una desviación estándar de uno. Detección y manejo de outliers Identificación y tratamiento de valores atípicos que pueden distorsionar los análisis. Conversión de tipos de datos Transformar tipos de datos incorrectos a los formatos correctos para análisis más precisos. DESAFIO análisis de TABLEROS o DASHBOARD En GRUPOS. Se envían los tableros generados a partir del dataset DATOS_ALUMNOS. Se piden las siguientes acciones: Determinar qué información se muestra. Análisis comparativo de los datos. ¿Es posible arribar a conclusiones? ¿Que conclusiones obtiene del tablero o dashboard? ¿Resulta complicado analizar los gráficos? ¿Observa algunos errores en la información que se muestra ? DESAFIO análisis de TABLEROS o DASHBOARD Aplicando limpieza de datos 1 En GRUPOS. Se envían los tableros generados a partir del dataset DATOS_ALUMNOS. Se piden las siguientes acciones: Determinar qué información se muestra. Análisis comparativo de los datos. ¿Es posible arribar a conclusiones? ¿Que conclusiones obtiene del tablero o dashboard? ¿Resulta complicado analizar los gráficos? ¿Observa algunos errores en la información que se muestra ? DESAFIO análisis de TABLEROS o DASHBOARD Realizando la combinación de las hojas En GRUPOS. Se envían los tableros generados a partir del dataset DATOS_ALUMNOS. Se piden las siguientes acciones: Determinar qué información se muestra. Análisis comparativo de los datos. ¿Es posible arribar a conclusiones? ¿Que conclusiones obtiene del tablero o dashboard? ¿Resulta complicado analizar los gráficos? ¿Observa algunos errores en la información que se muestra ? CONCLUSIONES RESPECTO A LOS PUNTOS ANALIZADOS: Análisis comparativo de los datos. ¿Es posible arribar a conclusiones? ¿Qué conclusiones obtiene del tablero o dashboard? ¿Resulta complicado analizar los gráficos? ¿Observa algunos errores en la información que se muestra ? Exploración de Datos 1 Descripción de datos Estadísticas que resumen las características de los datos. Medidas descriptivas: Media, mediana, moda. Distribución de datos: Histogramas, distribución normal 2 Análisis de correlación Coeficiente de correlación: Mide la relación entre dos Variables indicando si aumentan o disminuyen juntas: Correlación positiva / Correlación negativa 3 Visualización de datos Entender patrones, tendencias y relaciones a través de Gráficos. Tipos de gráficos Gráficos de Barras: Comparar cantidades entre diferentes categorías. Gráficos de Líneas: Mostrar tendencias a lo largo del tiempo. Histogramas: Visualizar la distribución de una variable continua. Boxplots: Resumir la distribución de los datos y detectar outliers. Gráficos de Dispersión: Mostrar la relación entre dos variables continuas. Heatmaps: Visualizar matrices de datos y destacar valores altos y bajos. Diagramas de Torta: Mostrar la proporción de partes de un todo (usualmente no recomendado para más de 3-4 categorías). 3 Visualización de datos Entender patrones, tendencias y relaciones a través de Gráficos. Herramientas de Visualización Bibliotecas de Python Herramientas de BI LOOKER TABLEAU POWER BI. CIENCIA DE DATOS Modelado y Evaluación BI Modelado Uso de algoritmos matemáticos y estadísticos para crear modelos predictivos o descriptivos basados en datos. Tipos de modelos: PREDICTIVOS: REGRESION; Regresión lineal, polinómica CLASIFICACION: Regresión logística, maquinas de soporte virtual, arboles de decisión y bosques aleatorios, redes neuronales. DESCRIPTIVOS: AGRUPAMIENTO o CLUSTERING: agrupa los datos de acuerdo a las similitudes. ANALISIS DE ASOCIACION: encuentra reglas de asociación entre variables. CIENCIA DE DATOS Implementación y Comunicación de resultados BI COMUNICACIÓN DE RESULTADOS AUDIENCIA Y TECNICAS DE MODELOS DE HERRAMIENTASD CONTEXTO VISUALIZACION PRESENTACION DE Identificacion con la DASHBOARDS Reportes escritos COMUNICACIÓN audiencia Informes y Presentaciones Bibliotecas: Contextualizacion de presentaciones orales matplotlib resultados Storytelling con Visualizaciones Plataformas BI: datos interactivas Looker studio, tableau, power bi BUENAS PRACTICAS en la COMUNICACIÓN DE RESULTADOS CLARIDAD Y VISUALIZACION TRANSPARENCI INTERACTIVIDA RELEVANCIA PRECISION EFECTIVA A D