Unidad 2 Proceso de la Minería de Datos PDF
Document Details
Uploaded by ProudCopper
ITESO, Universidad Jesuita de Guadalajara
Dra. Diana G. Gómez M.
Tags
Summary
This document presents an overview of data mining concepts including the data mining process, methodologies, and real-world examples. It covers topics such as data understanding, data preparation, modeling, evaluation, and deployment. The document is intended as learning material for programing data mining.
Full Transcript
Proceso de la Minería de Datos Unidad 2 Programación para Minería de Datos Dra. Diana G. Gómez M. [email protected] Contenido 1º 2º CICLO VIRTUOSO INTRODUCCIÓN DE L...
Proceso de la Minería de Datos Unidad 2 Programación para Minería de Datos Dra. Diana G. Gómez M. [email protected] Contenido 1º 2º CICLO VIRTUOSO INTRODUCCIÓN DE LA MINERÍA DE DATOS 3º 4º METODOLOGÍAS CRISP-MD 2 1. Introducción ¿Qué conocimientos son necesarios para aplicar minería de datos en un proyecto empresarial? ☀ conocer cómo funciona las herramientas de MD ☀ tener acceso a grandes volúmenes de datos ☀ Conocer un proceso estructurado que guie cada etapa del proyecto conocido como ciclo de vida. 3 2. Ciclo virtuoso de la minería de datos MEDICIÓN DE LOS RESULTADOS 01 IDENTIFICACIÓN Identificar el problema Medir los resultados de empresarial. los esfuerzos para completar el ciclo de aprendizaje. 04 CICLO MD 02 TRANSFORMACIÓN ACTÚA Extracción de datos para transformarlos en 03 Actuar sobre la información procesable. información. ☀ 4 4 2. Ciclo virtuoso de la minería de datos IDENTIFICACIÓN Se define el problema o la oportunidad de negocio que se desea abordar. Se identifican los objetivos clave y se determina cómo los datos pueden ayudar a lograr estos objetivos. Se entrevista a los expertos empresarios. 5 2. Ciclo virtuoso de la minería de datos TRANSFORMACIÓN Una vez que se han identificado los objetivos, los datos disponibles se transforman y preparan para el análisis. Esto puede incluir la limpieza, normalización, y transformación de los datos en un formato adecuado para aplicar técnicas de minería de datos. 6 2. Ciclo virtuoso de la minería de datos ACTÚA Se implementan las acciones basadas en los resultados obtenidos del análisis de datos. Esto podría implicar cambios en procesos, estrategias o la toma de decisiones informadas por los hallazgos. P.ej.: ☀ Envió de mensajes a clientes ☀ Dar prioridad al servicio del cliente ☀ Ajuste de los niveles de inventario 7 2. Ciclo virtuoso de la minería de datos MEDICIÓN DE LOS RESULTADOS Después de tomar acción, es crucial medir los resultados para evaluar el impacto y la efectividad de las decisiones basadas en los datos. Esta medición retroalimenta el ciclo, permitiendo ajustar y mejorar las futuras iniciativas de minería de datos. 8 2. Ciclo virtuoso de la minería de datos El ciclo virtuoso de la minería de 01 datos nos proporciona el qué sin embargo cómo se sea efectuado no. CICLO 04 02 MD Para lo anterior se requiere de una 03 metodología el cual detalle el camino a seguir. 9 3. Metodologías KDD (Knowledge Discovery in Databases) CRISP-DM (Cross Gregory Piatetsky-Shapiro SEMMA (Sample, Industry Standard (1989) Explore, Modify, Model, Process for Data Mining) Assess) Consorcio europeo SAS institute (1998) (1999) 10 3. Metodologías KDD SEMMA CRISP-MD ----------- ------------ Comprensión del negocio Selección Muestreo (Sample) Comprensión de los datos Preprocesamiento Explorar (Explore) Transformación Modificar (Modify) Preparación de los datos Minando datos Modelar (Model) Modelado Interpretación/Evaluación Evaluar (Assess) Evaluación ----------- ------------- Despliegue Comparación de las etapas de las metodologías para minería de datos. 11 3. Metodologías https://www.datascience-pm.com/crisp-dm-still-most-popular/ 12 3. Metodologías https://www.datascience-pm.com/crisp-dm-still-most-popular/ 13 4. CRISP-DM CRISP-DM (Cross Industry Standard Process for Data Mining) es una metodología ampliamente utilizada en la industria para guiar proyectos de minería y se compone por 6 etapas: 14 4. CRISP-DM 1. Comprensión del Negocio: PROPÓSITO: definir los objetivos del proyecto desde una perspectiva de negocio y convertirlos en un problema claro de minería de datos. ACTIVIDADES: ☀ Entender las necesidades y metas del negocio que se desean cumplir. ☀ Análisis del contexto, incluyendo recursos disponibles, limitaciones y riesgos. ☀ Traducir los objetivos de negocio en términos específicos y medibles para el análisis de datos. 15 4. CRISP-DM Imagina que eres el dueño de una pequeña tienda en línea que vende productos electrónicos. Quieres aumentar las ventas identificando los productos que más interesan a tus clientes y ofreciendo promociones personalizadas. 1. Comprensión del Negocio: Objetivo del negocio o proyecto: Aumentar las ventas en la tienda en línea ofreciendo promociones personalizadas basadas en los intereses y comportamientos de compra de los clientes. Objetivo de minería de datos Identificar los productos más populares entre los clientes y segmentar a los clientes en grupos según sus patrones de compra, de modo que se puedan crear promociones personalizadas que sean más efectivas. Pregunta de negocio: ¿Cuáles son los productos que más interesan a nuestros clientes y cómo podemos utilizar esta información para diseñar promociones que aumenten las ventas? 16 4. CRISP-DM Una ciudad está enfrentando problemas con la congestión en su sistema de transporte público. Los autobuses a menudo están abarrotados en ciertas rutas y horarios, mientras que otras rutas tienen baja demanda, lo que resulta en ineficiencia operativa y frustración para los pasajeros. La administración del transporte quiere optimizar las rutas y los horarios para mejorar la eficiencia y la satisfacción de los usuarios. 1. Comprensión del Negocio: Objetivo del negocio o proyecto: Mejorar la eficiencia del sistema de transporte público y aumentar la satisfacción de los pasajeros ajustando las rutas y los horarios. Objetivo de minería de datos Analizar los patrones de uso de las rutas para identificar las horas pico y las rutas con alta o baja demanda. Pregunta de negocio: ¿Cómo podemos ajustar las rutas y horarios de los autobuses para reducir la congestión en horas pico y mejorar la eficiencia en rutas con baja demanda? 17 4. CRISP-DM Una cadena de supermercados ha observado que su sistema de inventarios no se ajusta adecuadamente a la demanda de productos, resultando en exceso de stock para algunos artículos y falta de otros. Esto está generando costos innecesarios y afectando la satisfacción de los clientes. 1. Comprensión del Negocio: Objetivo del negocio o proyecto: Reducir los costos operativos y mejorar la disponibilidad de productos ajustando la gestión de inventarios. Objetivo de minería de datos Predecir la demanda de productos para optimizar los niveles de inventario. Pregunta de negocio: ¿Cómo podemos predecir la demanda de productos con precisión para evitar tanto el exceso como la escasez de stock? 18 4. CRISP-DM 2. Comprensión de los Datos: PROPÓSITO: Familiarizarse con los datos disponibles e identificar problemas de calidad de los datos ACTIVIDADES: ☀ Obtener y consolidar los datos necesarios para el análisis. ☀ Explorar los datos para entender su estructura, tipos y distribución. ☀ Realizar análisis exploratorios para detectar patrones, tendencias y anomalías. ☀ Identificar problemas de calidad como valores faltantes o inconsistencias. 19 4. CRISP-DM Imagina que eres el dueño de una pequeña tienda en línea que vende productos electrónicos. Quieres aumentar las ventas identificando los productos que más interesan a tus clientes y ofreciendo promociones personalizadas. 2. Comprensión de los Datos: Recopilas datos de las ventas del último año, incluyendo información sobre los productos vendidos, la cantidad comprada y los clientes que los compraron. Observas que algunos productos se venden mucho más que otros y notas que ciertos clientes tienden a comprar productos específicos con frecuencia. Revisas los datos para asegurarte de que no haya errores, como ventas duplicadas o registros incompletos. 20 4. CRISP-DM 3. Preparación de los Datos: PROPÓSITO: Transformar y preparar los datos para su uso en las etapas de modelado. ACTIVIDADES: ☀ Elegir los atributos y registros más relevantes para el análisis. ☀ Corregir o eliminar datos erróneos, inconsistentes o incompletos. ☀ Crear nuevos atributos o variables derivados de los datos originales. ☀ Combinar datos de diferentes fuentes si es necesario. 21 4. CRISP-DM Imagina que eres el dueño de una pequeña tienda en línea que vende productos electrónicos. Quieres aumentar las ventas identificando los productos que más interesan a tus clientes y ofreciendo promociones personalizadas. 3. Preparación de los Datos: Decides centrarte en los datos de ventas de los últimos seis meses para mantener la información relevante y actualizada. Eliminas registros de ventas incompletos y corriges cualquier error de codificación en los nombres de los productos. Agrupas las ventas por cliente y producto para calcular el número total de veces que cada cliente ha comprado un producto específico. 22 4. CRISP-DM 4. Modelado: PROPÓSITO: Aplicar técnicas de modelado para crear modelos predictivos o descriptivos que aborden los objetivos del proyecto. ACTIVIDADES: ☀ Elegir las técnicas de análisis y modelado más adecuadas ☀ Crear un plan de pruebas para evaluar la eficacia de los modelos. ☀ Aplicar las técnicas seleccionadas para construir modelos. ☀ Ajustar los parámetros y validar los modelos para asegurar su precisión y relevancia. 23 4. CRISP-DM 4. Modelado: (Kaggle, 2020) https://www.kdnuggets.com/2020/12/kaggle-survey-2020-data-science-machine-learning.html 24 4. CRISP-DM Imagina que eres el dueño de una pequeña tienda en línea que vende productos electrónicos. Quieres aumentar las ventas identificando los productos que más interesan a tus clientes y ofreciendo promociones personalizadas. 4. Modelado: Decides usar un modelo de análisis de frecuencia para identificar los productos más populares. Aplicas el modelo a los datos preparados para identificar los productos que tienen el mayor número de ventas repetidas por cliente. Revisas los resultados y ves que el modelo ha identificado correctamente los productos más vendidos. 25 4. CRISP-DM 5. Evaluación: PROPÓSITO: Evaluar los modelos creados para asegurar que cumplen con los objetivos del negocio y tomar decisiones informadas sobre los próximos pasos. ACTIVIDADES: ☀ Revisar los resultados de los modelos en términos de su capacidad para cumplir los objetivos del proyecto. ☀ Evaluar si el proceso seguido hasta el momento cubre todas las necesidades del proyecto. ☀ Decidir si se necesita mejorar el modelo, recopilar más datos o si se está listo para proceder con la implementación. 26 4. CRISP-DM Imagina que eres el dueño de una pequeña tienda en línea que vende productos electrónicos. Quieres aumentar las ventas identificando los productos que más interesan a tus clientes y ofreciendo promociones personalizadas. 5. 4. Evaluación: Modelado: Comparas los resultados del modelo con los registros reales y confirmas que los productos identificados son efectivamente los más populares. Decides que los resultados son suficientemente precisos para proceder con la implementación. 27 4. CRISP-DM 6. Despliegue: PROPÓSITO: Implementar los modelos en el entorno real y asegurar su uso efectivo en el negocio. ACTIVIDADES: ☀ Desarrollar un plan para la implementación del modelo en la organización. ☀ Integrar el modelo en los procesos de negocio. ☀ Establecer procedimientos para supervisar el rendimiento y actualizarlo. ☀ Crear documentación detallada del modelo y del proceso seguido ☀ Evaluar el impacto del modelo en el negocio y documentar. 28 4. CRISP-DM Imagina que eres el dueño de una pequeña tienda en línea que vende productos electrónicos. Quieres aumentar las ventas identificando los productos que más interesan a tus clientes y ofreciendo promociones personalizadas. 5. Despliegue: ▪ Decides crear una campaña de marketing que ofrezca descuentos en los productos más populares a los clientes que ya los han comprado. ▪ Configuras el sistema de la tienda en línea para enviar correos electrónicos personalizados con ofertas de productos relevantes. ▪ Comienzas a monitorear las ventas después del lanzamiento de la campaña para medir su efectividad. ▪ Después de un mes, revisas las ventas y notas un aumento en las compras de productos promocionados, confirmando el éxito de la campaña. 29 Principales retos en minería de datos (Kaggle, 2017) https://medium.datadriveninvestor.com/data- science-challenges-b7622b85b807 30 Actividad ☀ Establece el objetivo del proyecto o del negocio, el objetivo de minería de datos y la pregunta de negocio de los siguientes situaciones o contextos: Contexto 1: Un banco ha notado un incremento en las transacciones fraudulentas que está afectando la confianza de los clientes y generando pérdidas financieras. El banco necesita mejorar sus métodos de detección para abordar este problema. 31 Actividad Contexto 2: Un hospital está enfrentando altas tasas de readmisión, lo cual es costoso y puede indicar deficiencias en el cuidado post-alta. El hospital quiere predecir qué pacientes están en riesgo de readmisión para mejorar la planificación y cuidado. 32 Actividad Un banco ha notado un incremento en las transacciones fraudulentas que está afectando la confianza de los clientes y generando pérdidas financieras. El banco necesita mejorar sus métodos de detección para abordar este problema. 1. Comprensión del Negocio: Objetivo del negocio o proyecto: Minimizar las pérdidas financieras y proteger la confianza del cliente mediante la reducción de fraudes. Objetivo de minería de datos Identificar patrones de transacciones sospechosas para mejorar la detección de fraude. Pregunta de negocio: ¿Qué patrones en las transacciones están asociados con el fraude y cómo podemos detectarlos eficazmente para prevenir pérdidas? 33 Actividad Un hospital está enfrentando altas tasas de readmisión, lo cual es costoso y puede indicar deficiencias en el cuidado post-alta. El hospital quiere predecir qué pacientes están en riesgo de readmisión para mejorar la planificación y cuidado. 1. Comprensión del Negocio: Objetivo del negocio o proyecto: Reducir la tasa de readmisiones para mejorar la calidad del cuidado y reducir costos. Objetivo de minería de datos Predecir qué pacientes tienen una alta probabilidad de ser readmitidos. Pregunta de negocio: ¿Qué factores contribuyen a las readmisiones hospitalarias y cómo podemos predecir qué pacientes tienen mayor riesgo de readmisión? 34 Referencias ☀ Mining, W. I. D. (2006). Data mining: Concepts and techniques. Morgan Kaufinann, 10(559-569), 4. ☀ Riquelme Santos, J. C., Ruiz, R., & Gilbert, K. (2006). Minería de datos: Conceptos y tendencias. Inteligencia Artificial: Revista Iberoamericana de Inteligencia Artificial, 10 (29), 11-18. 35