Resumen Analisis Predictivo PDF
Document Details
Uploaded by RespectableSecant
Tags
Summary
Este documento resume conceptos de análisis predictivo, incluyendo machine learning, series de tiempo y modelos de regresión. Se describe el proceso de modelamiento, aprendizaje supervisado y no supervisado, además de métricas para evaluar el error. Se estudian diferentes tipos de series de tiempo y las formas de predecirlas, incluyendo los métodos aditivos y multiplicativos de descomposición.
Full Transcript
SEMANA 2 Data science: extracción de información explotable a partir de datos brutos. Su objetivo es identificar tendencias, conceptos, motivos, prácticas, conexiones y correlaciones en las grandes series de datos. Incluye algoritmos de Machine Learning. Un modelo busca explicar, predecir y contro...
SEMANA 2 Data science: extracción de información explotable a partir de datos brutos. Su objetivo es identificar tendencias, conceptos, motivos, prácticas, conexiones y correlaciones en las grandes series de datos. Incluye algoritmos de Machine Learning. Un modelo busca explicar, predecir y controlar la realidad compleja. Proceso de modelamiento 1. Mundo real, problemas (Aparición del problema) 2. Información de entrada (Elección y extracción de datos) 3. Técnicas de modelización (Selección y ejecución del método) 4. Modelo matemático (Aplicación a los datos de la metodología) 5. Resultado, reporte y decisiones (Análisis de los resultados y toma de decisione) Machine learning: es una disciplina de la IA. Se le dice aprendizaje automático porque pretende que las computadoras aprendan a tomar decisiones sin la necesidad de ser programadas explícitamente. O sea, procesos capaces de aprender de datos históricos con el objetivo de predecir o tomar decisiones sobre datos nuevos u observaciones. Aprendizaje supervisado: Identificada los patrones en los atributos de los datos buscando un atributo objetivo. El proceso de aprendizaje se realiza mediante un entrenamiento controlado por un agente externo (supervisor, maestro) que determina la respuesta que debería generar la red a partir de una entrada determinada. El supervisor controla la salida y en caso de que ésta no coincida con la deseada, se procederá a modificar los pesos de las conexiones, con el fin de conseguir que la salida obtenida se aproxime a la deseada.Se usan para predecir valores de la clase objetivo. Aprendizaje no supervisado: los datos no tienen un atributo objetivo. La salida representa el grado de familiaridad o similitud entre la información que se le está presentando a la entrada y las informaciones que se le han mostrado hasta entonces. Está constituido por un conjunto de reglas que dan la habilidad de aprender asociaciones entre los patrones que ocurren en conjunto,. Exploramos la data para encontrar patrones en ella misma. Técnica inferenciales en modelos supervisados - Regresion logistica - Regresión multivairables - árboles de clasificación - Analisis de varianza - Analisis de correlacion canonico - Redes neuronales - Algoritmos genéticos - Algoritmos fuzzy logic Pasos Machine learning: 1. Elección del modelo 2. Entrenamiento: ajustar parametros 3. Evaluación Modelo de regresión: es un modelo matemático que busca la relación entre una o varias variables independientes (entradas o predictores) y una variable dependiente (salida, objetiv, target). La variable por predecir es una variable CONTINUA Y CONOCIDA. Tipologías: - Regresión lineal: busca una relación lineal entre una variable independiente X y una variable dependiente o de salida y Tipos de error: - Subajuste: alto sesgo, alto error de entrenamiento - Correcto: buen balance - Sobreajuste: alta varianza, error de entrenamiento muy bajo Métricas para medir el error: - MAE (media del error absoluto) - RSME (media del error cuadrático) SEMANA 5 - Series temporales Serie temporal: colección de observaciones de una variable recogidas secuencialmente en el tiempo. Las observaciones sucesivas NO son independientes, es decir, depende de los valores pasados. Series económicas: - precios de un artículo - tasas de desempleo / inflación - Índice de precios Series físicas: - Meteorología - Temperatura maxima Geofísica: - Series sismológicas Clasificación series de tiempo: 1. Discretas o continuas: dependiendo del tipo de observación que queramos predecir. 2. Determinista o estocástica: una serie es determinista si somos capaces de calcular la predicción de manera exacta o, en su defecto, es estocástica cuando los futuros valores tienen una distribución de probabilidad condicionada a valores históricos. 3. Estacionarias o no estacionarias: una serie es estacionaria cuando es estable, cuando la media y la variabilidad son constantes a lo largo del tiempo, y una serie es no estacionaria si la media y/o variabilidad cambia en el tiempo. Enfoque descriptivo: tratamos de extraer características de la serie. Tendencia, ciclos, estacionalidad. Tendencia (T) Tendencia - Ciclo: Es un movimiento de larga duración que se mantiene durante todo el periodo de observación. Movimientos Cíclicos (C): Son oscilaciones alrededor de la tendencia producidos por periodos alternativos de prosperidad y depresión. Variación Estacional (E) Son movimientos que se producen en el año y que se repiten de un año al otro. Movimientos Irregulares (I) Son oscilaciones erráticas o accidentales que obedecen a diversas causas. No siguen un patrón específico de comportamiento y por lo tanto impredecibles Enfoque predictivo: tratamos de predecir el valor de la serie para un periodo. Buscar y elegir el mejor modelo predictivo. Aditivo: el componente estacional permanece constante. la estacionalidad es independiente de la tendencia-ciclo. Multiplicativo: cuando la amplitud del componente estacional varía en forma proporcional al nivel medio de la tendencia. Métodos clásicos Método de descomposición Métodos de suavizado o alisamiento Series sin tendencia o estacionalidad ○ Modelos “naive” ○ Modelos de Medias Móviles ○ Modelos de suavizamiento exponencial simple Series con tendencia y sin estacionalidad Series con tendencia y con estacionalidad Modelos ARIMA Modelos de medias móviles (MA) Modelos autorregresivos (AR) Modelos autorregresivos de medias móviles (ARMA) Modelos no estacionarios (ARIMA) El método ARIMA (AR + I + MA) utiliza variaciones y regresiones existentes entre los datos de la serie para determinar los patrones intrínsecos de esta y poder realizar una predicción. Este modelo integra los factores siguientes: Autorregresiva (AR): Integración (I) Promedio móvil (MA) Autorregresiva (AR): asume que el valor de la serie en un determinado instante se corresponde con la combinación lineal de la función en instantes anteriores (hasta un número determinado de ellos, llamado p), a lo que se suma un componente de error aleatorio, que se caracteriza por el hecho de que sus valores en dos tiempos diferentes no guardan correlación (lo que se denomina ruido blanco). Integración (I): se aplicarán sucesivas diferenciaciones en los casos en los que las de diferenciadores.). series muestran evidencia de no-estacionalidad (denotados como d, el número de diferenciadores) Promedio móvil (MA): asume que el valor observado en un instante se corresponde con un término de error aleatorio, a lo que le suma una combinación lineal de errores aleatorios previos (hasta un número máximo de ellos, llamado q) El objetivo principal es estimar los parámetros p, q y d para estimar la serie temporal de la manera más adecuada. Cuando alguno es 0, se omite en el () SESIÓN 6 Preparar datos para su uso en el análisis de la cesta de la compra. Identificar patrones en la toma de decisiones del consumidor con mlxtend. Utilizar métricas para evaluar las propiedades de los patrones. Construir reglas de asociación que brinden recomendaciones concretas para las empresas. Realizar podas para identificar reglas útiles. Visualizar patrones y reglas usando seaborn y matplotlib. Utilizar el dataset público de un e-commerce brasileño Transacción: Conjunto de artículos comprados juntos. Conjunto de elementos: una colección de elementos únicos. Regla de asociación: una declaración de asociación "si-entonces" entre dos conjuntos de elementos. Por ejemplo, "si café, entonces leche" es una regla de asociación que implica que es probable que los clientes que compran café también compren leche. Métrica: La medida numérica de la intensidad de una asociación entre conjuntos de elementos. Poda: eliminación de conjuntos de elementos o reglas que funcionan mal según una métrica Algoritmo Apriori: analiza patrones de compra en grandes cantidades de datos, ayudándote a descubrir qué productos tienen una relación especial. Se cuentan los productos, es decir, cuántas veces se compró cada producto por separado. Se generan combinaciones posibles de productos que podrían estar relacionados, como café y galletas. Se buscan patrones en nuestros datos para ver con qué frecuencia se compran estas combinaciones. Se descartan las combinaciones que no son tan comunes, pues el enfoque es lo que realmente llama la atención. Se crean reglas de oro: finalmente, generamos reglas como "Si compras café, es probable que también quieras galletas". Propósitos: Segmentación de clientes: este algoritmo identifica grupos de clientes con patrones de comportamiento similares, con el objetivo de crear campañas de marketing más personalizadas. Predicción de ventas: es útil para predecir qué productos o servicios es probable que compren los clientes. Con el objetivo de optimizar su inventario, y sus estrategias de marketing. Optimización de campañas: ayuda a optimizar las campañas de marketing en función de los datos de comportamiento de los clientes, con el objetivo de aumentar la efectividad de sus campañas.Se cuentan los productos, es decir, cuántas veces se compró cada producto por separado SEMANA 7 (desde diapo 9) El análisis de la cesta de la compra (MBA) es una técnica clave en la minería de datos centrada en descubrir patrones de compra mediante la identificación de productos que los clientes compran juntos con frecuencia. Esta información puede resultar invaluable para los retailers que buscan mejorar sus estrategias de ventas. Algoritmo apriori opera bajo 5 principios: 1. Soporte: mide la frecuencia con la que aparece un elemento o un conjunto de elementos en el conjunto de datos. Por ejemplo, si en una tienda se registran 100 transacciones y 10 de ellas incluyen pan, el apoyo al pan es del 10% 2. Confianza: Mide la probabilidad de que se compre el artículo Y cuando se compra el artículo X. Por ejemplo, si pan y mantequilla se compran juntos en 5 de cada 10 transacciones en las que se compra pan, la confianza de la regla “si pan entonces mantequilla” es del 50%. 3. Incremento (lift): indica la probabilidad de que los artículos se compren juntos en comparación con sus probabilidades de compra individuales. Un incremento superior a 1 sugiere que es probable que los artículos se compren juntos. 4. Apalancamiento (leverage): mide con cuánta más frecuencia los elementos A y B ocurren juntos de lo que esperaríamos si fueran estadísticamente independientes entre sí. Un apalancamiento positivo implica una asociación positiva entre elementos. 5. Convicción: compara la probabilidad de ver el antecedente en transacciones sin el consecuente con la frecuencia observada de predicciones incorrectas. Nos habla de la dependencia del antecedente. Valor del Market basket analysis: Cross selling y upselling: identificar productos que se compran juntos puede ayudar a diseñar estrategias de marketing como cross-selling (sugiriendo productos relacionados) y upselling (sugiriendo versiones premium del producto) Gestión de inventario: comprender que productos compran juntos puede ayudar a planificar inventario y garantizar que los artículos vinculados estén en stock Optimización del diseño de la tienda (layout): colocando productos complementarios uno cerca del otro Promociones específicas: personalizar descuentos entre productos que se compran juntos Paquetes de nuevos productos: bundles.Creación de ofertas combinadas para artículos que se compran juntos con frecuencia para aumentar las ventas. Análisis RFM (recency, frequency monetary) Una herramienta que permite evaluar a consumidores segun metricas: recency, frequency y monetary. Customer lifetime value (valor de vida del cliente): es el valor total para una empresa de un cliente durante todo el periodo de su relación. Ayuda a tomar decisiones sobre cuánto dinero invertir para adquirir clientes y retener a los actuales. En el ámbito del análisis RFM, CLV no solo mide el valor actual que un cliente aporta, si no tambien predice el compromiso y el gasto futuro.