Resumen Final Análisis Predictivo PDF

Summary

This document is a summary of predictive analysis, covering influence marketing, various predictive models, and clustering techniques. It details the process of predictive modeling, including data cleaning, exploratory data analysis, and model building. Key metrics and concepts are highlighted, such as accuracy, precision, and recall.

Full Transcript

SESIÓN 9 Influence marketing Marketing de influencia: estrategia dinámica y eficaz que aprovecha el poder de personas influyentes para promocionar productos o servicios a una audiencia mas amplia. Se aplica en redes y con creadores de contenido que han creado comunidades. Beneficios: 1.​ Ampli...

SESIÓN 9 Influence marketing Marketing de influencia: estrategia dinámica y eficaz que aprovecha el poder de personas influyentes para promocionar productos o servicios a una audiencia mas amplia. Se aplica en redes y con creadores de contenido que han creado comunidades. Beneficios: 1.​ Ampliación de alcance: Los influencers conectan con audiencias difíciles de alcanzar con medios tradicionales. 2.​ Credibilidad mejorada: Las recomendaciones de influencers son vistas como genuinas. 3.​ Mayor participación: Crean contenido atractivo que impulsa interacciones. 4.​ Resultados medibles: Facilita el seguimiento de métricas clave como tráfico web, leads y ventas. Elementos clave para una campaña exitosa: a.​ Selección de influencers: i.​ Deben alinearse con los valores de la marca y la audiencia objetivo. ii.​ Evaluar su relevancia, nivel de interacción y autenticidad. b.​ Creación de contenido: i.​ Diseñar material de alta calidad, alineado al mensaje de la marca. ii.​ Formatos: publicaciones en redes, blogs, videos o experiencias interactivas. c.​ Ejecución: i.​ Promocionar contenido en múltiples canales (redes sociales, email, etc.). ii.​ Motivar a los influencers a interactuar activamente con su audiencia. d.​ Medición y evaluación: i.​ Analizar métricas como generación de leads, tasas de participación y ventas. ii.​ Ajustar estrategias con base en datos obtenidos. Análisis de sentimineot Aquí tienes un resumen siguiendo el flujo de la presentación: El Caso de Uso: Análisis de Sentimiento en X aborda tres etapas principales: limpieza de datos, análisis exploratorio de datos y modelado. En la limpieza de datos, se elimina ruido y valores atípicos que puedan afectar el desempeño del modelo. Un ejemplo es descartar contenido excesivamente largo, como textos con más de 50 palabras. El análisis exploratorio de datos incluye observar la distribución de los sentimientos en el conjunto de datos. Por ejemplo, si los datos tienden hacia un sentimiento positivo, el modelo reflejará esa tendencia. Una herramienta útil es la nube de palabras, donde las palabras más frecuentes para cada sentimiento (positivo, negativo o neutro) se visualizan en tamaños proporcionales a su frecuencia. El modelado incluye cuatro enfoques principales: 1.​ Regresión Logística, para clasificación binaria, que utiliza ponderaciones para predecir probabilidades. 2.​ KNN (K-Nearest Neighbors), que clasifica con base en la distancia a los "k" vecinos más cercanos. 3.​ Árbol de Decisión, que clasifica datos a través de decisiones jerárquicas. 4.​ Random Forest, un conjunto de árboles de decisión que mejora la precisión al usar múltiples predictores. La evaluación del modelo utiliza varias métricas clave: ​ Accuracy (Exactitud) mide el porcentaje de predicciones correctas, aunque puede ser engañosa si las clases están desbalanceadas. ​ La Matriz de Confusión clasifica los resultados en verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos. ​ Precision (Precisión) se enfoca en la proporción de predicciones positivas correctas. ​ Recall (Exhaustividad) mide la proporción de verdaderos positivos detectados correctamente. ​ La relación entre precisión y recall se visualiza en la curva precisión-recall, ajustando el threshold para optimizar el modelo. El F-Score combina precisión y recall en una sola métrica para comparar modelos, mientras que el AUC (Área bajo la curva ROC) mide el desempeño general del modelo sin depender de un threshold fijo. En un ejemplo, un AUC cercano a 1 indica un modelo excelente, mientras que uno cercano a 0.5 sería aleatorio. Se destacan casos específicos para modelos: uno con alta precisión para detectar usuarios insatisfechos y otro con alto recall para identificar casos de cáncer, demostrando cómo priorizar diferentes métricas según el objetivo. La presentación concluye resaltando la importancia de ajustar el threshold y evaluar constantemente el balance entre las métricas clave. Sesión 10 y 11: Clustering (Aprendizaje No Supervisado) Introducción ​ El aprendizaje no supervisado busca extraer patrones, relaciones o estructuras latentes en datos no etiquetados. ​ Aplicaciones: Identificación de grupos, reducción de dimensionalidad, descubrimiento de patrones ocultos. Modelos principales 1.​ K-Means: ○​ Agrupa datos en K clusters, donde cada observación pertenece al grupo más cercano en términos de similitud. ○​ Proceso: ​ Representar cada fila como un punto en un espacio dimensional. ​ Asignar iterativamente cada punto al cluster más cercano según los centroides. ​ Resultados: Centroides y etiquetas asignadas a los datos. ○​ Suposiciones necesarias: ​ Definir el número de clusters (K). ​ Establecer un criterio de convergencia: ​ Sin cambios en las asignaciones. ​ Suma de distancias mínimas entre puntos y centroides. ​ Máximo número de iteraciones alcanzado. 2.​ Método del codo: ○​ Determina el número óptimo de clusters evaluando la distancia media entre puntos y centroides. ○​ El punto codo en el gráfico representa el valor adecuado de K. 3.​ Agrupamiento jerárquico: ○​ Proceso iterativo que construye una jerarquía de clusters más pequeños. ○​ Útil cuando se requiere entender relaciones jerárquicas entre los datos. Conceptos clave ​ Centroides: Puntos representativos de cada cluster. ​ Etiquetas: Asignación de cada dato al cluster más cercano. ​ Gráfico del codo: Herramienta visual para identificar el número óptimo de clusters. ​ Criterios de convergencia en K-Means: ○​ Mínimos cambios en los grupos asignados. ○​ Suma de distancias minimizada. ○​ Límite de iteraciones alcanzado. Sesión 13: Árboles de Decisión Definición y características ​ Algoritmo supervisado utilizado para clasificación y regresión. ​ Su estructura jerárquica incluye: ○​ Nodo raíz: Punto inicial donde los datos se dividen. ○​ Nodos de decisión: Donde se toman decisiones basadas en características. ○​ Nodos hoja: Resultados finales, donde ya no hay más divisiones. Terminología clave ​ Ramas/subárboles: Caminos de decisiones dentro del árbol. ​ Nodos padre e hijo: El nodo padre se divide para crear nodos hijo. ​ Poda: ○​ Técnica para simplificar el modelo eliminando nodos irrelevantes. ○​ Reduce el sobreajuste y mejora la generalización. Criterios de división 1.​ Impureza de Gini: ○​ Mide qué tan homogéneos son los datos dentro de un nodo. ○​ Ideal para clasificación. 2.​ Error Cuadrático Medio (MSE): ○​ Evalúa la desviación entre valores reales y predicciones. ○​ Usado en regresión. Limitaciones ​ Sensibilidad a datos ruidosos. ​ Tendencia al sobreajuste, especialmente con árboles muy profundos. ​ Dificultad para manejar relaciones complejas o datos desequilibrados. Soluciones: Métodos de conjunto ​ Random Forest: Combina múltiples árboles para mejorar precisión y reducir el sobreajuste. Ejemplo práctico ​ Dataset "breast_cancer" (sklearn): ○​ Caso: Predecir si un tumor es benigno o maligno. ○​ Estrategias: ​ Árbol con profundidad máxima 1: Divisiones simples. ​ Árbol con profundidad máxima 2: Más detalles y divisiones adicionales. Suposiciones clave 1.​ No linealidad: Captura patrones complejos sin asumir relaciones lineales. 2.​ Independencia variable: Supone que las características son independientes, aunque en la práctica puede no ser siempre cierto. 3.​ Datos ruidosos: Pequeños cambios en los datos pueden influir en el modelo. 4.​ Divisiones binarias: Divide en dos grupos por nodo, lo cual puede ser una limitación para problemas más complejos. 5.​ Poda: Evita sobreajuste eliminando nodos innecesarios. Sesión 14: Introducción al Deep Learning Definición ​ Subárea del aprendizaje automático basada en redes neuronales artificiales (ANN). ​ Inspirada en el funcionamiento del cerebro humano. ​ Usos principales: Procesamiento de lenguaje natural e imágenes. Modelos lineales como redes neuronales 1.​ Regresión Lineal: ○​ Fórmula: Y=w1x1+w2x2+w3x3+bY = w_1x_1 + w_2x_2 + w_3x_3 + bY=w1​x1​+w2​x2​+w3​x3​+b. ○​ www: Pesos. bbb: Sesgo. ○​ Representa una conexión entre variables de entrada y salida. 2.​ Regresión Logística: ○​ Similar a la regresión lineal, pero aplica la función sigmoide para clasificar probabilidades. ○​ Fórmula: Y=f(w1x1+w2x2+w3x3+b)Y = f(w_1x_1 + w_2x_2 + w_3x_3 + b)Y=f(w1​x1​+w2​x2​+w3​x3​+b), donde fff es la función sigmoide. Funciones de activación ​ Identidad: f(x)=xf(x) = xf(x)=x. Útil para problemas lineales. ​ Sigmoide: Genera salidas en el rango [0, 1]. ​ Tangente hiperbólica: Salidas en el rango [-1, 1]. ​ ReLU (Rectified Linear Unit): ○​ Fórmula: f(x)=max⁡(0,x)f(x) = \max(0, x)f(x)=max(0,x). ○​ Ventajas: Simple y eficaz para problemas complejos. Redes neuronales artificiales (ANN) ​ Estructura: ○​ Capa de entrada: Recibe los datos brutos. ○​ Capas ocultas: Transforman los datos a través de funciones de activación. ○​ Capa de salida: Proporciona el resultado final (clasificación o predicción). ​ Parámetros clave: ○​ Número de capas. ○​ Nodos por capa. ​ Ejemplo práctico: ○​ Predicción: ¿Hay un gato en una imagen? ​ Entrada: 128 píxeles. ​ Salida: 1 si hay un gato, 0 si no lo hay. Entrenamiento de redes neuronales 1.​ Propagación hacia adelante: ○​ Los datos fluyen desde la capa de entrada hasta la salida. 2.​ Función de pérdida: ○​ Mide el error entre las predicciones y los valores reales. 3.​ Propagación hacia atrás: ○​ Ajusta los pesos minimizando el error. 4.​ Actualización de pesos: ○​ Utiliza el método de descenso por gradiente para optimizar los parámetros. ​

Use Quizgecko on...
Browser
Browser