Clase 04 - Minería de Datos y Aprendizajes Automáticos PDF
Document Details
Uploaded by AffectionateAnaphora
Omar Cifuentes
Tags
Summary
Clase sobre Minería de Datos y Aprendizaje Automático. La clase cubre la administración de datos, incluyendo la importancia de la calidad y coherencia de los datos. Se presentan métodos de minería de datos como clustering, asociación y regresión, y se ilustran ejemplos de aplicación en medicina, armamento y clima.
Full Transcript
IICG 123 - Fundamentos de análisis de datos UNIDAD II: MINERÍA DE DATOS Y APRENDIZAJES AUTOMÁTICOS Académico Omar Cifuentes Tabla de contenido Administración de Datos (AD) 01 ¿Por qué es importante? 02 Minería de datos 03 Eta...
IICG 123 - Fundamentos de análisis de datos UNIDAD II: MINERÍA DE DATOS Y APRENDIZAJES AUTOMÁTICOS Académico Omar Cifuentes Tabla de contenido Administración de Datos (AD) 01 ¿Por qué es importante? 02 Minería de datos 03 Etapas de la minería de datos 04 ¿Qué es la Administración de Datos? Es el proceso de recopilación, almacenamiento, protección y uso de los datos de una organización. Tiene como objetivo garantizar la coherencia, la calidad y la seguridad de los conjuntos de datos para que puedan ser utilizados. Incluye todas las políticas, herramientas y procedimientos que mejoran la usabilidad de los datos dentro de los límites de las leyes y reglamentos. Consta de todas las tareas que realizas para asegurarte de que los datos sean seguros, privados y exactos, y de que estén disponibles y se puedan usar. Incluye las medidas que deben tomar las personas, los procesos que deben seguir y la tecnología que los respalda durante el ciclo de vida de los datos. Administración de Datos ¿Para qué sirve? Permite crear las bases del análisis de datos Permite a las organizaciones ser más ágiles, identificar tendencias del mercado y aprovechar rápidamente nuevas oportunidades. Además, contribuye a prevenir problemas relacionados con la fuga de datos, la privacidad y el cumplimiento normativo, que podrían resultar costosos y dañar la reputación de la empresa Permite eliminar la duplicación y normalizar su formato. Dado que los datos provienen de diversas fuentes y pueden ser de distintos tipos, su recolección varía entre los diferentes sistemas. Administración de Datos ¿Por qué es importante? Los datos se consideran un recurso valioso de las organizaciones modernas. Con acceso a grandes volúmenes y diferentes tipos de datos, las organizaciones invierten mucho en la infraestructura de administración y almacenamiento de datos. Reducción de la incoherencia de los datos: Permite una mejor calidad de los datos y crean una visión centralizada para mejorar la colaboración entre los departamentos. Cumplir con las regulaciones: Permite crear una administración de datos transparente y confidencial. Permite que más miembros del personal accedan a más datos: Una administración adecuada permite que todo el personal de la organización pueda acceder a la información que le corresponda. Calidad de los datos: Una administración adecuada permite garantizar en los datos: exactitud, integridad, coherencia y unicidad. Administración de Datos ¿Por qué es importante? Toma mejores decisiones en el momento oportuno: Permite el acceso a al información en el momento adecuado. Aumenta la confianza de los clientes y los proveedores: El cumplimiento de las normas genera confianza en los clientes. Administra los riesgos con mayor facilidad: Identificación a tiempo de los riesgos para evitar futuros problemas. Administración de Datos ¿Cómo llevarla a cabo? Establece estándares internos (políticas de datos) que se aplican a la recopilación, el almacenamiento, el procesamiento y la eliminación de los datos. Determina quién tiene acceso a qué tipo de datos. La administración de datos debe cumplir con los estándares externos que establecen las asociaciones del sector, las agencias gubernamentales y otras partes interesadas. Administración de Datos ¿Cuáles son las áreas de enfoque? Administración de la calidad: Se espera que los datos sean fiables. Los administradores de la calidad de datos miden y mejoran la calidad de los datos según los estándares de calidad que miden los siguiente: ¿Falta información clave? (por ejemplo, el cliente omite la información de contacto clave) ¿Los datos cumplen con las reglas de verificación de datos? (por ejemplo, un número de teléfono debe tener 10 dígitos) ¿Con qué frecuencia aparecen los mismos datos en el sistema? (por ejemplo, entradas de datos duplicadas del mismo cliente) ¿Los datos son precisos? (por ejemplo, el cliente introduce una dirección de correo electrónico incorrecta) ¿La calidad de los datos es uniforme en todo el sistema (por ejemplo, la fecha de nacimiento tiene el formato dd/mm/aaaa en un conjunto de datos, pero el formato mm/dd/aaaa en otro conjunto de datos) Administración de Datos ¿Cuáles son las áreas de enfoque? Distribución y coherencia de los datos: Permite presentar una vista consolidada de la información. Los mecanismos de distribución de datos tienen impacto en la coherencia de datos, cuando se cambia un valor de datos, debe ser modificado en todas las fuentes de datos. Administración de macrodatos: Son grandes volúmenes de datos que son demasiado complejos o voluminosos para ser procesados y analizados por los sistemas tradicionales de gestión de bases de datos, estos pueden ser datos estructuras, no estructurados o semiestructurados. Algunas formas de como se almacenan: Distribución en Clústeres Bases de Datos NoSQL Almacenamiento en la Nube Administración de Datos ¿Cuáles son las áreas de enfoque? Arquitectura de datos: Describe los activos de datos de una organización y proporciona un esquema para crear y administrar el flujo de datos. Modelado de datos: Es el proceso de creación de modelos de datos conceptuales y lógicos que visualizan los flujos de trabajo y las relaciones entre los diferentes tipos de datos. Gobernanza de datos: Corresponde a las políticas y los procedimientos que una organización implementa para administrar la seguridad, integridad y utilidad de los datos. Define la estrategia de administración de datos para el cumplimiento regulatorio, la protección de los datos y determina quién puede acceder a qué datos. Minería de datos (Data Mining) Minería de datos Busca descubrir patrones ocultos, correlaciones, asociaciones y anomalías en grandes conjuntos de datos que no son evidentes a simple vista. Etapas de Data Mining Métodos de Data Mining Clustering (o Agrupación) Es el proceso de agrupar conjuntos de datos similares en función de ciertos criterios. En otras palabras, busca dividir un conjunto de datos en grupos o clusters, de modo que los datos en un mismo grupo sean más similares entre sí que con los datos de otros grupos. Marketing y Segmentación de Clientes: Las empresas agrupan a los clientes en diferentes segmentos según su comportamiento de compra, historial, preferencias y otros datos. Esto permite dirigir campañas de marketing de manera más específica a cada segmento. Análisis de Redes Sociales: El clustering se utiliza para identificar comunidades o grupos dentro de grandes redes, como Twitter o Facebook, basándose en interacciones, intereses compartidos o características de perfil. Recomendación de Contenido: Plataformas como Spotify o Netflix pueden agrupar contenido similar (canciones, películas, series) para hacer recomendaciones basadas en los gustos de un usuario. Métodos de Data Mining Asociación Utilizado para encontrar relaciones entre variables en conjuntos de datos. Supermercado: Si alguien compra pañales, es probable que también compre toallitas para bebé. Si alguien compra cerveza y patatas fritas, puede tener una mayor probabilidad de comprar también salsa de dip. Al comprar pan y embutidos, un cliente podría comprar mostaza o mayonesa. Tienda de ropa: Si alguien compra un traje de baño, podría estar inclinado a adquirir también una toalla de playa o protector solar. Si un cliente selecciona un par de zapatos de tacón alto, podría querer unos protectores de talón o plantillas. Métodos de Data Mining Regresión Examina la relación entre una variable dependiente y una o más variables independientes. Regresión Lineal Simple: Descripción: Estudia la relación entre dos variables cuantitativas. Ejemplo: Estimar el precio de venta de una casa basado en su tamaño (en metros cuadrados). Aquí, el precio es la variable dependiente y el tamaño es la variable independiente. Regresión Lineal Múltiple: Descripción: Examina la relación entre una variable dependiente y varias variables independientes. Ejemplo: Estimar el precio de una casa basado en su tamaño, número de habitaciones, edad de la construcción y proximidad a servicios urbanos. Regresión de Series Temporales: Descripción: Analiza datos que se recopilan o registran en intervalos de tiempo. Ejemplo: Predecir las ventas futuras de un producto en función de las ventas de meses anteriores. Métodos de Data Mining Detección de Anomalías Identificar patrones inusuales en un conjunto de datos. Estas anomalías, también conocidas como outliers, excepciones o aberraciones, pueden indicar actividades sospechosas, errores en los datos, o simplemente eventos raros que son de interés. Fraude con tarjetas de crédito: Detectar transacciones inusuales que no siguen el patrón de gasto habitual de un cliente para identificar posibles fraudes. Intrusiones en sistemas de seguridad informática: Identificar patrones de tráfico o comportamientos de usuario que no se ajustan a lo que es típico, lo que podría indicar un intento de hackeo o una brecha de seguridad. Medio ambiente: Detectar anomalías en datos sensoriales o satelitales que podrían indicar eventos raros, como desastres naturales, derrames de sustancias químicas, etc. ¿En dónde se aplica el Data Mining? "Medicina" Predicción de enfermedades: Utilizando datos de historiales médicos y otras fuentes, se pueden construir modelos predictivos para identificar individuos con alto riesgo de desarrollar ciertas enfermedades, como diabetes, enfermedades cardíacas o cáncer. Optimización del tratamiento: Analizar datos de pacientes que han recibido diferentes tratamientos puede ayudar a determinar cuál es más efectivo o tiene menos efectos secundarios para ciertas condiciones o grupos de pacientes. Gestión de recursos hospitalarios: A través del análisis de datos, se pueden prever flujos de alta demanda en un hospital y optimizar la asignación de recursos, como camas, personal y equipos. ¿En dónde se aplica el Data Mining? "Armamento" Detección de actividades sospechosas: Mediante el análisis de grandes volúmenes de datos de comunicaciones o transacciones, las agencias de inteligencia podrían identificar patrones asociados con el tráfico ilegal de armas o actividades terroristas. Simulación y entrenamiento: Utilizando datos reales de combate y operaciones, se podrían desarrollar simulaciones más realistas para el entrenamiento de personal militar. Análisis de eficiencia de municiones: Mediante la recopilación y análisis de datos sobre el uso de diferentes tipos de municiones en diversos contextos, se podría mejorar la eficiencia y eficacia de las municiones. ¿En dónde se aplica el Data Mining? "Clima" Predicción del clima: Utilizando datos históricos y actuales, los modelos de minería de datos pueden ser entrenados para predecir eventos climáticos en el corto y mediano plazo. Estos modelos pueden complementar los métodos tradicionales de predicción del tiempo. Detección de eventos extremos: Como tormentas severas, ciclones o periodos de sequía. Al analizar patrones en los datos, se pueden identificar señales tempranas de estos eventos y potencialmente mejorar las alertas y la preparación. Asociación entre variables climáticas: Por ejemplo, identificar cómo las variaciones en la temperatura del océano pueden estar relacionadas con eventos de precipitación en regiones específicas. ¿En dónde se aplica el Data Mining? "Negocios" Segmentación de clientes: Las empresas utilizan técnicas de minería de datos para segmentar a sus clientes en diferentes grupos según sus patrones de compra, preferencias, comportamientos, etc. Esto les permite dirigir ofertas y campañas de marketing de manera más efectiva. Recomendación de productos: Plataformas como Amazon y Netflix utilizan sistemas de recomendación basados en minería de datos para sugerir productos o contenidos a los usuarios basándose en sus historiales y preferencias. Optimización de precios: Algunas empresas usan técnicas de minería de datos para analizar la elasticidad de la demanda, competencia, y otros factores, y así determinar los precios óptimos para sus productos o servicios. ¿En dónde se aplica el Data Mining? "Webmining" Es el proceso de extraer y analizar información de páginas web y servicios en línea. Se puede considerar una especialización de la minería de datos centrada en la web. El propósito es descubrir patrones y obtener conocimientos a partir de los recursos y las actividades en la web. Web Content Mining: Analiza y extrae información de los contenidos de las páginas web, incluyendo textos, imágenes y otros datos. Su objetivo es comprender el contenido y descubrir tendencias o patrones dentro del material publicado en la web. Web Structure Mining: Examina la estructura de enlaces de la web, analizando cómo las páginas están interconectadas entre sí. Su objetivo es entender la topología de la red y determinar la "importancia" o relevancia de ciertas páginas basadas en sus conexiones. Web Usage Mining: Se enfoca en el comportamiento de los usuarios en la web, analizando registros de servidores y patrones de navegación. Su objetivo es descubrir cómo interactúan los usuarios con los sitios y optimizar la experiencia en línea según estas interacciones. Algunas aclaraciones.. Diferencia entre minería de datos y análisis de datos: El análisis de datos hace referencia al amplio conjunto de prácticas centradas en identificar información útil, evaluarla y proporcionar respuestas específicas. La minería de datos es un tipo de análisis de datos que se centra en profundizar en grandes conjuntos combinados de datos para descubrir patrones, tendencias y relaciones que pueden llevar a información estratégica y predicciones. Diferencias entre la minería de datos y la recolección de datos: La minería de datos y la recolección pueden ser procesos complementarios, si se realizan correctamente. La minería se dedica al análisis de grandes conjuntos de datos para derivar tendencias, mientras que la recolección consiste en extraer datos de diversas fuentes para luego construir el análisis.