TEMA 10 Explotación Estadística Almacenes Datos PDF
Document Details
Uploaded by Deleted User
Tags
Summary
This document explores algorithms in data mining, focusing on association rules and clustering techniques. It explains concepts like support, confidence, and the A-Priori algorithm for association rule mining and K-means clustering. The document also provides practical applications in various fields, including business (market basket analysis), healthcare, and web analytics. It includes definitions, examples, and procedures.
Full Transcript
TEMA 10. ALGUNOS ALGORITMOS EN MINERIA DE DATOS 1. Algoritmos de asociación =========================== - Son técnicas descriptivas de minería de datos. El objetivo no es predecir datos sino describir los existentes. - Permiten la búsqueda automática de reglas que relacionan conjuntos...
TEMA 10. ALGUNOS ALGORITMOS EN MINERIA DE DATOS 1. Algoritmos de asociación =========================== - Son técnicas descriptivas de minería de datos. El objetivo no es predecir datos sino describir los existentes. - Permiten la búsqueda automática de reglas que relacionan conjuntos de atributos entre sí. - Son no supervisadas, pues existen relaciones conocidas a priori con las que contrastar la validez de los resultados. - Este tipo de técnicas se emplean para establecer las posibles relaciones o correlaciones entre distintas acciones o sucesos aparentemente independientes. Pueden reconocer como la ocurrencia de un suceso o acción puede inducir o generar la aparición de otros. Generalmente se buscan conjuntos de reglas de asociación, más de una regla. - A pesar de ser técnicas descriptivas, las asociaciones se pueden usar para predecir comportamientos y permiten descubrir correlaciones y co-ocurrencias de eventos. 1.1. Aplicaciones prácticas --------------------------- - **Campo comercial**: para comprender los hábitos de compra de los clientes. Constituyen un pilar básico en la concepción de las ofertas, ventas cruzadas, "micro-marketing" y "one to one marketing". - **Entorno sanitario**: identificar factores de riesgo en la aparición o complicación de enfermedades. - **Minería Web**: búsqueda de patrones en paginas web (por ejemplo, en un servidor web conocer cuales son los itenerarios más seguido por los visitantes y utilizar esta información para estructurar sus páginas) 1.2. Reglas de asociación ------------------------- - Filas: cesta de la compra. - Columnas: cada uno de los productos en venta en el supermercado. - 1 en la posición (i, j) indica que la cesta i incorpora el producto j. - 0 indica que el cliente no ha adquirido el producto. 1.3. Algoritmo A Priori ----------------------- - **Soporte**: (A -\> B) = P (A ∩ B). Indica el número de registros a los que afecta la regla. El valor mínimo del soporte ha de ser \> 0 para asegurar que la regla tenga incidencia en al menos una transacción. - **Confianza**: (A → B) P~(A)~. Indica el número de casos que predice la regla **Procedimiento del algoritmo**: 1. Se comienza con ítem-set de un solo ítem. 2. Se eliminan los ítem-set cuyo soporte sea inferior a un mínimo establecido. 3. Se combinan el resto formando ítem-set con dos ítems. 4. Se eliminan los que no cumplan la condición del soporte. 5. Se añade al resto un nuevo ítem y así con tres. 6. Se termina cuando ya no se puedan formar ítem-sets con un ítem más. 7. Se pasa a la generación de reglas: se toma cada ítem-set y se forman reglas que cumplan con la condición de confianza. **Advertencias**: - Un ítem-set puede dar lugar a más de una regla de asociación. - Un ítem-set puede no dar lugar a ninguna regla. 1.4. Algoritmo A Priori en WEKA ------------------------------- En WorkBench se encuentra el botón de Associate (Asociación) o su pestaña correspondiente en Explorer. Tiene los siguientes elementos: 1. Selección y configuración del algoritmo de asociación 2. Visualización de resultados y almacenamiento 3. Resultados en texto El principal algoritmo de asociación implementado en WEKA es el algoritmo A Priori. Este algoritmo únicamente puede buscar reglas entre atributos simbólicos (variables cualitativas), razón por la que se requiere haber discretizada los atributos numéricos (variables cuantitativas). Lo primero es aplicar un filtro por atributos de discretización de los numéricos en intervalos de la misma frecuencia. Presentacion I 2\. Algoritmos de clustering - Son técnicas descriptivas de minería de datos. - Los llamamos clustering, conglomerados, segmentación o agrupamiento. - Permiten la identificación de tipologías o grupos donde los elementos guardan gran similitud entre sí y muchas diferencias con los otros grupos. - Son no supervisadas, pues no existen relaciones conocidas a priori con las que contrastar la validez de los resultados. - Es una agrupación de individuos (instancias) con características comunes según las variables (atributos). - Se puede utilizar en variables cuantitativas y cualitativas. - El colectivo de clientes - El conjunto de valores e índices financieros - El espectro de observaciones astronómicas - El conjunto de zonas forestales - El conjunto de empleados y de sucursales u oficinas X−μ^X^ los datos: Z = σX Para variables **cualitativas**: d(a, b) = { 0, a = b 2.2. Algoritmos de Conglomerados -------------------------------- ### 2.2.1. Clustering Numérico: K-Medias 1. Especificar cuántos conglomerados se quieren crear (parámetro K) 2. Se seleccionan K elementos aleatoriamente, que representarán el centro de cada conglomerado. 3. Cada una de las instancias es asignada al centro del conglomerado más cercano de acuerdo con la distancia euclídea. 4. Para cada uno de los conglomerados así construidos se calcula el centroide de todas las instancias. 5. Estos centroides son los nuevos centros de sus respectivos conglomerados. 6) Se repite el proceso completo con los nuevos centros. - La media ("mean") para atributos numéricos. - La moda ("mode") para atributos simbólicos. ### 2.2.2. Clustering Conceptual: COBWEB - **Incorporación**: añadir un nuevo ejemplo a un nodo existente. - **Creación de una nueva disyunción**: crear un nuevo grupo. - **Unión**: combinar dos grupos en uno solo. - **División**: dividir un grupo existente en varios grupos. - **Predicibilidad**. P(A~i~ ^=\ V^~C~^ij^k). Dado un cluster, la probabilidad de que un atributo tenga un cierto valor. El mayor de estos valores corresponde al valor más predecible del atributo y es el que caracteriza a los miembros de un cluster (alta similaridad entre los elementos del grupo). - **Previsibilidad**. P^(C^A^[k]^~i~ = V~ij~). Si el atributo ha tomado un cierto valor, la probabilidad de que una instancia sea de un cierto cluster. Un valor alto significa que pocas instancias 2 2 CU(k) = P(C~k~)(∑ ∑ P(A~i~ = V~ij~/C~k~) − ∑ ∑ P(A~i~ = V~ij~) ) i j i j V^ij^ 2.3. Algoritmo COBWEB en WEKA ----------------------------- - **Acuity**: mínima varianza del atributo en un cluster (1 instancia, varianza 0). Se utiliza solo para cuantitativas. - **Cutoff**: mínima utilidad de la categoría. Evita el crecimiento desmesurado de segmentos en el árbol. 3. Algoritmos de clasificación ============================== - Son técnicas predictivas de minería de datos. - Consiste en dividir un conjunto de datos en grupos mutuamente excluyentes de tal forma que cada miembro de un grupo esté lo más cerca posible de otros de su mismo grupo y los grupos diferentes estén lo más lejos posible. - La distancia se mide con respecto a los atributos especificados que se quieren predecir. - Son supervisadas, pues existen relaciones conocidas a priori con las que contrastar la validez de los resultados. - El atributo "clase" es el que especifica a priori en qué grupos se dividen los individuos según una serie de características (atributos). - La clasificación agrupa individuos (instancias). 3.1. Árboles de decisión ------------------------ ### 3.1.1. Representación de un árbol de decisión ### 3.1.2. El sistema C4.5 - Es capaz de tratar con atributos cuyos valores sean discretos o continuos. - Construye árboles de decisión cuando alguno de los ejemplos tenga un valor desconocido para algún atributo. - Permite la "poda" de los árboles de decisión. - Obtiene reglas de clasificación. 3.2. Clasificación Bayesiana ---------------------------- ### 3.2.1. Clasificador Naive Bayesiano - Lo que normalmente se quiere saber en aprendizaje es cual es la mejor hipótesis (más probable) dados los datos. - El clasificador naive (ingenuo) bayesiano se utiliza cuando se quiere clasificar un individuo descrito por un conjunto de atributos (a~i~) en un conjunto finito de clases (C~j~). - Se clasifica un nuevo registro de acuerdo con el valor más probable dados los valores de sus atributos (clase donde tenga más probabilidad de pertenecer).