Full Transcript

Francisco Manuel Rangel Pardo 16 TEMARIO OPOSICIONES COIICV | TEMA 36 • Y aunque no se menciona de manera explícita en la d efinición, el proceso de minería se debe realizar de manera (semi) automática . La minería de datos tiene relación con diversas dis ciplinas, confundiéndose en ocasiones con al...

Francisco Manuel Rangel Pardo 16 TEMARIO OPOSICIONES COIICV | TEMA 36 • Y aunque no se menciona de manera explícita en la d efinición, el proceso de minería se debe realizar de manera (semi) automática . La minería de datos tiene relación con diversas dis ciplinas, confundiéndose en ocasiones con algunas de ellas. Se puede considerar a la estadíst ica como la madre de la minería de datos, ya que gran cantidad de terminología, métodos y técnic as provienen de ella: las medidas de centralidad como la media, la desviación estándar, las distribuciones de frecuencias, los métodos de validación cruzada o el aprendizaje bayesiano so n algunas de ellas. El aprendizaje automático también tiene una relación estrecha con la minería de datos, ya que proporciona algoritmos que son capaces de aprender a partir de ejemplos para r esolver tareas concretas. La inteligencia artificial en su concepto más amplio tiene relación con la minería de datos pues le aporta todo lo relativo al aprendizaje automático, pero también lo s modelos de representación de los datos necesarios para que dichos algoritmos puedan aprend er. Pero quizás donde existe una relación más estrecha, tanto que llega a confundir la termin ología, es con el proceso de extracción de conocimiento de bases de datos (KDD de sus siglas e n inglés Knowledge Discovery in Databases ). 4.1. Fases. Modelo CRISP-DM La minería de datos se enmarca en un proceso más am plio denominado KDD. Sin embargo, en la mayoría de ocasiones que mencionamos la minería de datos como disciplina, estamos haciendo mención a todo el proceso anterior en su globalidad . Teniendo esto en cuenta y con el objetivo de normalizar una metodología para aproximar tareas de minería de datos, cinco compañías (SPSS, Teradata, Daimler AG, NCR Corporation y OHRA) propo nen en 1996 el modelo CRISP-DM ( CRoss Industry Standard Process for Data Mining ). CRISP-DM consta de seis fases altamente relacionadas entre sí, donde el conocimiento de cad a fase alimenta a la siguiente y realimenta a la anterior. • Fase 1 Comprensión del negocio: Esta primera fase es esencial para llevar a cabo u n proceso de minería con éxito. En esta fase se marca n los objetivos a conseguir con el proyecto, el conocimiento que se desea descubrir y para qué será utilizado. Esta fase determinará las elecciones a realizar en las siguie ntes fases. • Fase 2 Comprensión de los datos : Esta segunda fase está íntimamente ligada a la anterior. Una buena comprensión del negocio benefic iará la comprensión de los datos disponibles y los necesarios para cumplir el objeti vo, y a su vez, una mejor comprensión de los datos, permitirá comprender mejor el negocio y afinar en los objetivos esperados por el proyecto. • Fase 3 Preparación de los datos: En esta fase se recopilan, integran, preparan, lim pian y transforman los datos para adaptarlos a las necesid ades marcadas por la comprensión del negocio y de los datos. • Fase 4 Modelado: En esta fase se aplicarán los métodos de minería d e datos orientados a resolver el problema concreto planteado en los obje tivos del proyecto. La construcción de los modelos puede implicar tener que transformar lo s objetivos de nuevo, por lo que son dos fases que se encuentran íntimamente ligadas. Se autoriza el uso exclusivo de este documento a María Amparo Pavía García, DNI 20013968N, a 26 de julio de 2019Gestión de los datos corporativos TEMARIO OPOSICIONES COIICV | TEMA 36 17 • Fase 5 Evaluación: En esta fase se evalúa la calidad de los modelos d esde dos perspectivas: la técnica, donde se evalúa la calida d de los resultados obtenidos, y la del negocio, donde se evalúa el valor que aporta el con ocimiento descubierto. Este nuevo conocimiento realimenta la fase de comprensión del negocio, por lo que puede hacer que se replanteen los objetivos del proyecto o incluso que se hagan proyectos alternativos. • Fase 6 Distribución: En esta última fase se dispone de nuevo conocimien to que se distribuye en la organización para ser incorporado en sus procesos de toma de decisiones. Cuando se llega a esta fase se consideran cumplidos los objetivos y por lo tanto sólo queda llevar a la práctica lo que se ha aprendido. Figura 3: Modelo CRISP-DM. Fuente: CRISP-DM. 4.2. Comprensión del negocio y comprensión de los d atos. Tipología de problemas Las dos primeras fases del modelo CRISP-DM están mu y relacionadas entre sí. Una buena comprensión del problema desde la perspectiva del n egocio ayudará a comprender mejor los datos, y una buena comprensión de los datos, ayudar á a definir mejor el problema desde la perspectiva del negocio. En este punto, uno de los principales puntos es det erminar a qué tipo de problema hay que enfrentarse. Que el proyecto de minería sea exitoso dependerá en gran medida de la comprensión Se autoriza el uso exclusivo de este documento a María Amparo Pavía García, DNI 20013968N, a 26 de julio de 2019Francisco Manuel Rangel Pardo 18 TEMARIO OPOSICIONES COIICV | TEMA 36 que se tenga del negocio y de los datos disponibles o conseguibles. A continuación, se realiza una revisión de los tipos de problemas más comunes a lo s que enfrentarse en un proyecto de minería de datos, para posteriormente entrar en detalle en algunas de las técnicas más conocidas para abordarlos. Se considera que los problemas de miner ía de datos se pueden resolver con dos tipos de tareas: • Las predictivas , que tratan de predecir nuevos valores a partir de l entrenamiento previo con datos etiquetados; y, • Las descriptivas , que parten de un conjunto de valores no etiquetad os y tratan de describirlos. Sea: • E el conjunto de todos los posibles elementos de ent rada, representando generalmente como un conjunto de atributos nominales o numéricos A • A el conjunto de atributos nominales o numéricos de E tal que E=A 1xA 2x…xA n • e € E el elemento ejemplo perteneciente a E y representado por la tupla e=<a 1, a 2, …, a n> donde a € A • S el conjunto de valores de salida. 4.2.1. Tareas predictivas En las tareas predictivas se dispone de un conjunto d de elementos etiquetados como duplas d=<e,s> donde e € E y s € S . Está etiquetado puesto que a cada entrada e se sabe su correspondencia unívoca con un elemento de salida s. Por ejemplo, clientes con y sin riesgo, opiniones positivas, negativas o neutras, o sensore s y sus rangos de valores. Dentro de este tipo de tareas podemos encontrarnos con problemas de cla sificación, categorización, priorización y regresión. • Clasificación : Su objetivo es aprender una función f:E->S que a partir de un conjunto de elementos de entrada etiquetados d=<e,s> sea capaz de predecir el valor de la etiqueta para una nueva instancia no etiquetada. Por ejemplo , dado un conjunto de clientes E representados por una serie de atributos A (edad, ingresos, gastos, nivel educativo…) y un conjunto S de etiquetas asignadas (riesgo/no riesgo), sea cap az de predecir la etiqueta s correspondiente para un nuevo cliente e para el que no se dispone de etiqueta. Si el conjunto S sólo tiene un valor (y generalmente su contrario), se habla de clasificadores binarios (e.g. es o no spam, es o no cliente de riesgo, es hombre o mujer). Si por el contrario hay más de un valor (e.g. positivo, negativo y neutro; adolescente, veinteañero, treintañero, etc.), se habla de clasificadores multiclase . Estos últimos se pueden entrenar para predecir en tre las múltiples clases, o como clasificadores binarios en tre cada clase y las demás (estrategia 1 contra todos). Se autoriza el uso exclusivo de este documento a María Amparo Pavía García, DNI 20013968N, a 26 de julio de 2019Gestión de los datos corporativos TEMARIO OPOSICIONES COIICV | TEMA 36 19 La salida de la clasificación puede llevar asociada una estimación de la probabilidad de que dicha clasificación sea la correcta (e.g. este cliente es potencialmente de riesgo con 85% de certeza). Esto es lo que se conoce como clasificación suave , donde además de la función de estimación de clase, se aprende otra función con la probabilid ad de pertenencia a la misma. Es lo que se conoce como el estimador de probabilidad . Además de la ventaja que aporta el conocer el gra do de certeza de la predicción, este tipo de clasifica dores permiten su combinación mediante rankings de clasificadores. • Categorización : En este caso, en lugar de aprender una función qu e asigna cada ejemplo e una clase en exclusiva, en la categorización se pu eden asignar tantas clases como sea necesario. Un ejemplo típico de esta tarea es la de etiquetado semántico, donde por ejemplo, a una entrada de un blog se le asignarían tantas etiquetas como temáticas se detectasen en el mismo. De igual manera que con los clasificadores, en la categorización se puede aprender un estimador de probabilidad y po r lo tanto realizar una categorización suave. Se puede ver el problema de la categorización como un problema agregado de clasificadores binarios, donde para cada categoría se dispondría d e un clasificador binario que asignaría o no la categoría correspondiente. Volviendo al ejemplo del blog, si se dispone de tres etiquetas o temáticas, la categorización por clasificadores bin arios consistiría en aprender tres clasificadores que determinasen si el blog pertenece o no a cada u na de esas etiquetas. • Priorización : El problema es similar al de la clasificación/cat egorización, pero se basa en obtener una lista ordenada de preferencias a partir de los datos, habiendo aprendido previamente de ejemplos ordenados. La dificultad es triba precisamente en el aprendizaje de estas secuencias de elementos, pero el trasfondo es similar a los casos anteriores. Una aplicación interesante sería en los sistemas de recomendación, donde se proporciona al usuario una lista de elementos afines a sus gustos, pero dicha lista se presenta ordenada. Piénsese en resultados de una búsqueda y la recomen dación de consultas similares, o la elección de un producto (no sólo un producto físico a compra r, también uno virtual a consumir como una canción o una película), donde los productos simila res recomendados estuvieran ordenados por afinidad a las preferencias del usuario. • Regresión : La definición matemática es similar a la de la cl asificación, es decir, aprender una función que asigne un único valor de salida a c ada ejemplo de entrada d:E->S . Sin embargo, la diferencia fundamental es que los valor es de S sólo pueden ser numéricos , a diferencia de la clasificación, donde los valores d e S son atributos nominales denominados clases. Esta propiedad de la regresión permite trab ajar en un entorno continuo como es el de los números reales R, y la función de predicción puede ser tan compleja como sea necesaria, no sólo lineal. La regresión puede servir para predecir las ventas del próximo trimestre dependiendo de una serie de factores actuales, o para identificar la edad qu e tiene una persona en función de otras características como el lenguaje que utiliza. Aunqu e los valores resultantes son numéricos y pueden estar en un rango continuo, se puede fácilme nte convertir un problema de regresión en uno Se autoriza el uso exclusivo de este documento a María Amparo Pavía García, DNI 20013968N, a 26 de julio de 2019Francisco Manuel Rangel Pardo 20 TEMARIO OPOSICIONES COIICV | TEMA 36 de clasificación simplemente creando rangos que se correspondan con determinadas clases. Así pues, una regresión para identificar la edad de una persona podría convertirse en una clasificación si creamos rangos como niños (de 0 a 13 años), adol escentes (de 13 a 18 años), jóvenes (de 18 a 25 años), etcétera. 4.2.2. Tareas descriptivas En el caso de las tareas descriptivas, los ejemplos e € E se presentan sin etiquetar ni ordenar, o lo hacen de manera parcial. Ejemplos de tareas descrip tivas son el agrupamiento, la correlación, las reglas de asociación y la detección de anomalías. • Agrupamiento : también conocido por su denominación inglesa ( clustering ), consiste en obtener conjuntos de elementos que sean lo más homo géneos dentro del conjunto y lo más heterogéneos con respecto al resto de grupos. E sto es, conjuntos de elementos que se parezcan mucho entre sí y poco con respecto a lo s demás. La principal diferencia con la clasificación es que a priori no se sabe cada elemento a qué conjunto pertenece, ni siquiera los conjuntos que puede habe r. Es el proceso de aprendizaje el que decide ambas cosas: qué grupos hay (y por lo tanto cuántos ) y quién pertenece a cada grupo. Una aplicación de este tipo de técnicas es la segme ntación de clientes en marketing. Según determinados comportamientos (atributos), se proced e a agruparlos según determinadas características comunes y diferentes al resto. Cuan do se dispone de un nuevo cliente, se calcula a qué grupo pertenecería, y se podría inferir atribut os (comportamientos) de dicho cliente que no conocemos a priori por la similitud con los otros c lientes de su grupo. En las técnicas de agrupamiento también existe el c oncepto de suave y de estimador de probabilidad, con lo que cada instancia o ejemplo d e entrada no sólo se asignaría al correspondiente grupo (el más probable), sino que s e dispondría de la probabilidad de pertenencia a cada uno de los grupos, lo que permitiría al supe rvisor humano tener mayor conocimiento de lo que está sucediendo, e incluso incorporar corrector es. • Correlación : El objetivo es determinar si dos instancias o ele mentos <e1, e2> € E , o alguno de sus atributos E = A 1xA 2x…xA n, está relacionado de algún modo, y cuál es la dirección de dicha relación. La correlación se limita a atributos numéricos, y g eneralmente el resultado se determina por un valor numérico indicando la similitud o diferencia entre ambos, que suele comprenderse en el rango [-1, 1]. Un valor que tiende hacia el extremo izquierdo (-1) indicará una correlación negativa donde al crecer una variable, la otra decrece, mien tras que un valor que tiende hacia el extremo derecho (1) indicará correlación positiva, donde un a variable crecerá si lo hace la otra. Valores cercanos a 0 implican no correlación entre ellos, e s decir, cualquier relación es fruto del azar. Se autoriza el uso exclusivo de este documento a María Amparo Pavía García, DNI 20013968N, a 26 de julio de 2019Gestión de los datos corporativos TEMARIO OPOSICIONES COIICV | TEMA 36 21 Es importante hacer notar que la correlación únicam ente determina la relación entre dos elementos, nunca la causalidad. Esto significa que son bidireccionales y no orientados, a diferencia de la causalidad, que implicaría unidireccionalidad y orientación. Esta confusión es uno de los errores más cometidos en análisis de datos, especia lmente en entornos big data donde, por la sobreabundancia de datos, se pueden encontrar corre laciones entre cualquier par de variables. • Reglas de asociación : Las reglas de asociación permiten obtener relació n entre variables cuyos atributos son nominales, a diferencia de la c orrelación que únicamente lo permitía con atributos nominales. Las reglas de asociación s e han aplicado principalmente a descubrir patrones en bases de datos, y han sido y son una de las principales tareas en minería de datos. Con ellas se pueden obtener regla s del tipo “si compró este producto hay tanta probabilidad de comprar este otro” . Existe una regla de asociación muy famosa que se desprende de un estudio realizado por Wal-Mart q ue afirmaba que “los clientes que compran pañales son 5,33 veces más propensos a comp rar cerveza (que los que no compran pañales)” . Este hecho, quizás debido a las largas noches de los padres primerizos, aportó un conocimiento sustancial a Wal -Mart para reorganizar sus estanterías y poner ambos productos más cerca, aumentando así s us ventas. Además de poderse aplicar a atributos nominales, la s reglas de asociación tienen otra diferencia sustancial con la correlación, y es que en este cas o sí que puede existir implicación causal. Es decir, las reglas de asociación pueden ser bidirecc ionales, o unidireccionales y orientadas. En esta categoría se suelen incluir las dependencias funcio nales, diferenciándose en que éstas consideran todos los posibles valores. Por ejemplo, sabiendo e l nivel de ingresos, el rango de edad, la etnia, el nivel de estudio y si está casado, se puede determi nar el riesgo de morosidad de un cliente. • Detección de valores e instancias anómalas : A diferencia de la mayoría de los métodos anteriores, donde se aprende por la existencia de d eterminados patrones que se hacen patentes por su frecuencia de aparición conjunta, e sta tarea consiste en encontrar aquellos valores, o aquellas instancias (ejemplos), que no s ean similares a ninguna de las demás. Esta tarea se suele utilizar para detectar fraudes, fallos o intrusos en sistemas, comportamientos extraños y/o diferenciados, etcétera. Por ejemplo, fraudes en el uso de tarjetas de crédito porque el momento, el lugar y/o el importe sean anómalos con respecto a su uso normal, fallos en las redes de transmisión porque el nivel de ruido, la latenci a y/o el orden de llegada de los paquetes sea diferente a su distribución normal, intento de acce so no autorizado al sistema porque la combinación de caracteres utilizados en la contrase ña, el número de intentos y/o el intervalo entre intentos difieren de los usos anteriores, o detecci ón de pederastas porque el estilo de escritura, la frecuencia y/o las palabras utilizadas no se corres pondan con el perfil del usuario que dice ser. 4.3. Preparación de los datos. Modelos de represent ación. Tras la definición del problema a resolver y la ide ntificación de en qué tipo de problema de minería de datos se encuadra, es el momento de preparar los datos para poder aplicar las técnicas de modelado correspondiente. La preparación de los dat os va a involucrar dos fases bien Se autoriza el uso exclusivo de este documento a María Amparo Pavía García, DNI 20013968N, a 26 de julio de 2019