parte_34.txt
Document Details

Uploaded by AutonomousHeliotrope
Full Transcript
Francisco Manuel Rangel Pardo 28 TEMARIO OPOSICIONES COIICV | TEMA 36 • Error muestral : SerÃa la inversa de la accuracy ( 1 - accuracy ), y proporciona el porcentaje de muestras o ejemplos mal clasificados. La medida accuracy (o desde la perspectiva contraria, el error muestr al) permite fácilmente...
Francisco Manuel Rangel Pardo 28 TEMARIO OPOSICIONES COIICV | TEMA 36 • Error muestral : SerÃa la inversa de la accuracy ( 1 - accuracy ), y proporciona el porcentaje de muestras o ejemplos mal clasificados. La medida accuracy (o desde la perspectiva contraria, el error muestr al) permite fácilmente ver el rendimiento de un clasificador, aunque adolece de c iertos problemas. Por ejemplo, en el ámbito médico podrÃamos tener un clasificador que ante uno s sÃntomas como mucosidad, fiebre y falta de apetito siempre diagnosticara gripe. Su accuracy serÃa muy cercana al 100%, pero ocurrirÃa que un paciente con meningitis serÃa diagnosticado con gri pe y morirÃa. Esto es lo que se conoce como un Falso Positivo, y puede tener un coste muy superior a cualquier otro tipo de error. Asà nace la necesidad de la evaluación por costes. 4.5.1.2. Evaluación por costes En la evaluación por costes prima que el modelo efe ctúe una predicción minimizando el coste (riesgo) de la misma. Para la evaluación por costes conviene construir una matriz con los posibles errores que se pueden producir. Es lo que se conoce como matriz de confusión . Supongamos un clasificador binario que clasifique a un paciente c omo meningitis sà (caso positivo) o no (caso negativo). La matriz de confusión quedarÃa de la si guiente manera: Tabla IV: Matriz de confusión. Fuente: Elaboración propia Predicción Negativo Positivo Negativo a b Clase real Positivo c d El significado de las letras en la matriz es el sig uiente: • a representa los casos que han sido correctamente pr edichos como casos negativos (pacientes sin meningitis que se han clasificado co mo que no padecen meningitis). • b representa los casos que incorrectamente se han cl asificado como positivos (pacientes sin meningitis clasificados como que padecen la enf ermedad). • c representa los casos que incorrectamente se han cl asificado como negativos (pacientes con meningitis diagnosticados erróneamente como que no padecen meningitis). • d representa los casos que correctamente se han clas ificado como positivos (pacientes con meningitis que correctamente se han identificado co mo tales). Se autoriza el uso exclusivo de este documento a MarÃa Amparo PavÃa GarcÃa, DNI 20013968N, a 26 de julio de 2019Gestión de los datos corporativos TEMARIO OPOSICIONES COIICV | TEMA 36 29 Asociado a cada uno de los valores a, b, c y d tenemos un coste, con lo que deberemos multiplicar cada uno de los valores anteriores por su coste y q uedarnos con aquel clasificador que minimice el resultado. Es importante notar que nos referimos a coste como función que asigna mayores pesos a los peores casos, no tiene por qué corresponderse con coste económico. Sin embargo, traducirlo a coste económico suele simplificar su entendimient o y facilitar la toma de decisiones. En el caso de que no sea posible disponer de una ma triz de costes para aprender los modelos, se hace uso de la técnica del análisis ROC ( Receiver Operating Characteristic ). Para ello se calculan las siguientes ratios a partir de la matriz de conf usión: • True positive (TP) o verdaderos positivos, es la pr oporción de casos positivos que son correctamente clasificados. (1) • False positive (FP) o falsos positivos, es la propo rción de casos negativos que fueron incorrectamente clasificados como positivos. (2) • True negative (TN) o verdaderos negativos, es la pr oporción de casos negativos que fueron correctamente clasificados. (3) • False negative (FN) o falsos negativos, es la propo rción de casos positivos que fueron incorrectamente clasificados como negativos. (4) Y con ellas se representa una curva que confronte l os False positive (FP) frente a los True positive (TP) en un espacio real de dos dimensiones con valo res entre 0 y 1. Un clasificador será mejor cuanta más área cubra bajo la curva ROC. 4.5.1.3. Medidas alternativas Importadas de otras áreas como la de la recuperació n de información, y a partir de la matriz de confusión presentada anteriormente y las medidas TP, FP, TN, FN , se dispone de otra serie de medidas que permiten destacar diferentes aspectos d el funcionamiento de los clasificadores. Concretamente: • Precision (precisión): Indica la habilidad del clasificador para no asignar como positiva una muestra que es negativa. En el ejemplo, serÃa la ca pacidad del clasificador para no Se autoriza el uso exclusivo de este documento a MarÃa Amparo PavÃa GarcÃa, DNI 20013968N, a 26 de julio de 2019Francisco Manuel Rangel Pardo 30 TEMARIO OPOSICIONES COIICV | TEMA 36 determinar que un paciente tiene meningitis cuando no la tiene. Se define como la relación entre los verdaderos positivos ( TP ) frente a la suma de verdaderos positivos ( TP ) y falsos positivos ( FP ). (5) • Recall (alcance, recuerdo): Indica la habilidad del clasi ficador para encontrar todas las muestras positivas, es decir, la capacidad de clasi ficar correctamente a todos los pacientes que tienen meningitis y no descartarlos como que no la tienen. Se define como la relación entre el número de verdaderos positivos ( TP ) frente a la suma de verdaderos positivos ( TP ) y falsos negativos ( FN ). (6) • F-score : Puesto que evaluar un modelo en base a dos medida s puede resultar complejo, especialmente a la hora de comparar diferentes sist emas, se define una medida que combina ambas, por regla general, como la media arm ónica, aunque se puede decidir efectuar un ajuste de peso diferente según convenga . Por ejemplo, si se le da más importancia a no dejar de diagnosticar un caso de m eningitis frente a equivocarse y diagnosticar como meningitis un caso que no lo es, se optarÃa por incrementar el peso correspondiente a recall. (7) 4.5.2. Evaluación de modelos de regresión Los modelos de regresión se diferencian de los de c lasificación en que, en lugar de asignar una clase única y nominal, se puede asignar un valor en un intervalo numérico continuo. La evaluación en este tipo de técnicas trata de encontrar un valo r que proporcione la similitud entre el valor predicho y el valor real, para un conjunto de ejemp los de validación. Dado un conjunto de pruebas T de n ejemplos, el vector y de resultados predichos por el modelo aprendido, y el vector Å· de valores reales para cada ejemplo de pruebas ( ground truth ), el valor xÌ„ como la media de los valores predichos, y el valor yÌ„ como la media de los valores reales de regresión, las medidas más utilizadas para evaluar el modelo de regresión son las siguientes: • Error cuadrático medio ( MSE , Mean Squared Error), que consiste en sumar los er rores cuadráticos entre la salida del modelo y la función real: Se autoriza el uso exclusivo de este documento a MarÃa Amparo PavÃa GarcÃa, DNI 20013968N, a 26 de julio de 2019Gestión de los datos corporativos TEMARIO OPOSICIONES COIICV | TEMA 36 31 (8) • RaÃz del error cuadrático medio ( RMSE , Root Mean Squared Error), que consiste en realizar la raÃz cuadrada de la medida MSE para nor malizar a la magnitud real de los errores (que con MSE efectuamos el cuadrado): (9) • Error absoluto medio ( MAE , Mean Absolute Error), que trata de limitar el pes o de los errores más extremos: (10) • Error cuadrático relativo ( RSE , Root Squared Error), que pretende dar el mismo pe so a errores de magnitud 10 en una predicción de 100, qu e errores de 1 en una predicción de 10. (11) • Correlación producto-momento de Pearson ( PC, Pearson Product-Moment Correlation ), que aunque no es una medida de evaluación especÃfic a de la regresión, ha sido utilizada en el estado del arte de tareas que involucran la r egresión con una buena aceptación académica. El PC o coeficiente de Pearson como tamb ién se le conoce, proporciona una medida de correlación entre dos variables en un ran go de entre [-1,1], con la interpretación que se proporcionó cuando se trató de los problemas de correlación en el apartado anterior. La formulación del PC, cuando se trata de una muestra r, es la siguiente: (12) 4.5.3. Evaluación de modelos de clustering/agrupami ento En el caso del clustering no se dispone de etiquetas asociadas a los datos p or lo que la evaluación hará uso del concepto de verosimilitud ( likelihood ) que implicará maximizar un valor determinado Se autoriza el uso exclusivo de este documento a MarÃa Amparo PavÃa GarcÃa, DNI 20013968N, a 26 de julio de 2019Francisco Manuel Rangel Pardo 32 TEMARIO OPOSICIONES COIICV | TEMA 36 de similitud (inverso al concepto de distancia) ent re los elementos agrupados conjuntamente. Es decir, minimizar la distancia (e.g. el error cuadrá tico) entre cada ejemplo xi y el centroide del grupo ck al que se asigna: (13) También se suele utilizar el concepto de entropÃa, que define la cantidad de información que aporta el modelo, y su objetivo en dicho caso es maximizar la. 4.5.4. Evaluación de modelos de reglas de asociació n Las reglas de asociación se construyen sobre datos que no tenemos etiquetados. Son modelos descriptivos por lo que no se pueden aplicar las mi smas técnicas que en los modelos predictivos. En el caso de las reglas, se utilizan principalment e las siguientes dos medidas para evaluarlas: • Cobertura , o soporte de la regla, que es el número de ejempl os sobre los que la regla se puede aplicar. • Confianza , o precisión de la regla, que es el porcentaje de veces que la regla se cumple cuando se puede aplicar. Por ejemplo, en un conjunto de datos con 100.000 ej emplos donde una regla aplica 55.000 veces su lado izquierdo y 40.000 veces su lado derecho, t endremos una cobertura del 55% (55.000 veces de las 100.000) y una confianza del 73% (40.000 vec es de entre 55.000). 4.6. Difusión La fase final de la minerÃa de datos es la de difus ión y aplicación de los modelos aprendidos para poder ser utilizados en la toma de decisiones. Hay que prestar atención a una problemática con determinados modelos que se consideran opacos –com o por ejemplo las redes neuronales o las máquinas de vectores soporte– que pueden proporcio nar buenos modelos pero que son difÃciles de comprender. Asà por ejemplo, una red neuronal ap licada a la determinación del riesgo de un cliente puede dar buenos resultados, pero no va a p ermitir explicar por qué ese cliente es de riesgo. Existen alternativamente métodos explicativ os como los árboles de decisión o los métodos bayesianos, que permiten a partir de un resultado, comprender por qué se ha llegado a él, facilitando asà la creación y difusión del conocimi ento. Será quizás por ello que una de las primeras decisiones a tomar confrontará la explicabilidad de l modelo frente a su precisión. Una posible solución al problema es la de combinar ambos modelo s de manera que se aproveche la precisión obtenida por los modelos opacos, y sobre lo aprendi do, se use un modelo más explicativo para comprender mejor el problema. Se autoriza el uso exclusivo de este documento a MarÃa Amparo PavÃa GarcÃa, DNI 20013968N, a 26 de julio de 2019Gestión de los datos corporativos TEMARIO OPOSICIONES COIICV | TEMA 36 33 Otra cuestión a tener en consideración es la integr ación de los modelos en los sistemas de producción para su posterior reutilización. En la m ayorÃa de las ocasiones los modelos se construyen en suites de minerÃa de datos que propor cionan herramientas para todo el ciclo completo –descrito en CRISP-DM–. Sin embargo, los sistemas de producción y toma de decisiones en los que se desee integrar pueden esta r escritos en diferentes lenguajes de programación e incluso en diferentes infraestructur as. Es por ello que se debe considerar la posibilidad de exportación, difusión e integración de los modelos al margen de la plataforma donde se crearon. En este sentido, algunos modelos como l os árboles de decisión o los métodos bayesianos son fácilmente programables como conjunt os de reglas o a partir de las probabilidades calculadas. Sin embargo, la integración de una red neuronal o una máquina de soporte vectorial, es algo más complicada. En este punto existe un est ándar sobre XML denominado PMML (Predictive Model Markup Language ) definido por el Data Mining Group ( http://www.dmg.org ), que permite definir y distribuir modelos de minerÃa de datos. 4.7. Herramientas para la minerÃa de datos Existen multitud de herramientas para la minerÃa de datos, algunas genéricas que permiten definir el flujo de trabajo y los algoritmos a aplicar, y o tras más especÃficas para realizar tareas concretas . Debido a su cantidad y proliferación, a continuació n hacemos referencia a tres de ellas que destacan por su potencia y versatilidad, además de ser open source lo que facilita su prueba. Sin embargo, se recomienda ampliar información sobre ot ras herramientas como: RapidMiner, SPSS, dVelox, MicroStrategy, SAS Enterprise Miner, Oracle DataMining, Microsoft SQLServer Datamining, Teradata Warehouse Miner, AdvancedMiner , Angoss, BayesiaLab, DBMiner, Kepler, Mathematica for Data Analysis, etcétera. • Weka (http://www.cs.waikato.ac.nz/ml/weka/ ) (Witten et al., 2011) es una colección de algoritmos de aprendizaje desarrollados en Java e i ntegrados a partir de una interfaz gráfica que permite la lectura, pre-procesado y tra nsformación de los datos, el aprendizaje de modelos (clasificación, regresión, clustering, r eglas de asociación) y su evaluación, asà como visualización (e.g. árboles de decisión). Es s oftware abierto distribuido bajo licencia GNU General Public License. permite el aprendizaje a partir de grandes volúmenes de datos ( big data ) mediante el aprendizaje incremental de los modelo s, y en su última versión (3.8) se proporciona acceso a paquetes de minerÃa d e datos distribuida que permiten aplicar el paradigma MapReduce, o utilizar infraest ructuras Hadoop y/o Spark. • Mahout ( https://mahout.apache.org/ ) (Owen et al., 2011) es un conjunto de librerÃas J ava para aprendizaje automático, especialmente sistemas de recomendación, clasificación y clustering. A diferencia de otras herramientas, Mah out es un framework con un conjunto de librerÃas que deben ser utilizadas y adaptadas por los desarrolladores. No proporciona interfaz de usuario, ni servidor pre-configurado, n i un instalador de una suite. Mahout es software abierto, forma parte del proyecto Apache. Una de sus principales caracterÃsticas es su adecuación al aprendizaje en entornos big dat a, donde los datos sobre los que aprender posiblemente no quepan en una sola máquina . Para ello Mahout está integrado con Hadoop, otro proyecto Apache. Algunos de los ej emplos de aplicaciones conocidas que utilizan Mahout son Picasa, Google News o Netfl ix. Se autoriza el uso exclusivo de este documento a MarÃa Amparo PavÃa GarcÃa, DNI 20013968N, a 26 de julio de 2019Francisco Manuel Rangel Pardo 34 TEMARIO OPOSICIONES COIICV | TEMA 36 • R (https://www.r-project.org/ ) es tanto un lenguaje como un entorno de desarroll o especialmente orientado a la computación estadÃstic a y la visualización de resultados gráficos. Como lenguaje, proporciona gran cantidad de métodos de procesamiento estadÃstico, como modelado lineal y no lineal, test s estadÃsticos, análisis de series temporales, clasificación o clustering. Asà mismo, permite la generación de gráficos de manera sencilla a partir de los datos y los modelos construidos. Además, puesto que es un lenguaje de programación, permite desarrollar algor itmos propios y compartirlos con la comunidad, una de las más activas en la actualidad. Como entorno de desarrollo, se proporciona una suit integrada para trabajar con da tos, aplicarles procesos y obtener salidas visuales. Es destacable la facilidad para t rabajar con estructuras de datos como las matrices, permitiendo aplicar operaciones a todas s us columnas y/o filas sin necesidad de iterar por ellas. Una de las suites más extendida e s R Studio ( https://www.rstudio.com/ ). 5. Arquitecturas y técnicas de procesamiento masivo de datos (big data) Big data es un concepto en auge que se ha extendido más all á del ámbito tecnológico, asociándose a toda una revolución en el mundo de la comunicación, los negocios y el entretenimiento. Se entiende por big data un conjunto de datos que por su volumen y compleji dad no pueden ser procesados por métodos tradicionales en computadoras tradicionales. Big data es a su vez un nuevo paradigma donde se coloca al dato c omo el epicentro organizativo, para lo cual se obtienen, mezclan y procesan datos fruto de la revo lución digital. Datos existentes y que en la actualidad se mezclan y funden para obtener nuevos datos (balances y cotizaciones de empresas, datos de consumo, tasas de empleo, precios, natalid ad, PIB o clima), con nuevos datos generados por el internet de las cosas (sensores y dispositiv os inteligentes), los wereables (datos vitales, de hábito y de comportamiento), los dispositivos móvil es o las redes sociales (conversaciones, redes de amistad, fotografÃas, vÃdeos, geolocalización, g ustos y opiniones). Una de las principales confusiones a las que lleva el término es a su asociación únicamente con grandes volúmenes de datos. Sin embargo, al término big data se le asocian una o más de las que se conocen como las Vs del big data (cuatro o cinco, dependiendo del autor). • Volumen : Se refiere a cantidades masivas de datos difÃcilm ente almacenables en una sola máquina o por medios convencionales. Se puede pensa r en grandes volúmenes en tareas de procesamiento de imágenes médicas y/o vÃdeo digi tal. • Velocidad : Se refiere a la velocidad con la que se crean, pr ocesan y/o analizan los datos, llegando al lÃmite del tiempo real y en base a lo q ue se conoce como procesamiento en streaming . Se puede pensar en velocidad al tener que procesa r en tiempo real las señales de múltiples sensores que proporcionen el estado de un paciente, o la recuperación en tiempo real de redes sociales en un debate presiden cial. Se autoriza el uso exclusivo de este documento a MarÃa Amparo PavÃa GarcÃa, DNI 20013968N, a 26 de julio de 2019