Proyecto de computación I - Tema 5. Herramientas comunes PDF
Document Details
Uploaded by PreferableGingko
Universidad Europea
null
null
Tags
Summary
Este documento presenta el Proyecto de computación I, Tema 5. Herramientas comunes de la Universidad Europea. Se explica la introducción a las herramientas para trabajar con datos, incluyendo una sección sobre recursos con datos abiertos y una descripción de las herramientas ETL, limpieza y consolidación de datos y minería de datos.
Full Transcript
Proyecto de computación I Tema 5. Herramientas comunes Proyecto de computación I Tema 5. Herramientas comunes Índice 1. Presentación........................................................................... 3 2. Recursos con datos abiertos............................................................
Proyecto de computación I Tema 5. Herramientas comunes Proyecto de computación I Tema 5. Herramientas comunes Índice 1. Presentación........................................................................... 3 2. Recursos con datos abiertos......................................................... 3 3. Herramienta de ETL: Pentaho Data Integration (PDI)........................... 4 4. Herramienta de limpieza y consolidación: OpenRefine......................... 5 5. Herramienta de minería de datos: Rapidminer................................... 6 6. Resumen................................................................................ 7 Referencias bibliográficas............................................................... 7 © Copyright Universidad Europea. Todos los derechos reservados. 2 Proyecto de computación I Tema 5. Herramientas comunes 1. Presentación En este tema vamos a ver varias herramientas que se han utilizado en diversas asignaturas de la titulación, y que recordamos porque nos van a resultar de mucha utilidad para ponernos a trabajar en nuestro proyecto de computación. Veremos tres herramientas principales: Pentaho Data Integration, OpenRefine y Rapidminer, aunque no serán las únicas que se pueden utilizar para trabajar en el proyecto. En este tema haremos una breve introducción de cada una de ellas, explicando para qué se utilizan, y viendo dónde podemos conseguirlas para instalarlas en nuestros equipos (aunque siempre está la posibilidad de utilizarlas desde el Laboratorio Virtual de la universidad sin tener que instalar nada). En este tema no explicaremos el uso y funcionamiento en detalle de las herramientas ya que en la unidad vamos a tener también unos videos explicativos del uso de cada una de ellas. 2. Recursos con datos abiertos Podemos encontrar webs con datos abiertos publicados tanto por administraciones públicas como por entidades particulares. A continuación, detallamos algunas webs y APIs de las que podemos extraer los datos necesarios para el proyecto de computación: Portal de Transparencia del Gobierno de España: Portal de Datos Abiertos del Gobierno de España: © Copyright Universidad Europea. Todos los derechos reservados. 3 Proyecto de computación I Tema 5. Herramientas comunes Portal de Datos Abiertos del ayuntamiento de Madrid: Instituto Nacional de Estadística (INE): Eurostat: 3. Herramienta de ETL: Pentaho Data Integration (PDI) PDI es una herramienta que nos va a servir para preparar los datos para su utilización en el proyecto. Es una herramienta que nos permite cargar datos desde diversas fuentes y formatos, hacer transformaciones para modificarlos, y cargarlos en el repositorio o fichero que necesitemos para nuestro proyecto. Mediante una interfaz visual que nos permite arrastrar y soltar operaciones, podemos diseñar complejos procesos de transformación de datos de manera bastante intuitiva. Pentaho Data Integration es un programa que se encuentra dentro de la suite de herramientas de Minería de Datos Pentaho, y que se distribuye bajo una doble licencia: comercial y Opensource (esta última se conoce como Community Edition). Podemos descargar la última versión del software en el siguiente enlace: http://community.pentaho.com/projects/data-integration Puesto que PDI está desarrollado en Java, podemos utilizarlo tanto en Windows como OS X o Linux. Una vez instalado el programa, en la carpeta de instalación veremos varios archivos ejecutables. Para abrir la herramienta con interfaz gráfica, debemos ejecutar el archivo con nombre “spoon” y extensión “.bat” (para entornos Windows) o “.sh” (para Os X y Linux). Al ejecutarlo, veremos una interfaz como la que se muestra en el gráfico. En el vídeo que acompaña a esta unidad veremos un repaso de uso del Pentaho Data Integration para cargar y procesar un conjunto de datos. © Copyright Universidad Europea. Todos los derechos reservados. 4 Proyecto de computación I Tema 5. Herramientas comunes Figura 1. Interfaz de Pentaho Data Integration. 4. Herramienta de limpieza y consolidación: OpenRefine OpenRefine es una herramienta creada por Google (antes tenía el nombre Google Refine) para trabajar con datos que pueden estar desordenados y sucios (datos duplicados, mal escritos, con valores nulos, etc.), y transformarlos limpiando los errores e inconsistencias. Permite también ampliar los datos enlazando con fuentes externas (servicios web). Una de las tareas para las que OpenRefine resulta más útil es para hacer consolidación de los datos: que consiste en hacer que dos valores que están escritos de formas distintas (y todas las formas pueden ser correctas), se representen siempre de una única forma. Por ejemplo, supongamos que hemos fusionado datos provenientes de diversas fuentes, y una de las columnas tiene valores de provincias españolas. Podríamos encontrarnos que hay valores del tipo “La Coruña”, “A Coruña”, “Coruña, La” que hacen referencia a la misma provincia, pero que se han representado de forma diferente. Mediante un proceso de consolidación, consultaríamos una fuente externa, (una muy típica es Wikipedia) y seleccionaríamos una única representación para todos los valores de esta provincia gallega. También es una gran herramienta para limpiar valores que se han introducido de forma errónea, algo típico cuando la fuente de datos se ha creado a partir de valores introducidos de forma manual. En la simulación de OpenRefine de la unidad repasaremos cómo realizar este tipo de tareas aplicadas a un caso práctico real. Para descargar el software debemos ir a http://openrefine.org y bajar la última versión del software. Al ejecutarlo, veremos que se abre una ventana de línea de comandos y se nos abre un navegador con la siguiente URL: http://127.0.0.1:3333 (si no se abre directamente, tendremos que introducir nosotros esta dirección en un navegador). © Copyright Universidad Europea. Todos los derechos reservados. 5 Proyecto de computación I Tema 5. Herramientas comunes 5. Herramienta de minería de datos: Rapidminer Rapidminer es una plataforma de anáisis da datos con un potente entorno de diseño visual que permite crear rápidamente flujos de tareas para realizar analisis predictivos y otros procesos de minería de datos. Se trata de una herramienta completa que incluye funciones para realizar todas las fases que hemos visto en las asignaturas para llevar a cabo un proyecto de minería. Se trata de una herramienta multiplataforma, desarrollada en Java, y que fue inicialmente creada en la Universidad de Dortmund con licencia libre. Esta licencia abierta se mantiene actualmente, pero solo para el core de la aplicación, lo que hace que en la práctica sea poco usable esta versión. Desde la versión 6, Rapidminer pasa a tener una licencia comercial para el entorno completo. Cuenta además con una licencia específica para educación e investigación, que es la que usaremos nosotros en clase para el desarrollo del proyecto. Para poder usar la licencia de estudiante, además descargar el Rapidminer de la página oficial (https://rapidminer.com), tendremos que registrarnos en la web, y dentro de los datos de nuestra cuenta solicitar la licencia en “Educational Program”. Hay que tener en cuenta que, a la hora de hacer la solicitud de la licencia educativa, tendremos que utilizar la cuenta de correo electrónico de la universidad. En la simulación de Rapidminer de esta unidad veremos cómo construir un sistema de clasificación automática para hacer análisis predictivo. Figura 2. Proceso de minería creado con Rapidminer. © Copyright Universidad Europea. Todos los derechos reservados. 6 Proyecto de computación I Tema 5. Herramientas comunes 6. Resumen En este tema hemos visto dónde podemos conseguir datos abiertos para utilizar en el proyecto de computación, y hemos introducido tres herramientas que utilizaremos para los procesos de minería de datos. En concreto hemos visto: Pentaho Data Integration. Nos va a permitir hacer tareas de ETL, esto es, cargar los datos desde diferentes fuentes como pueden ser bases de datos, archivos, o servicios web, y luego procesarlas para ajustarlas a las necesidades de nuestro proyecto. Algunas de las tareas típicas que podemos realizar con esta herramienta son la fusión de diferentes conjuntos de datos, la transformación de valores (por ejemplo, cambiar formatos de fecha, transformar cadenas de texto, etc.), añadir nuevos valores, ya sea a partir de datos existentes o recuperándolos de fuentes externas en la web, y por último volcarlo todo a otra fuente de datos final que cumpla con todo lo que necesitamos en nuestro proyecto. OpenRefine. Con esta herramienta podemos realizar tareas de limpieza y consolidación de datos, eliminando ruido que puede producir inconsistencias en los procesos posteriores de análisis y predicción. Rapidminer. Con esta herramienta haremos la parte principal del proceso de minería y análisis de los datos, cargando los datos, generando modelos y viendo como luego podemos utilizarlo para crear potentes herramientas predictivas. Referencias bibliográficas Baeza-Yates, R. y Ribeiro-Neto, B. (2011). Modern information retrieval: the concepts and technology behind search. (2nd ed.). ACM Press Books. Baeza-Yates, R. y Ribeiro-Neto, B. (1999). Modern information tetrieval. En Addison Wesley (Ed.). Figuerola, C. G., Alonso Berrocal, J. L. Zazo Rodríguez, A. F. y Rodríguez, E. (2004). Algunas Técnicas de Clasificación Automática de Documentos. Cuadernos de Documentación Multimedia (15). Manning, C. D., Raghavan, P. y Schütze, H. (2008). Introduction to information retrieval. Cambridge: Cambridge University Press. Martínez Comeche, J. A. (2006). Los modelos clásicos de recuperación de información y su vigencia. Tercer Seminario Hispano-Mexicano de investigación en Bibliotecología y Documentación, UNAM, Centro Universitario de Investigaciones Bibliotecológicas, pp. 187-206. © Copyright Universidad Europea. Todos los derechos reservados. 7 Proyecto de computación I Tema 5. Herramientas comunes Python.org. Rijsbergen, C.J. (1979). Information retrieval. London: Butterworths. Rogers, J. D. y Tanimoto, T. T. (1960). A computer program for classifying plants. Science, pp. 1115-1118. Rusell, S. y Norvig, P. (2004). Inteligencia artificial: un enfoque moderno. Prentice Hall. Salton, G. y McGill, M. J. (1983). Introduction to Modern information retrieval. New York: Mc Graw Hill. Singhal, A. (2001). Modern information retrieval: a brief overview. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering. Sierra Araujo, Basilio. (2006). Aprendizaje automático: conceptos básicos y avanzados. Pearson Prentice Hall. Sci-kit Learn Software. © Copyright Universidad Europea. Todos los derechos reservados. 8 Proyecto de computación I Tema 5. Herramientas comunes © Todos los derechos de propiedad intelectual de esta obra pertenecen en exclusiva a la Universidad Europea de Madrid, S.L.U. Queda terminantemente prohibida la reproducción, puesta a disposición del público y en general cualquier otra forma de explotación de toda o parte de la misma. La utilización no autorizada de esta obra, así como los perjuicios ocasionados en los derechos de propiedad intelectual e industrial de la Universidad Europea de Madrid, S.L.U., darán lugar al ejercicio de las acciones que legalmente le correspondan y, en su caso, a las responsabilidades que de dicho ejercicio se deriven. © Copyright Universidad Europea. Todos los derechos reservados. 9