Minería de Datos y Aprendizaje Automático

Summary

Este documento describe la minería de datos, incluyendo las fases involucradas como selección, procesamiento, transformación, aprendizaje, interpretación y evaluación. También presenta la metodología CRISP-DM y conceptos de aprendizaje automático supervisado y no supervisado, incluyendo el agrupamiento y la dependencia de atributos.

Full Transcript

¿Qué ES LA MINERIA DE DATOS? La minería de datos es la extracción de correspondencias entre datos de bajo nivel (demasiado voluminosos para ser comprensibles) y otras representaciones más compactas (por ejemplo, un resumen), más abstractas (por ejemplo, una aproximación descriptiva o modelo de cómo...

¿Qué ES LA MINERIA DE DATOS? La minería de datos es la extracción de correspondencias entre datos de bajo nivel (demasiado voluminosos para ser comprensibles) y otras representaciones más compactas (por ejemplo, un resumen), más abstractas (por ejemplo, una aproximación descriptiva o modelo de cómo se producen los datos) o más útiles (por ejemplo, un clasificador capaz de predecir un valor para casos futuros). FASES DE LA MINERIA DE DATOS Estas fases son las siguientes: Selección. Consiste en la extracción de los datos relevantes para la aplicación a partir de la base de datos original. Procesamiento. Usualmente, los datos están almacenados en tablas dispersas que es preciso conectar y colapsar en una sola tabla o relación para facilitar fases posteriores. Transformación. La estructura de los datos procesados puede no ser adecuada para el aprendizaje, y entonces es necesario reestructurarlos.. Aprendizaje. En la fase de aprendizaje se produce la extracción de patrones, construcción de modelos y/o clasificadores predictivos propiamente dicha. Interpretación y evaluación. Finalmente, es preciso evaluar el modelo anterior de cara a su eficacia y eficiencia, o bien analizar visualmente los patrones para obtener una mejor comprensión de los datos METODOLOGÍA CRISP-DM CRISP-DM (acrónimo del término en inglés "Cross-Industry Standard Process for Data Mining") es la metodología de desarrollo de proyectos de minería de datos más utilizada hoy en día. Divide el proceso de minería en 6 fases: 1\. Comprensión del negocio. Obtener una comprensión clara del problema que se pretende resolver, de cómo afecta a la organización y de los objetivos que hay que alcanzar y las tareas asociadas a la hora de desarrollarlo. 2\. Comprensión de los datos. Revisar las fuentes de datos de las que se dispone, documentarlas, identificar los problemas de calidad y gestión de los datos y hacer un primer análisis exploratorio para identificar teorías y detectar información oculta. 3\. Preparación de datos. Esta fase se encarga de construir el conjunto de datos para que estén listos para usarse en la fase de modelado. En esta fase es en la que se realizan las tareas de limpieza y transformación de los datos. 4\. Modelado. En esta fase se seleccionan y prueban distintos algoritmos de modelado (en función del problema que queremos resolver) y se optimizan los parámetros de los mismo con el fin de conseguir los mejores resultados. 5\. Evaluación. Se revisan los patrones de conocimiento que se han descubierto en la fase de modelado, y se evalúa su potencial uso comercial. 6\. Despliegue. Trasladar los descubrimientos al negocio y ponerlos a funcionar en los sistemas en producción ![](media/image2.png) APRENDIZAJE AUTOMATICO El aprendizaje automático es la rama de la inteligencia artificial que trata de crear programas capaces de generalizar comportamientos a partir de una información débilmente estructurada en forma de ejemplos. Existen dos tipos básicos de tareas de aprendizaje automático: Aprendizaje supervisado. Las tareas en las que existe una clase objetivo que deseamos predecir (como por ejemplo un filtro antispam), y que conocemos para los ejemplares de entrenamiento, se denominan tareas de aprendizaje "supervisado". Los modelos obtenidos por medio de los algoritmos de aprendizaje son "clasificadores" predictivos, es decir, conjuntos de reglas u otros tipos de modelos en los que se usan los demás atributos para predecir la clase, para clasificar los ejemplares nuevos con valor de clase desconocido, dentro de clases conocidas de antemano. Por ejemplo: un pasajero del Titanic. Aprendizaje no supervisado Existen dos tareas generales de aprendizaje no supervisado especialmente relevantes: - El agrupamiento (clustering) En el que los ejemplos disponibles se desean organizar en clases no conocidas previamente, o grupos (clusters), en función de su similitud entre ellos y distancia a los demás ejemplos. Véase la figura de ejemplo. Se pueden encontrar ejemplos de agrupamiento en la segmentación de imágenes (detección de regiones con puntos similares entre sí, por ejemplo, en color), recuperación de documentos (agrupamiento de documentos en clases en función de las palabras que parecen en ellos), etc. - La dependencia de atributos En la que se pretenden detectar dependencias funcionales estadísticamente representativas entre los atributos de la relación o tabla. En otras palabras, mientras que una dependencia funcional estricta establece que el valor de un atributo de la relación siempre se puede obtener a partir de otros, aquí se pretende encontrar dependencias significativas, que se cumplen casi siempre, pero no siempre. Estas dependencias pueden usarse para eliminar atributos innecesarios, para resumir atributos, etc. en contextos como la psicología, el marketing, etc.

Use Quizgecko on...
Browser
Browser