Introduccion al Aprendizaje Automatico PDF

Summary

This document provides an introduction to machine learning, covering topics like artificial intelligence, algorithms, and data analysis. It's a good overview of the subject and its applications in various fields.

Full Transcript

1: INTRODUCCION AL APRENDIZAJE AUTOMATICO INTRODUCCION Inteligencia→ capacidad de comprender, razonar y adaptarse en entornos cambiantes. - Capacidad de alcanzar objetivos. Inteligencia arti cial→ disciplina en ciencias de la información que busca crear sistemas que...

1: INTRODUCCION AL APRENDIZAJE AUTOMATICO INTRODUCCION Inteligencia→ capacidad de comprender, razonar y adaptarse en entornos cambiantes. - Capacidad de alcanzar objetivos. Inteligencia arti cial→ disciplina en ciencias de la información que busca crear sistemas que imiten la inteligencia humana mediante algoritmos y datos. - Solucionar problemas a través de una maquina, sin diseñarla explícitamente para esa tarea. Una inteligencia arti cial→ sistema especi co o aplicación diseñada para realizar una tarea particular, como el reconocimiento de voz o la toma de decisiones, utilizando algoritmos y modelos. Aprendizaje automático→ proceso en el que una máquina utiliza datos para mejorar su rendimiento en una tarea sin ser programada explícitamente para esa tarea. - Reconocimiento de patrones sin intervención humana por medio de análisis de grandes cantidades de datos. - Rama de la inteligencia arti cial que se centra en el diseño y desarrollo de algoritmos y modelos que permiten a las maquinas aprender a partir de datos. - Herramientas poderosas para realizar predicciones sobre datos NO vistos previamente. - Usos del aprendizaje automatico: Clasi cación Regresión Clustering Generación Aprendizaje→ capacidad de un modelo para identi car patrones en datos, se realizan SIN ser programados explícitamente (sin intervención humana)⇢ el modelo ajusta sus parámetros internos en función de los datos que recibe, optimizando su rendimiento para una tarea especi ca. Automático→ algoritmos conexionistas que aprenden patrones entre datos de entrada y salida. Según reciben más datos, ajustan sus parámetros para mejorar las decisiones que toman. Metodo CRIP-DM→ Estructura del proceso de Data Science. fi fi fi fi fi fi fi 1: INTRODUCCION AL APRENDIZAJE AUTOMATICO Importancia de los datos→ base del aprendizaje automático. - Sin una base solida de datos de calidad, incluso los algoritmos mas so sticados fallarán en su capacidad de generalizar, predecir y ofrecer resultados útiles. ESTADO DEL ARTE Aprendizaje automático es la rama del conocimiento que mas ha evolucionado en los últimos años⇢ capacidad casi ilimitada de aplicaciones en distintos campos. Campos de aplicación: Medicina→ diagnostico de enfermedades basado en imágenes y análisis genéticos. Finanzas→ predicción de precios y detección de fraudes. Marketing→ segmentación de clientes y recomendación de productos. Automoción→ vehículos autónomos y sistemas de conducción asistida. Industria→ detección de anomalías y optimización de recursos. Recursos humanos→ selección de personal y evaluación de desempeño. Robótica→ plani cación de rutas y automatización de tareas. Campos según el objetivo: Visión arti cial→ reconocimiento de anomalías y conducción autónoma. Procesamiento de lenguaje natural→ traducción automática y análisis de sentimientos. Recomendación→ recomendación de productos y clustering de clientes. Optimización→ tareas multiagente y logística. Series temporales→ análisis de tendencias y anticipación de eventos. REDES NEURONALES Tipo de algoritmo de aprendizaje automático diseñado para imitar la estructura y funcionamiento de las de neuronas en el cerebro humano. - Rama mas extendida y utilizada en el campo del Machine Learning hoy en día→ versatilidad y capacidad de escalabilidad. Aplicaciones: Visión transformers (ViTs)→ modelos que han revolucionado el rendimiento en tareas de visión por computadora, como la clasi cación de imágenes y la detección de objetivos. Modelos de lenguaje grande→ generan texto coherente, comprensión del contexto y respondes a preguntas complejas. - Ejemplo destacado de la Inteligencia Arti cial Generativa. - Chat GPT (Open AI)→ Large Language Model que es capaz de mantener conversaciones con humanos. CONSIDERACIONES ETICAS Y DESAFIOS Sesgo algorítmico→ modelos mantienen o aumentan los prejuicios presentes en los datos. Privacidad de los datos→ recolección y uso de datos personales plantea preocupaciones de privacidad. - Equilibrio necesario entre innovación y derechos de privacidad. Transparencia y explicabilidad→ modelos complejos se convierten en “cajas negras” - Falta de claridad en decisiones puede afectar áreas criticas como la salud y justicia. fi fi fi fi fi 1: INTRODUCCION AL APRENDIZAJE AUTOMATICO CONCEPTOS DE APRENDIZAJE AUTOMATICO Modelo de predicción→ busca predecir una variable objetivo utilizando un conjunto de variables input. - Sistema capaz de aprehender patrones de un conjunto de datos. - Esta formado por: Algoritmo→ conjunto de reglas que el modelo sigue para aprender los patrones (entrenamiento) y hacer predicciones (inferencia). - E.j. una regresión lineal y = B0 + B1x Parametros→ valores internos del modelo que se ajustan durante el entrenamiento. - E.j. los coe cientes de la regresión lineal (B0 y B1). Hiperparametros→ valores que se ajustan antes del entrenamiento y que afectan al comportamiento del modelo. - E.j. en una regresión regularizada, el hiperparametro λ que controla la penalización aplicada a los coe cientes. - Sin modelo, la mejor estimación qué se podría hacer para una variable continua sería la media y para una variable categórica, la moda. Taxonomia según el dataset Aprendizaje supervisado→ objetivo es predecir una variable de salida a partir de una o más variables de entrada. - Se dispone de un conjunto de datos etiquetados. - Clase o etiqueta de cada dato es el valor a predecir. Aprendizaje NO supervisado→ objetivo es encontrar patrones en los datos. - NO se dispone de un conjunto de datos etiquetados. - Busca agrupar los datos en clusters ó aprender la distribución latente de los datos. Aprendizaje por refuerzo→ objetivo es aprender una secuencia de acciones que maximicen una recompensa. - Dispone de un entorno en el que se realizan acciones. - Aprendizaje se lleva a cabo por acciones del agente, y recompensa a estas acciones. Taxonomia según el resultado del algoritmo Clasi cación→ objetivo es predecir una variable categórica. - E.j. predecir si un email es spam o NO. Regresión→ objetivo es predecir una variable continua. - E.j. predecir el precio de una vivienda. Clustering→ objetivo es agrupar los datos en clusters. - E.j. agrupar clientes parecidos en función de sus compras. Generación→ objetivo es generar nuevos datos a partir de los existentes. - E.j. generar imágenes parecidas a las originales. Etapas del aprendizaje automatico supervisado: 1. Preprocesamiento de datos→ preparación de los datasets para que tengan el formato adecuado y mejoren la e ciencia de los algoritmos. - Incluye→ limpieza, normalización y transformación de los datos. 2. Entrenamiento de modelos→ aplicación de algoritmos de aprendizaje automático sobre los datos de entrenamiento para identi car patrones y ajustar los parámetros internos del modelo. 3. Validación de modelos→ evaluación del rendimiento del modelo utilizando un conjunto de datos que NO fue utilizado durante el entrenamiento. - Mide la capacidad del modelo para generalizar sobre datos nuevos y detectar posibles problemas de sobreajuste. 4. Inferencia→ utilización del modelo entrena para hacer predicciones sobre nuevos datos NO vistos previamente. - Dependiendo del problema, las predicciones son numéricas (regresion) ó categóricas (clasi cación) Evaluación de modelos→ medir la capacidad del modelo para predecir correctamente resultados sobre datos NO vistos previamente⇢ buscamos minimizar el error. - Dependiendo del tipo de problema, el error se mide de manera diferente: Clasi cación→ se evalúa mediante la tasa de acierto⇢ porcentaje de veces que el modelo predice correctamente la clase de un dato. Regresión→ mide la distancia entre el valor real y predicho, utilizando métricas como: fi fi fi fi fi fi fi 1: INTRODUCCION AL APRENDIZAJE AUTOMATICO - Error cuadrático medio (MSE) - Error absoluto medio (MAE) Validación de modelos→ evaluación de su capacidad para generalizar (predecir correctamente datos que NO ha visto previamente). - Este proceso se realiza mediante la división de los datos en 2 conjuntos: Conjunto de entrenamiento→ subconjunto de datos utilizado para entrenar el modelo. - Objetivo→ minimizar el error durante el proceso de aprendizaje. Conjunto de test→ subconjunto de datos reservado exclusivamente para evaluar el modelo después de su entrenamiento. - Se utiliza para medir el error y la capacidad del modelo para generalizar a datos NO vistos anteriormente. OVERFITTING Under tting→ ocurre cuando el modelo NO obtienen un buen resultado en el conjunto de entrenamiento. - Se debe a que el algoritmo NO ha sido capaz de aprender los patrones inherentes de los datos. Over tting→ ocurre cuando el modelo obtiene buen resultado en el conjunto de entrenamiento pero NO en el de test. - Se debe a que el algoritmo ha aprendido los datos de entrenamiento, pero NO ha sido capa de generalizar sobre datos NO vistos. Importancia del over tting→ problema muy común en aprendizaje automático. - Es muy sencillo aprenderse los datos de entrenamiento de memoria⇢ supone una gran precisión para el modelo. - Objetivo de un modelo de aprendizaje automático→ ser capaz de predecir datos NO vistos previamente⇢ es necesario que el modelo sea capaz de generalizar. - Muy importante detectar + corregir el over tting en los modelos. WORKFLOW Principales etapas de un proyecto de aprendizaje automático: 1. De nición del problema→¿Qué queremos predecir? Un nº una clase, etc 2. Obtención del dataset→ ¿Donde obtenemos el dataset? Datasets ya creados, generados por sensores, recolectados, etc. 3. Preprocesamiento del dataset→ ¿Como tratamos el dataset? Limpieza, normalización, etc 4. Division del dataset→ dividimos los datos en entrenamiento y test. - Datos de test nunca las verá el modelo. 5. Elección del modelo→ ¿Qué algoritmo utilizamos? Regresión lineal, árbol de decision, etc. 6. Ajuste del modelo→ ¿Que hiperparametros ajustamos? Cada modelo tiene sus propios hiperparametros que elegir previo al entrenamiento. 7. Entrenamiento del modelo→ ¿Como se ajustan los parámetros del modelo? Entrenamos el modelo con el dataset de entrenamiento. 8. Validación del modelo→ ¿Como evaluamos el modelo? Evaluamos como de bien generaliza el modelo con el dataset de test. 9. Evaluación del modelo→ ¿Como de bien predice el modelo? Evaluamos con técnicas estadísticas como de acertado es el modelo. 10. Inferencia→ utilizamos el modelo para predecir datos. fi fi fi fi fi 1: INTRODUCCION AL APRENDIZAJE AUTOMATICO DATO Dato/instancia→ colección de información relacionada entre si que describe un fenómeno, evento o entidad. - Conjunto de atributos/caracteristucas que detallan las propiedades de esa entidad/suceso concreto. Atributos→ propiedades/caracteristicas especi cas que describen un dato. - Cada atributo tiene un valor concreto que aporta información sobre un aspecto particular. - Puedes ser de diferentes tipos: Numéricos→ valor numérico (entero,real,..) Categóricos (nominal/clase)→ valor de una lista de valores posibles. Textuales→contienen texto libre o NO estructurado (e.j. descripciones, comentarios) Otros formatos formales: - Fecha - URL Ejemplo→ un dato podría de nir una película. Los atributos podrían ser nombre, año, coste, etc Variables→ al avanzar del análisis de datos a la construcción de modelos de aprendizaje automático, los atributos de los datos pasan a llamarse variable. - En un conjunto de datos, los atributos se representan como columnas, donde cada columna tiene un tipo especi co de información para todas las instancias. - Clasi cación de variables: Segun su función: Identi cativas→ variables cuyo proposito es diferenciar/etiquetar de manera única cada observación (e.j. ID ó nº de referencia). - NO aportan valor analitico ni se utilizan en modelos predictivos. Input/de entrada→ variables predictoras/independieentes que se utilizan para explicar ó predecir el valor de la variable objetivo. Objetivo→ variable que se busca predecir/estimar. - Variable dependiente→ su valor depende de las variables de entrada. Rechazadas→ variables eliminadas antes del proceso de modelizacion, ya sea por irrelevancia, redundancia o porque introducen ruido en el análisis. Segun su tipologia: Continuas/cuantitativas→ toman cualquier valor en un intervalo (puede estar limitado o no) Nominales/cualitativas/categoricas→ toman un nº nito de valores. Dicotómicas→ variables nominales que toman solo 2 valores. Fecha/hora→ variables que representan una fecha y/o hora. - Para aprovechar su potencial en la fase de modelizacion, haya que obtener otras variables de ellas. DATASET Colección de datos. Puede ser: Estructurado→ datos se organizan en tablas con las y columnas, donde cada la representa una entidad/instancia y cada columna representa un atributo/característica de esa entidad. - Formatos de datos estructurados/relaciónales: SQL (Structures Query Language) CSV (Comma Separated Values) xlsx (Excel) fi fi fi fi fi fi fi fi 1: INTRODUCCION AL APRENDIZAJE AUTOMATICO NO estructurado→ datos NO siguen una estructura rígida y pueden consistir en texto, imágenes, audio, etc. Cada dato puede tener un numero distinto de atributos. - Formatos de datos NO estructurados/ NO relaciónales: NoSQL (Not Only SQL) XML (eXtensible Markup Language) JSON (JavaScript Object Notation) Datos estructurados vs Datos NO estructurados CREACION DE UN DATASET Recolección de datos→ datos se recolectan de distintas formas: Manual/Individual→ datos recolectados directamente por personas, de forma física/digital - E.j. formularios/encuestas. Sensores→ recolección automatica mediante dispositivos - E.j. IoT, cámaras, sensores. Web scraping→ obtention automatizada de datos desde paginas web. Bases de datos→ extracción de datos preexistentes almacenados en bases relacionas/No relaciónales. Webs de datasets→ numerosas webs donde se pueden encontrar datasets para trabajar con ellos en aprendizaje automático: Kaggle→ Plataforma altamente utilizada con todo tipo de datasets de prueba o reales. Google Dataset Search→ Buscador de datasets de Google. Datos Abiertos→ Datasets abiertos del gobierno de España. Datasets actualizados automáticamente en tiempo real. SESGOS Ocurre cuando los datos NO representan adecuadamente la realidad, debido a la omisión o sobrerepresentación de ciertas características⇢ distorsiona el análisis y puede llevar a conclusiones erróneas. - Un conjunto de datos incompleto/parcial induce errores de interpretación. - Fundamental identi car y mitigar estos sesgos para obtener resultados precisos. Tipos de sesgos: Exclusión→ se excluyen ciertos datos de forma intencionada. - E.j. solo preguntar a alumnos de 4º Selección→ solo se incluyen datos que NO representan a la totalidad del conjunto. fi 1: INTRODUCCION AL APRENDIZAJE AUTOMATICO - E.j. preguntar a 10 alumnos de 1000. Con rmación→ se buscan datos que con rmen una hipótesis y se ignoran los que la contradicen. - Preguntar ¿Por qué te gusta la universidad? Y no ¿por qué no te gusta la universidad? Supervivencia→ en la falta de ciertos datos también existe información importante. - Preguntar a los alumnos que han terminado la carrera y NO a los que la abandonaron EVALUACION DE DATASETS Criterios de calidad→ evaluar aspectos de un dataset, como; estar incompleto, desactualizado ó no ser representativo de la realidad que pretende describir, es fundamental para comprender como de bien el dataset re eja el fenómeno que estamos analizando. - La evaluación es necesaria para entender que representa realmente el dataset y de este modo determinar la dirección y profundidad de nuestro análisis. Compleción→ ¿Contiene todas las variables necesarias? - E.j. un análisis de ventas sin la variable “precio” posiblemente esta incompleto. Representatividad→ ¿Es el dataset representativo de la población/fenomeno que se estudia? - E.j. un estudio de ingresos que solo incluye a residentes de una ciudad NO puede generalizarse a todo un país. Actualización→ ¿Los datos estan actualizados? - E.j. un dataset sobre preferencias de consumo que solo incluye datos hasta 2018 NO re eja las tendencias actuales o el impactos de la pandemia en los hábitos de compra de 2020. Problemas comunes en los datasets: Datos faltantes→ datos ausentes en ciertas variables. - Soluciones→ imputar ó eliminar. Datos redundantes→ datos duplicados o repetidos que distorsionan el análisis. - Soluciones→ identi car y eliminar duplicados. Ruido y errores→ valores atípicos o incorrectos - Soluciones→ detección de outliers, ltrado o normalización. Métodos para detectar problemas en los datasets: Análisis Exploratorio de Datos (EDA)→ método preliminar para explorar la estructura del dataset. - Herramientas→ visualización de valores faltantes, grá cos de correlación. - Ejemplo→ heatmap de valores faltantes puede identi car las columnas/variables con mas datos ausentes. Grá cos y visualizaciones→ permiten identi car patrones y detectar anomalías en los datos. - Ejemplo→ un histograma para observar la distribución de una variable. Un boxplot para detectar valores atípicos. Tablas de resumen→ ofrecen estadísticas descriptivas que permiten ver posibles problemas. - Ejemplo→ comprar la media y la mediana de una variables puede indicar la presencia de valores atípicos. DISTRIBUCIONES De nición→ función que describe la probabilidad de que una variable aleatoria tome un valor concreto. Es importante entender las distribuciones que siguen los atributos de nuestro dataset para aplicar los algoritmos de aprendizaje automático e cientemente. Gra camente→ distribucion de los datos se representa frecuentemente con grá cos como histogramas ó boxplots, que visualiza como estan dispersos los datos en un conjunto. Tablas→ resumen estadísticas como la media, mediana, moda y desviación estándar, que describen la forma de la distribución. Las distribuciones son clave para elegir el modelo adecuado. - Comprenderlas ayuda a tomar decisiones más precisas basadas en los datos. fl fi fi fi fi fi fl fi fi fi fi fi fi fi 1: INTRODUCCION AL APRENDIZAJE AUTOMATICO Tipos de distribuciones: Normal→ simetrica en forma de campana. Sesgada→ asimétrica, con una cola larga en uno de los extremos. Uniforme→ todos los valores tienen la misma probabilidad de aparecer. Ley de Benford→ establece que en una lista de números reales, la probabilidad de que el primer dígitos sea d es: - Aplicada en la detección de fraude→ nº inventados tienden a tener una distribución uniforme, mientras que los nº reales siguen la distribución de Benford.

Use Quizgecko on...
Browser
Browser