Resumen Parcial 1 ciencia de datos.pdf
Document Details
Tags
Full Transcript
Resumen Clase 1 ¿Qué es la Ciencia de Datos? La ciencia de datos es una disciplina que combina estadísticas, análisis de datos, aprendizaje automático y métodos computacionales para extraer conocimientos útiles de diferentes tipos de datos,...
Resumen Clase 1 ¿Qué es la Ciencia de Datos? La ciencia de datos es una disciplina que combina estadísticas, análisis de datos, aprendizaje automático y métodos computacionales para extraer conocimientos útiles de diferentes tipos de datos, tanto estructurados (organizados en tablas) como no estructurados (como textos, imágenes o videos). El objetivo principal de la ciencia de datos es entender los datos para resolver problemas, tomar decisiones o generar nuevos insights. Dato, Información, Conocimiento y Sabiduría Dato: Es el nivel más básico, como una cifra o un texto sin contexto. Ej: "42". Información: Es el dato con contexto. Ej: "42 grados Celsius". Conocimiento: Explica cómo y quién debe usar la información. Ej: "Si una persona tiene 42 grados de fiebre, debe ser atendida de inmediato". Sabiduría: Añade cuándo y por qué se debe usar el conocimiento. Ej: "Una fiebre alta requiere atención médica urgente para evitar complicaciones graves". Pipeline de Datos Un Data Pipeline es el proceso que transforma los datos desde su origen hasta su destino final, donde se analizan o almacenan. Etapas de un pipeline: 1. Extracción: Recoger los datos de diversas fuentes (bases de datos, archivos, etc.). 2. Transformación: Limpiar y convertir los datos en un formato adecuado para el análisis. Resumen 1 3. Análisis: Realizar cálculos y obtener insights a partir de los datos transformados. 4. Visualización o Almacenamiento: Presentar los resultados (gráficos, informes) o guardarlos en un lugar seguro. Big Data El término Big Data se refiere a conjuntos de datos tan grandes y complejos que los métodos tradicionales de procesamiento no pueden manejarlos. Para describir Big Data, se utilizan las 5 Vs: 1. Volumen: La cantidad masiva de datos. 2. Velocidad: La rapidez con la que los datos se generan y se procesan. 3. Variedad: La diversidad de tipos de datos (texto, imágenes, videos, etc.). 4. Veracidad: La fiabilidad y precisión de los datos. 5. Valor: La capacidad de convertir esos datos en algo útil para la toma de decisiones. Big Data se utiliza en muchas industrias para detectar patrones y mejorar la toma de decisiones en áreas como atención al cliente, operaciones y marketing. Dataset Un dataset (conjunto de datos) es una colección de información organizada en forma de tabla: Columnas: Representan las variables (como la edad, el peso, etc.). Filas: Representan las observaciones (cada persona o elemento que estamos analizando). Los datasets son fundamentales en ciencia de datos, ya que se utilizan para entrenar y evaluar modelos de análisis o aprendizaje automático. Clase 2 Resumen 2 Data Warehouse Un Data Warehouse o Almacén de Datos es un sistema que sirve para almacenar y analizar grandes cantidades de datos provenientes de diferentes fuentes. Su objetivo es centralizar la información para que sea más fácil tomar decisiones empresariales basadas en datos. Características clave de un Data Warehouse: 1. Orientado al tema: Los datos se organizan por temas importantes, como clientes, productos o ventas. 2. Integrado: Los datos de diferentes fuentes se unifican y presentan de manera coherente. 3. No volátil: Una vez almacenados, los datos no se cambian ni se eliminan. 4. Histórico: Almacena datos por largos períodos, lo que permite hacer análisis de tendencias y patrones a lo largo del tiempo. En resumen, un Data Warehouse facilita el almacenamiento y análisis de datos a gran escala para mejorar la toma de decisiones. Arquitectura de un Data Warehouse Un Data Warehouse tiene tres capas principales: 1. Capa Superior (Top Tier): Aquí están las herramientas que los usuarios utilizan para interactuar con los datos (minería de datos, informes, análisis, consultas). 2. Capa Intermedia (Middle Tier): Contiene el servidor OLAP (Procesamiento Analítico en Línea), que organiza y procesa los datos para análisis eficientes y permite realizar cálculos complejos. 3. Capa Inferior (Bottom Tier): Es la base de datos donde se almacenan los datos. Aquí se guardan tanto datos operacionales como los datos brutos extraídos de diferentes fuentes. Resumen 3 Componentes Clave de un Data Warehouse: 1. ETL (Extracción, Transformación y Carga): Proceso que extrae datos de varias fuentes, los transforma en un formato útil y los carga en el Data Warehouse. 2. SQL: Herramienta utilizada para consultar y gestionar los datos dentro del almacén. 3. Metadata: Información que describe los datos dentro del Data Warehouse (por ejemplo, qué significa cada columna o tabla). 4. Capa de Datos (Data Layer): Estructura que organiza los datos para hacerlos más accesibles y analizables. 5. Governance & Security: Garantiza la calidad y seguridad de los datos mediante políticas y procesos. 6. Herramientas de Acceso a Datos: Facilitan la consulta y análisis de datos (ejemplo: gráficos o informes). Esquemas en un Data Warehouse Los esquemas son formas de organizar los datos dentro de un Data Warehouse. Los dos más comunes son: 1. Esquema de Estrella (Star Schema): Es el esquema más simple. La tabla central (tabla de hechos) contiene los datos principales (números, métricas), y las tablas de dimensiones alrededor de ella contienen descripciones (como clientes, productos, fechas). Las tablas de dimensiones tienen datos redundantes para que las consultas sean más rápidas. Resumen 4 2. Esquema de Copo de Nieve (Snowflake Schema): Es una variación del esquema de estrella, pero las tablas de dimensiones están normalizadas (divididas en más subtablas para eliminar la redundancia). Mejora la eficiencia del almacenamiento, pero hace que las consultas sean más lentas porque se necesitan más uniones de tablas. Comparación: El Esquema de Estrella es más rápido para consultas, pero ocupa más espacio. Resumen 5 El Esquema de Copo de Nieve es más eficiente en espacio, pero puede ser más lento para consultas. Proceso ETL (Extracción, Transformación, Carga) El ETL es un proceso esencial para alimentar el Data Warehouse. Tiene tres etapas: 1. Extracción: Se recopilan datos de varias fuentes, como bases de datos, archivos CSV, sistemas operativos, etc. 2. Transformación: Los datos extraídos se limpian, corrigen y transforman para asegurar que estén en el formato correcto y listo para ser analizado. Aquí se eliminan duplicados y se corrigen errores. 3. Carga: Los datos transformados se cargan en el Data Warehouse, donde estarán disponibles para su análisis. Este proceso es fundamental para garantizar que los datos en el Data Warehouse sean de alta calidad y útiles para el análisis y la toma de decisiones empresariales. Analisis de requerimientos Resumen 6 1. Identificar a los stakeholders Los stakeholders son las personas o grupos que tienen interés en el proyecto del Data Warehouse. Estos pueden ser gerentes, usuarios finales, analistas de datos, etc. El primer paso es identificar quiénes son estas personas, ya que sus necesidades y expectativas serán clave para definir el diseño y los datos que el Data Warehouse debe manejar. 2. Encuestas y Entrevistas Después de identificar a los stakeholders, es importante recoger sus necesidades y expectativas. Esto se hace a través de encuestas y entrevistas. Aquí, se trata de entender qué datos requieren, qué tipo de análisis necesitan y cómo interactuarán con el Data Warehouse. 3. Análisis de las Fuentes de Datos En este paso, se analizan las fuentes de datos que estarán involucradas en el Data Warehouse. Esto incluye la identificación de bases de datos, sistemas operativos, archivos externos, APIs, etc. Es crucial conocer de dónde vendrán los datos, cómo se integrarán y qué formatos tienen. 4. Definición de los Indicadores Claves (KPIs) Los Indicadores Clave de Desempeño (KPIs) son métricas que ayudarán a evaluar el éxito del Data Warehouse. En esta etapa, se definen los KPIs que se utilizarán para medir si el Data Warehouse está cumpliendo con sus objetivos, como mejorar la toma de decisiones, la eficiencia operativa o la calidad de los datos. 5. Documentación El último paso es documentar todo el proceso. Esto incluye los requerimientos identificados, las fuentes de datos, los KPIs, y cualquier otro detalle importante del diseño del Data Warehouse. La documentación es clave para asegurar que todo el equipo esté alineado y para tener una referencia clara durante la implementación. Resumen 7 Clase 3 Calidad de los Datos La calidad de los datos se refiere a qué tan útiles son los datos para cumplir con su propósito. Esto se evalúa mediante varias características, como: Precisión: ¿Son los datos correctos? Completitud: ¿Faltan datos importantes? Actualización: ¿Los datos están actualizados? Consistencia: ¿Son los datos coherentes en todas las fuentes? Relevancia: ¿Son los datos útiles para lo que se necesita? Un conjunto de datos de buena calidad es aquel que cumple con todas estas características y, por lo tanto, puede ser utilizado con confianza para análisis y toma de decisiones. Métricas de la Calidad de los Datos Las métricas de calidad permiten medir estos aspectos: 1. Precisión: Refleja qué tan exactos son los datos en comparación con la realidad. 2. Integridad: Indica si faltan partes esenciales de los datos. 3. Coherencia: Asegura que los datos no tienen contradicciones entre diferentes sistemas. 4. Oportunidad: Se refiere a si los datos están disponibles cuando se necesitan. Tipos de Datos que Afectan la Calidad Algunos tipos de datos que pueden comprometer la calidad son: 1. Datos No Útiles: Son datos que se generan, pero no aportan ningún valor a la organización. A menudo se recopilan por costumbre, pero no sirven para la toma de Resumen 8 decisiones. 2. Datos ‘Sucios’: Estos son datos incorrectos o inválidos, lo que puede generar decisiones erróneas. Por ejemplo, un número mal escrito o una fecha incorrecta puede cambiar completamente el análisis. 3. Datos No Estructurados: Son datos que no están organizados de manera clara, como textos o imágenes. Estos necesitan ser procesados antes de poder ser útiles, ya que si no se “limpian” o transforman, podrían generar problemas de calidad. Sistemas de Soporte a las Decisiones (DSS) Un Sistema de Soporte a las Decisiones (DSS) es una herramienta informática que ayuda a las organizaciones a tomar decisiones más informadas. Los DSS recopilan datos de varias fuentes, los analizan y los presentan de una forma útil para resolver problemas específicos. Características de un DSS: Permite que los usuarios interactúen con los datos y obtengan informes o recomendaciones. Ayuda a los líderes empresariales a tomar decisiones estratégicas, muchas veces basadas en datos que el sistema analiza de múltiples fuentes. Tipos de DSS: 1. DSS Basado en Reglas: El sistema usa un conjunto de reglas predefinidas para recomendar una decisión. Es común en situaciones donde las decisiones siguen procedimientos específicos. 2. DSS Basado en Modelos: Utiliza modelos matemáticos o algoritmos avanzados para ayudar en la toma de decisiones. Estos son más flexibles y permiten considerar Resumen 9 múltiples variables y escenarios. Clase 4 Análisis Exploratorio de Datos (AED) El Análisis Exploratorio de Datos (AED) es un conjunto de técnicas que los científicos de datos utilizan para examinar y comprender conjuntos de datos antes de hacer cualquier suposición o construir modelos. Su propósito es obtener una idea clara de las características principales de los datos para hacer análisis más profundos. Objetivos del AED: 1. Identificar errores obvios: Como datos incorrectos o incompletos. 2. Comprender patrones: Ver cómo se distribuyen los datos y qué tendencias existen. 3. Detectar valores atípicos: Encontrar puntos de datos que se desvían mucho de los demás. 4. Encontrar relaciones entre variables: Descubrir cómo están conectadas diferentes variables. El AED se basa mucho en visualizaciones de datos para poder identificar patrones de manera clara y rápida. Etapas del AED: 1. Análisis Descriptivo: Es la primera etapa. Aquí, se describen los datos utilizando medidas como la media, la mediana o los porcentajes para resumir la información. 2. Descubrir y Entender Patrones: Resumen 10 En esta etapa, se investigan los patrones dentro de los datos. Por ejemplo, cómo se distribuyen ciertas variables o si hay alguna tendencia notable. 3. Identificar Anomalías y Valores Atípicos: En esta fase, se buscan datos que no encajan con el comportamiento esperado, lo que podría ser errores o eventos anormales. 4. Encontrar Relaciones entre Variables: Finalmente, se buscan conexiones o relaciones entre las variables, como si una variable cambia, cómo afecta a otra. Tipos de Análisis Exploratorio de Datos: 1. Univariante No Gráfico (U. No Gráfico): Aquí se analiza una sola variable sin usar gráficos. Solo se describen los datos usando estadísticas básicas, como el promedio o la mediana. Su objetivo es simplemente entender la distribución de una variable. 2. Univariante Gráfico (U. Gráfico): Se usan gráficos, como histogramas o diagramas de caja, para visualizar una sola variable y obtener una imagen clara de cómo se distribuyen los datos. 3. Multivariante No Gráfico (M. No Gráfico): Muestra las relaciones entre dos o más variables sin usar gráficos. Por ejemplo, se podrían calcular las correlaciones entre diferentes variables. 4. Multivariante Gráfico (M. Gráfico): Se utilizan gráficos, como diagramas de barras o gráficos de dispersión, para mostrar cómo se relacionan dos o más variables. Estos gráficos ayudan a ver patrones que pueden ser difíciles de detectar solo con números. Clase 5 Resumen 11 Técnicas y Herramientas del Análisis Exploratorio de Datos (AED) El Análisis Exploratorio de Datos (AED) utiliza varias bibliotecas y herramientas para la manipulación de datos, la visualización y la exploración de patrones dentro de los datos. A continuación, se explican dos bibliotecas esenciales para el análisis de datos en Python y una técnica gráfica importante. Herramientas de Software para el AED 1. Pandas ¿Qué es?: Es una biblioteca de Python diseñada para manipular y analizar datos de manera eficiente. ¿Qué ofrece?: Estructuras de datos como DataFrame, que son tablas en las que cada columna representa una variable y cada fila es una observación. Además, proporciona operaciones fáciles de usar para filtrar, agregar, ordenar y realizar cálculos sobre tablas de datos y series temporales. 2. NumPy ¿Qué es?: Otra biblioteca clave en Python que permite trabajar con matrices y arrays multidimensionales de manera eficiente. ¿Qué ofrece?: Soporte para realizar operaciones matemáticas y científicas de alto rendimiento sobre grandes conjuntos de datos. Es fundamental para cálculos rápidos y manipulación numérica. Herramientas Gráficas para el AED 1. Gráfico de Burbujas ¿Qué es?: Es una técnica de visualización de datos que representa información en un gráfico bidimensional, utilizando burbujas o círculos de diferentes tamaños y colores. ¿Cómo funciona?: Dos variables numéricas se colocan en los ejes X e Y, y una tercera variable se representa mediante el tamaño de las burbujas. Resumen 12 El color puede opcionalmente representar una cuarta variable. ¿Cuándo usarlo?: Es útil para visualizar tres o más variables a la vez y detectar patrones, relaciones y comparaciones entre ellas. Concepto de Etiqueta (Label) en Aprendizaje Automático ¿Qué son las etiquetas?: En el contexto del aprendizaje supervisado, las etiquetas son las categorías o clases conocidas en un conjunto de datos. Son las respuestas correctas que el modelo debe aprender a predecir. Ejemplo: Si estamos entrenando un modelo para predecir si un correo es spam o no, las etiquetas serían spam o no spam. Estas etiquetas ayudan a guiar al modelo para que aprenda a clasificar correctamente. Ejemplo: Dataset de Vinos (Wine Dataset) ¿Qué es?: Un dataset o conjunto de datos específico que contiene información sobre diferentes clases de vinos. Características: En este conjunto de datos, cada muestra de vino pertenece a una de las tres clases diferentes. Las variables que se incluyen en este dataset pueden ser las características químicas o propiedades del vino. Uso en aprendizaje automático: Este dataset se usa para entrenar modelos de clasificación que aprenden a predecir a qué clase de vino pertenece cada muestra. Clase 6 Minería de Datos La Minería de Datos, también conocida como descubrimiento de conocimiento en datos, es un proceso que busca identificar patrones e información útil en grandes conjuntos de datos para ayudar a la toma de decisiones empresariales. ¿Qué es la Minería de Datos? Resumen 13 La minería de datos es el proceso de descubrir patrones, asociaciones y correlaciones en grandes cantidades de datos. Utiliza técnicas de inteligencia artificial (IA) y estadística para analizar los datos y extraer información valiosa. ¿Cómo Funciona? El proceso de minería de datos sigue una serie de pasos, desde la recopilación y preparación de los datos, hasta el análisis y la visualización de resultados. Los científicos de datos buscan patrones, asociaciones y tendencias para generar conocimiento útil. ¿Para qué se Usa? Las empresas utilizan la minería de datos para: Transformar datos en conocimiento útil. Resolver problemas empresariales. Analizar las consecuencias futuras de decisiones importantes. Aumentar los márgenes de beneficio y optimizar operaciones. ¿Por qué es Importante? Es fundamental para el análisis de datos porque permite: Aumentar la confianza de los clientes. Descubrir nuevas fuentes de ingresos. Mejorar la fidelización de clientes. Proceso de la Minería de Datos El proceso general de la minería de datos incluye: 1. Recopilación de Datos: Obtener datos relevantes para el análisis. 2. Preparación de Datos: Limpiar y transformar los datos para su análisis. 3. Análisis de Datos: Aplicar técnicas estadísticas y algoritmos de minería. 4. Visualización: Mostrar los resultados en gráficos y tablas que faciliten su interpretación. Resumen 14 Técnicas de Minería de Datos 1. Asociación: Encuentra relaciones entre dos conjuntos de datos diferentes. Por ejemplo, si un cliente compra un producto, es probable que compre otro relacionado. 2. Clasificación: Utiliza algoritmos de Machine Learning para clasificar datos en categorías. Ejemplos: árboles de decisión o el método del vecino más cercano. 3. Clustering (Agrupamiento): Agrupa puntos de datos en función de sus similitudes. A diferencia de la clasificación, no usa categorías predefinidas, sino que identifica patrones en los datos. 4. Secuencias y Trayectorias: Busca patrones que se repiten a lo largo del tiempo. Identifica qué eventos preceden a otros y cómo evolucionan los datos en el tiempo. Métodos de Minería de Datos 1. Minería de Procesos: Se enfoca en analizar y mejorar procesos empresariales. Extrae información útil de los registros de eventos para mejorar la eficiencia operativa. 2. Minería de Textos: Utiliza software para analizar textos escritos (páginas web, correos, reseñas, etc.) y extraer patrones y conocimiento automáticamente. 3. Minería Predictiva: Ayuda a predecir tendencias futuras utilizando algoritmos de IA. Esto permite a los líderes empresariales anticiparse y tomar decisiones más eficaces. Resumen 15 Proyecto de Minería de Datos 1. Asociación: Busca identificar conjuntos de elementos que aparecen juntos con frecuencia. 2. Clustering: Segmenta una población en grupos homogéneos basados en sus similitudes. 3. Clasificación: Asigna nuevos datos a una clase predefinida basada en características conocidas. 4. Estimación: Predice un valor continuo desconocido basado en un conjunto de datos de entrada. 5. Predicción: Estima un valor futuro en base a los datos actuales. 6. Descripción: Identifica características clave de un conjunto de datos mediante la búsqueda de asociaciones o relaciones causales. 7. Explicación: Proporciona las razones o causas detrás de un comportamiento observado en los datos. Introducción a la IA y el Machine Learning 1. Inteligencia Artificial (IA): Es el campo que estudia cómo crear máquinas que simulen las capacidades humanas, como el razonamiento, la resolución de problemas o la toma de decisiones. 2. Machine Learning (ML): Resumen 16 Rama de la IA que se centra en cómo enseñar a las máquinas a aprender a partir de los datos. En lugar de ser programadas explícitamente para cada tarea, las máquinas mejoran su rendimiento con la experiencia. 3. Deep Learning: Es una subcategoría del ML que utiliza redes neuronales profundas para imitar el aprendizaje humano y realizar tareas complejas, como el reconocimiento de imágenes o el procesamiento de lenguaje natural. Clase 7 Entendiendo la Inteligencia Artificial (IA) La Inteligencia Artificial (IA) es una tecnología que permite a las máquinas imitar la inteligencia humana. Puede realizar tareas que normalmente requieren intervención humana, como el reconocimiento de voz, la toma de decisiones o la interpretación de datos. Deep Learning (Aprendizaje Profundo) Redes Neuronales: Las redes neuronales están compuestas por varias capas de neuronas artificiales (nodos), que incluyen: Capa de Entrada: Recibe los datos. Capas Ocultas: Procesan la información. Capa de Salida: Produce el resultado final. Las redes neuronales con más de tres capas se consideran redes neuronales profundas y forman parte de los algoritmos de Deep Learning. Umbral (Sesgo): Es un valor que define si una neurona debe activarse. Si la suma ponderada de las entradas excede este umbral, la neurona genera una señal. Peso: Representa la fuerza de conexión entre dos neuronas. Cuanto mayor sea el peso, más influirá una neurona en otra. Durante el Resumen 17 entrenamiento, los pesos se ajustan para optimizar el rendimiento de la red. Funciones de Activación en Redes Neuronales Sigmoide: Se utiliza en problemas de clasificación binaria para producir una probabilidad (un valor entre 0 y 1). ReLU (Rectified Linear Unit): Es la función de activación más común en capas ocultas. Permite aprender patrones complejos y mitiga el problema del gradiente que desaparece. Aprendizaje Automático (Machine Learning, ML) El ML es una rama de la IA que se enfoca en desarrollar algoritmos que permiten a las máquinas aprender a partir de datos sin ser explícitamente programadas para cada tarea. Tipos de Aprendizaje Automático: 1. Supervisado: Se utilizan datos etiquetados para entrenar el modelo. El objetivo es predecir o clasificar con precisión. Ejemplos: Clasificación: Determinar si un correo es spam o no. Regresión: Predecir el precio de una casa según sus características. 2. No Supervisado: Se trabaja con datos sin etiquetas. El objetivo es encontrar patrones ocultos en los datos. Ejemplos: Clustering: Agrupar clientes similares en un mercado. Reducción de dimensionalidad: Simplificar datos complejos. Rendimiento y Generalización de Modelos 1. Subajuste (Underfitting): Resumen 18 Ocurre cuando el modelo es demasiado simple y no puede captar la complejidad de los datos. Resultado: Alto error en los conjuntos de entrenamiento y prueba. 2. Sobreajuste (Overfitting): Ocurre cuando el modelo es demasiado complejo y se ajusta demasiado bien a los datos de entrenamiento, incluyendo ruido y variaciones aleatorias. Resultado: Bajo error en el conjunto de entrenamiento, pero alto error en el conjunto de prueba. 3. Generalización: Encontrar el equilibrio entre subajuste y sobreajuste. Se utiliza validación cruzada y otras técnicas para mejorar la capacidad del modelo de funcionar bien en nuevos datos. Algoritmos de Machine Learning (ML) 1. Aprendizaje Automático: Utiliza redes neuronales con una capa de entrada, una o dos capas ocultas y una capa de salida. Requiere intervención humana para extraer características de los datos. 2. Deep Learning: Utiliza redes neuronales profundas con múltiples capas ocultas. Puede aprender automáticamente de datos no etiquetados y manejar grandes volúmenes de datos sin intervención humana. IA Generativa La IA Generativa se utiliza para crear contenido nuevo, como textos, imágenes, audios o videos, a partir de datos existentes. Ejemplos de IA generativa son modelos que generan arte, música o historias a partir de ejemplos previos. Resumen 19 Scikit-Learn Scikit-Learn es una biblioteca de Python que permite implementar fácilmente modelos de Machine Learning y llevar a cabo el análisis de datos. Algunas de sus funcionalidades clave incluyen: Modelado Predictivo: Incluye herramientas para clasificación, regresión y clustering. Evaluación del Modelo: Ofrece métricas de evaluación y validación cruzada para medir el rendimiento del modelo. Preprocesamiento de Datos: Facilita la normalización, imputación de valores faltantes, y codificación de variables categóricas. Balanceo de Datos: Permite técnicas de muestreo para corregir desequilibrios en los datos. Conjuntos de Entrenamiento, Test y Validación 1. Conjunto de Entrenamiento: Es el conjunto de datos utilizado para entrenar el modelo. 2. Conjunto de Test: Se utiliza para evaluar el rendimiento del modelo una vez entrenado. 3. Validación Cruzada: Es una técnica que divide los datos en múltiples subconjuntos para entrenar y validar el modelo de manera más robusta, asegurando que el modelo generalice bien a datos no vistos. Resumen 20