Parcial - Documents de Google PDF
Document Details
Uploaded by BullishWaterfall3865
Tags
Summary
Este documento proporciona una introducción a los conceptos de Big Data, incluyendo tipos de datos, computación distribuida y virtualización. Explica la capacidad de manejar grandes cantidades de datos heterogéneos a una velocidad adecuada, así como los diferentes tipos de datos y las tecnologías asociadas.
Full Transcript
TEMA 1 - INTRODUCCIÓN 1) Qué es BigData? apacidad para manejar enormes cantidades de datos heterogéneos, a la velocidad C adecuada y a tiempo para la realización de análisis en tiempo real y la reacción. Fuente de datos caracterizada por: - ...
TEMA 1 - INTRODUCCIÓN 1) Qué es BigData? apacidad para manejar enormes cantidades de datos heterogéneos, a la velocidad C adecuada y a tiempo para la realización de análisis en tiempo real y la reacción. Fuente de datos caracterizada por: - Volúmenes de datos extremadamente grandes - Velocidad de generación extremadamente grande - Variedades de formatos extremadamente amplias Evolución: 1. Creación de estructuras manejables - Ficheros planos - Bases de datos relacionales (rdbms) - Modelo entidad-relación (e-r) 2. Gestión de contenidos y de la web 3. Gestión de BigData - Facilitada por descenso de los costes de procesamiento y almacenamiento - Implementada sobre redes más rápidas y fiables 4 V: VOLUMEN, VELOCIDAD, VARIEDAD, VERACIDAD (Calidady Confiabilidad de los Datos) Ciclo de gestión del BigData:→Capture→Organize→Integrate→Analyze→Act Arquitectura de Big Data: - Funcional:Definecómosegestionanlosdatosentiemporealylaseguridad.Incluye infraestructuras físicas, computación distribuida y seguridad de datos. - Operacional: Orientada a la recolección de datos, almacenamiento, análisis, visualización y aplicaciones Big Data. Soluciones tecnológicas: - MAPREDUCE: Ejecuta de forma eficiente un conjuntodefuncionescontraingentes volúmenes de datos por lotes (batch mode) - Big Table: Sistema de almacenamiento distribuido para la gestión de grandes volúmenes de datos estructurados - HADOOP: Permite la ejecución en grandes agrupaciones de servidores de aplicaciones basadas en mapreduce TEMA 2 - TIPOS DE BIGDATA n Big Data se trabajan con diferentes tipos de datos, tanto estructurados como no E estructurados. Datos estructurados: - Longitud y formato definido - Base de datos → consultados por lenguaje SQL - Proporcionados por Computadoras y Humanos 1. Datos generados por máquinas: - Sensores (GPS, etc), Registro WEB (red, servidores), Terminales de venta, Financieros 2. Datos generados per humanos: - Datos de entrada → formularios - Flujo de clics → generados a partir de clics de enlaces - Relacionados con el juego → registro de movimientos de usuarios . Tipo de datos: 3 - Puede no ser de gran tamaño, pero, con millones de otros usuarios es muy grande Bases de datos relacionales y BigData: - Persistencia en los datos (conserva versiones anteriores) - Model relacional los datos se almacenan en tablas - Base de datos definidas por un esquema - Datos en filas. atributos en columnas - Lenguaje SQL Datos no estructurados: - Sin formato y 80% de la información - Generado por máquina y humanos 1. Datos generados por máquinas: - Imágenessatélite,datoscientíficos(Atmosféricos,etc),Fotosyvideos,radar o sonar 2. Datos generados por humanos: - Datos internos de una compañía (documentos, presentaciones, correos, etc) - Redes sociales, dispositivos móviles, contenidos sitios WEB Datos semi-estructurados: - No se ajustan a un esquema fijo - Autodescriptivos con par etiqueta/valor (XML) TEMA 3 - COMPUTACIÓN DISTRIBUIDA écnica que permite conectar enredordenadoresindividualesrepartidosgeográficamente T tal y como se ubicaran en un único entorno. - Origen de US Defense → Internet; Para tener un sistema interconectado → TCP y IP Aspectos clave: 1. Necesidad de recursos adicionales disponibles para el procesamiento 2. Avances y abaratamiento de hardware, y aumento de la potencia del software 3. Capacidaddeaprovecharlacomputacióndistribuidaytécnicasdeprocesamientoen paralelo transformó el panorama y redujo la latencia 4. LATENCIA: retraso dentro de un sistema, entre la acción y la respuesta 5. Un nodo es un elemento dentro de un grupo de sistemas. Incluye CPU, memoria, disco 6. ESCALABLE: adaptación al crecimiento agregando más nodo TEMA 4 - COMPONENTES TECNOLÓGICOS Arquitectura BigData: - Diseñada para afrontar los requisitos fundamentales (ciclo de gestión) - Hardware - Software de infraestructura - Software operativo - Software de gestión - Interfaces de programación de aplicaciones (API) Capa 0: Infraestructura física redundante Hardware y red redundantes, que aseguran la disponibilidad, escalabilidad, flexibilidad y resiliencia frente a fallos. - Nivel más bajo (hardware, red, etc) - Hay que tener en cuenta: Rendimiento(latencia), Disponibilidad(interrupciones), Escalabilidad(tamaño de la infraestructura), Flexibilidad(servicios en la nube), coste - Con alta disponibilidad tiene que ser resiliente y redundante - Resiliencia: capacidad de adaptación frente a la adversidad - Redundancia: cierta repetición de información en un mensaje que permite reconstruir contenido en caso de pérdida Capa 1: Infraestructura de seguridad Controla el acceso a los datos y aplicaciones. Incluye cifrado y detección de amenazas. - Requisitos relacionados según öas necesidades específicas - Acceso a los datos (sin procesar) - Acceso a las aplicaciones - Detección de amenazas: control preventivo Capa 2: Bases de datos operacionales: - Motores de bases de datos tienen que ser rápidos, escalables y sólidos - Escoger elmotordeBBDDsegúnlanecesidad→noesprácticounabasededatos relacional en todos los casos por su escalabilidad y coste - ACID: - ATOMICIDAD: Si alguna parte de la transacción falla, toda la transacción falla - CONSISTENCIA: solo se realizan transacciones con valores válidos en la BBDD - AISLAMIENTO: múltiples transacciones al mismo momento - DURABILIDAD: cuando se escriben los datos en la BBDD permanecen para siempre Capa 3: Herramientas y organización de los servicios de datos - Sistema de archivos distribuido: capacidad de almacenamiento, escalar - Servicios de serialización: proceso deconvertirunobjetoaunasecuenciadebytes para transmitirlo - Servicios de coordinación - Herramientas de extracción, transformación y carga (ETL) - Servicios de flujo de trabajo Capa 4: Almacenes de datos analíticos y data marts - Contienen datos normalizados recopilados de una variedad de fuentes Capa 5: Analíticas BigData: - Herramientasyalgoritmosdiseñadosparamanejargrandesvolúmenesdedatos,en distintos formatos y en tiempo real. Tipos de herramientas: - Cuadro de mandoypaneles:centralizanymuestrandatosdediversasfuentespara facilitar el análisis. - Visualización: ofrece representaciones interactivas y dinámicas de los datos. - Analíticas y analíticas avanzadas: procesan datos para identificar tendencias, eventos, y realizar análisis predictivos o de sentimientos. Capa 6: Aplicaciones BigData: Requisitos para el desarrollo: - Necesitan estructura, estándares, rigor, y APIs bien definidas para asegurar su funcionamiento y escalabilidad. Tipos de aplicaciones: - Horizontales: resuelven problemas comunes a toda una industria. - Verticales: enfocadas en resolver problemas específicos de un sector o área. Capa 7: Interfaces y flujos: - Proporciona acceso bidireccional a todos los componentes de la estructura, a aplicaciones internas como a internet - Materializadas en API TEMA 5 - COMPUTACIÓN DISTRIBUIDA Y VIRTUALIZACIÓN irtualización: V Separalosrecursosyserviciosdelentornofísicoquelosoporta,permitiendocrearmuchos más sistemas virtuales dentro de un único sistema físico Beneficios: - Mejora del rendimiento y eficiencia en el consumo de recursos → mejora la latencia - Mejor control sobre el uso y rendimiento de los recursos de la tecnología de información (TI) - Proporciona automatización y estandarización optimizando la TI - Base para la computación en la nube Permite obtener una grancantidaddeeficiencia,perodebendegestionarseparaquesean seguros y no pierdan eficiencia. Características: 1. Particionamiento: Separación de los recursos físicos disponibles 2. Aislamiento: Si una máquina virtual fall, las demás i el sistema host no se ven afectados 3. Encapsulamiento: máquina virtual se representa por un único archivo Niveles de virtualización: 1. Servidores → un servidor físico se divide en varios servidores virtuales 2. Aplicaciones 3. Red: crear redes virtuales en vez de utilizar la red física 4. Procesadores y memoria 5. Datos y almacenamiento Retos de gestión y seguridad de la virtualización: - Demasiadas imágenes virtuales disminuye el rendimiento y aumenta el coste - Incumplimiento de SLA (Service Level Agreement) TEMA 6 - LA NUBE Y BIGDATA omputación en la nube: Permite el acceso compartido a recursos informáticos C (infraestructura, almacenamiento, aplicaciones) a través de Internet. Modelos de implementación: 1. Nubesprivadas:Gestionadainternamenteparamayorseguridadycontrol.→mayor coste 2. Nubespúblicas:Recursosaccesiblesatravésdeuntercero,peroconlimitacionesde seguridad y latencia. → Eficaz en análisis complejo con necesidad de recursos adicionales 3. Nube híbrida:Combina nubes privadas y públicas paraoptimizar costos y eficiencia. Modelos de entrega: 1. Infrastructure as a service (IAAS):Modelo de alquilerpara servicios informáticos 2. Platform as a service (PAAS): Combinación de IAAS con un conjunto de servicios middleware Middleware: software que se sitúa entre elsistemaoperativoylasaplicacionescomouna capa de traducción 3. Software as a service (SAAS) 4. Data as a service (DAAS):basado en SAAS Características de la nube fundamentales para el BigData: 1. Escalabilidad:capacidaddepasardepequeñasagrandescantidadesdepotenciade procesamiento en una misma infraestructura 2. Elasticidad: capacidad de expandir o reducir la demanda de recursos según la necesidad Hándicaps de los servicios en la nube: 1. Integridad:El proveedor debe asegurar la integridadde los datos. 2. Normativas:Cumplir con requisitos específicos dela empresa. 3. Costes:Tener claridad sobre costos acumulativos ycondiciones. 4. Transporte:Definir cómo ingresar datos en la nube. 5. Rendimiento:Garantizar disponibilidad y soporte adecuados. 6. Acceso:Controlar quién puede acceder a los datos. 7. Ubicación:Almacenar en lugares permitidos por laregulación. TEMA 7 - BASES DE DATOS OPERACIONALES ase de datos relacionales:Organizadasentablas,conunaomásrelacionesySQLcomo B lenguaje de consulta. → consistencia de la BBDD por la normalización de los datos Base de datos NO relacionales: Diseñadas para grandes volúmenes de datos no estructurados. Ofrecen flexibilidad, escalabilidad, y se dividen en varios tipos: 1. Pares clave-valor (KVP):no requieren un esquema,son flexible y escalable 2. Orientada a documentos: Útil cuando hay que producir muchos informes ensamblando dinámicamente diferentes elementos → se puede depositar el contenido completo de documentos o solo componentes de forma estática o dinámica 3. O rientadaacolumnas:BBDDrelacionalesestánorientadasafilas→alserorientada a columnas es fácil de añadir columnas para una gran flexibilidad, rendimiento y escalabilidad 4. Orientada a grafos: Basado en la estructura “Nodo - Relación” útil con datos altamente interconectados TEMA 8 - FUNDAMENTOS DE MAPREDUCE sunmarcodesoftwarequepermitealosdesarrolladoresescribirprogramasquepuedan E procesar grandes cantidades de datos no estructurados en paralelo de forma distribuida Clúster:gruposdeservidoresquesegestionanjuntosyparticipanenlagestióndecargade trabajo Distribución de trabajo en paralelo: razones - Procesamiento escalable automáticamente. - Tolerancia a fallos de red o sistemas. - Servicios fáciles de usar para desarrolladores. Función Map: Procesa listasdeelementosdedatos(clavesyvalor)yaplicaunafuncióna cada elemento (clave valor) de una lista y produce una nueva lista FunciónReduce:UtilizalasalidadelafunciónMapyprocesacadaelementodelalistapara aplicar una operación específica para resumir o consolidar los datos según lo requerido. Map+Reduce Fundamentos de MapReduce: 1. Planificación (Scheduling): - Procesos Map han de terminar antes de poder realizar funciones Reduce - Se priorizan tareas Map de acuerdo a los nodos disponibles del clúster - Procesamiento termina cuando todos los trabajos Reduce acaban 2. Sincronización: Asegura que los datosintermediosseorganicenypreparenparala reducción. 3. Distribución de código y datos: Ubica datos y funciones en el mismo nodo para mayor eficiencia. 4. Tolerancia a fallos:Detecta errores y reasigna tareas fallidas a otros nodos. Optimización de MapReduce: 1. Topología de hardware/red: Contar con hardware y redes rápidas, y un sistemade archivos distribuido. 2. Sincronización: Mantener un nodo maestro redundante para asegurar la disponibilidad en caso de fallos. 3. Sistemadeficheros:Preferirarchivosgrandessobrearchivospequeñosparareducir la complejidad de la gestión.