Document Details

BullishWaterfall3865

Uploaded by BullishWaterfall3865

Tags

Big Data data analysis data management computer science

Summary

Este documento proporciona una introducción a los conceptos de Big Data, incluyendo tipos de datos, computación distribuida y virtualización. Explica la capacidad de manejar grandes cantidades de datos heterogéneos a una velocidad adecuada, así como los diferentes tipos de datos y las tecnologías asociadas.

Full Transcript

‭TEMA 1 - INTRODUCCIÓN‬ ‭1)‬ ‭Qué es BigData?‬ ‭ apacidad‬ ‭para‬ ‭manejar‬ ‭enormes‬ ‭cantidades‬ ‭de‬ ‭datos‬ ‭heterogéneos,‬ ‭a‬ ‭la‬ ‭velocidad‬ C ‭adecuada y a tiempo para la realización de análisis en tiempo real y la reacción.‬ ‭Fuente de datos caracterizada por:‬ ‭-‬ ‭...

‭TEMA 1 - INTRODUCCIÓN‬ ‭1)‬ ‭Qué es BigData?‬ ‭ apacidad‬ ‭para‬ ‭manejar‬ ‭enormes‬ ‭cantidades‬ ‭de‬ ‭datos‬ ‭heterogéneos,‬ ‭a‬ ‭la‬ ‭velocidad‬ C ‭adecuada y a tiempo para la realización de análisis en tiempo real y la reacción.‬ ‭Fuente de datos caracterizada por:‬ ‭-‬ ‭Volúmenes de datos extremadamente grandes‬ ‭-‬ ‭Velocidad de generación extremadamente grande‬ ‭-‬ ‭Variedades de formatos extremadamente amplias‬ ‭Evolución‬‭:‬ ‭1.‬ ‭Creación de estructuras manejables‬ ‭-‬ ‭Ficheros planos‬ ‭-‬ ‭Bases de datos relacionales (rdbms)‬ ‭-‬ ‭Modelo entidad-relación (e-r)‬ ‭2.‬ ‭Gestión de contenidos y de la web‬ ‭3.‬ ‭Gestión de BigData‬ ‭-‬ ‭Facilitada por descenso de los costes de procesamiento y almacenamiento‬ ‭-‬ ‭Implementada sobre redes más rápidas y fiables‬ ‭4 V:‬ ‭VOLUMEN, VELOCIDAD, VARIEDAD, VERACIDAD (Calidad‬‭y Confiabilidad de los Datos)‬ ‭Ciclo de gestión del BigData:‬‭→Capture→Organize→Integrate→Analyze→Act‬ ‭Arquitectura de Big Data:‬ ‭-‬ ‭Funcional‬‭:‬‭Define‬‭cómo‬‭se‬‭gestionan‬‭los‬‭datos‬‭en‬‭tiempo‬‭real‬‭y‬‭la‬‭seguridad.‬‭Incluye‬ ‭infraestructuras físicas, computación distribuida y seguridad de datos.‬ ‭-‬ ‭Operacional‬‭:‬ ‭Orientada‬ ‭a‬ ‭la‬ ‭recolección‬ ‭de‬ ‭datos,‬ ‭almacenamiento,‬ ‭análisis,‬ ‭visualización y aplicaciones Big Data.‬ ‭Soluciones tecnológicas:‬ ‭-‬ ‭MAPREDUCE:‬ ‭Ejecuta‬ ‭de‬ ‭forma‬ ‭eficiente‬ ‭un‬ ‭conjunto‬‭de‬‭funciones‬‭contra‬‭ingentes‬ ‭volúmenes de datos por lotes (batch mode)‬ ‭-‬ ‭Big‬ ‭Table:‬ ‭Sistema‬ ‭de‬ ‭almacenamiento‬ ‭distribuido‬ ‭para‬ ‭la‬ ‭gestión‬ ‭de‬ ‭grandes‬ ‭volúmenes de datos estructurados‬ ‭-‬ ‭HADOOP:‬ ‭Permite‬ ‭la‬ ‭ejecución‬ ‭en‬ ‭grandes‬ ‭agrupaciones‬ ‭de‬ ‭servidores‬ ‭de‬ ‭aplicaciones basadas en mapreduce‬ ‭TEMA 2 - TIPOS DE BIGDATA‬ ‭ n‬ ‭Big‬ ‭Data‬ ‭se‬ ‭trabajan‬ ‭con‬ ‭diferentes‬ ‭tipos‬ ‭de‬ ‭datos,‬ ‭tanto‬ ‭estructurados‬ ‭como‬ ‭no‬ E ‭estructurados.‬ ‭Datos estructurados:‬ ‭-‬ ‭Longitud y formato definido‬ ‭-‬ ‭Base de datos → consultados por lenguaje SQL‬ ‭-‬ ‭Proporcionados por Computadoras y Humanos‬ ‭1.‬ ‭Datos generados por máquinas:‬ ‭-‬ ‭Sensores‬ ‭(GPS,‬ ‭etc),‬ ‭Registro‬ ‭WEB‬ ‭(red,‬ ‭servidores),‬ ‭Terminales‬ ‭de‬ ‭venta,‬ ‭Financieros‬ ‭2.‬ ‭Datos generados per humanos:‬ ‭-‬ ‭Datos de entrada → formularios‬ -‭‬ ‭Flujo de clics → generados a partir de clics de enlaces‬ ‭-‬ ‭Relacionados con el juego → registro de movimientos de usuarios‬ ‭.‬ ‭Tipo de datos:‬ 3 ‭-‬ ‭Puede‬ ‭no‬ ‭ser‬ ‭de‬ ‭gran‬ ‭tamaño,‬ ‭pero,‬ ‭con‬ ‭millones‬ ‭de‬ ‭otros‬ ‭usuarios‬ ‭es‬ ‭muy‬ ‭grande‬ ‭Bases de datos relacionales y BigData:‬ ‭-‬ ‭Persistencia en los datos (conserva versiones anteriores)‬ ‭-‬ ‭Model relacional los datos se almacenan en tablas‬ ‭-‬ ‭Base de datos definidas por un esquema‬ ‭-‬ ‭Datos en filas. atributos en columnas‬ ‭-‬ ‭Lenguaje SQL‬ ‭Datos no estructurados:‬ ‭-‬ ‭Sin formato y 80% de la información‬ ‭-‬ ‭Generado por máquina y humanos‬ ‭1.‬ ‭Datos generados por máquinas:‬ ‭-‬ ‭Imágenes‬‭satélite,‬‭datos‬‭científicos‬‭(Atmosféricos,‬‭etc),‬‭Fotos‬‭y‬‭videos,‬‭radar‬ ‭o sonar‬ ‭2.‬ ‭Datos generados por humanos:‬ ‭-‬ ‭Datos internos de una compañía (documentos, presentaciones, correos, etc)‬ ‭-‬ ‭Redes sociales, dispositivos móviles, contenidos sitios WEB‬ ‭Datos semi-estructurados:‬ ‭-‬ ‭No se ajustan a un esquema fijo‬ ‭-‬ ‭Autodescriptivos con par etiqueta/valor (XML)‬ ‭TEMA 3 - COMPUTACIÓN DISTRIBUIDA‬ ‭ écnica‬ ‭que‬ ‭permite‬ ‭conectar‬ ‭en‬‭red‬‭ordenadores‬‭individuales‬‭repartidos‬‭geográficamente‬ T ‭tal y como se ubicaran en un único entorno.‬ ‭-‬ ‭Origen de US Defense → Internet; Para tener un sistema interconectado → TCP y IP‬ ‭Aspectos clave:‬ ‭1.‬ ‭Necesidad de recursos adicionales disponibles para el procesamiento‬ ‭2.‬ ‭Avances y abaratamiento de hardware, y aumento de la potencia del software‬ ‭3.‬ ‭Capacidad‬‭de‬‭aprovechar‬‭la‬‭computación‬‭distribuida‬‭y‬‭técnicas‬‭de‬‭procesamiento‬‭en‬ ‭paralelo transformó el panorama y redujo la latencia‬ ‭4.‬ ‭LATENCIA: retraso dentro de un sistema, entre la acción y la respuesta‬ ‭5.‬ ‭Un‬ ‭nodo‬ ‭es‬ ‭un‬ ‭elemento‬ ‭dentro‬ ‭de‬ ‭un‬ ‭grupo‬ ‭de‬ ‭sistemas.‬ ‭Incluye‬ ‭CPU,‬ ‭memoria,‬ ‭disco‬ ‭6.‬ ‭ESCALABLE: adaptación al crecimiento agregando más nodo‬ ‭TEMA 4 - COMPONENTES TECNOLÓGICOS‬ ‭Arquitectura BigData:‬ ‭-‬ ‭Diseñada para afrontar los requisitos fundamentales (ciclo de gestión)‬ ‭-‬ ‭Hardware‬ ‭-‬ ‭Software de infraestructura‬ ‭-‬ ‭Software operativo‬ ‭-‬ ‭Software de gestión‬ ‭-‬ ‭Interfaces de programación de aplicaciones (API)‬ ‭Capa 0: Infraestructura física redundante‬ ‭Hardware‬ ‭y‬ ‭red‬ ‭redundantes,‬ ‭que‬ ‭aseguran‬ ‭la‬ ‭disponibilidad,‬ ‭escalabilidad,‬ ‭flexibilidad‬ ‭y‬ ‭resiliencia frente a fallos.‬ ‭-‬ ‭Nivel más bajo (hardware, red, etc)‬ ‭-‬ ‭Hay‬ ‭que‬ ‭tener‬ ‭en‬ ‭cuenta:‬ ‭Rendimiento(latencia),‬ ‭Disponibilidad(interrupciones),‬ ‭Escalabilidad(tamaño de la infraestructura), Flexibilidad(servicios en la nube), coste‬ ‭-‬ ‭Con alta disponibilidad tiene que ser resiliente y redundante‬ ‭-‬ ‭Resiliencia‬‭: capacidad de adaptación frente a la adversidad‬ ‭-‬ ‭Redundancia‬‭:‬ ‭cierta‬ ‭repetición‬ ‭de‬ ‭información‬ ‭en‬ ‭un‬ ‭mensaje‬ ‭que‬ ‭permite‬ ‭reconstruir contenido en caso de pérdida‬ ‭Capa 1: Infraestructura de seguridad‬ ‭Controla el acceso a los datos y aplicaciones. Incluye cifrado y detección de amenazas.‬ ‭-‬ ‭Requisitos relacionados según öas necesidades específicas‬ ‭-‬ ‭Acceso a los datos (sin procesar)‬ ‭-‬ ‭Acceso a las aplicaciones‬ ‭-‬ ‭Detección de amenazas: control preventivo‬ ‭Capa 2: Bases de datos operacionales:‬ ‭-‬ ‭Motores de bases de datos tienen que ser rápidos, escalables y sólidos‬ ‭-‬ ‭Escoger‬ ‭el‬‭motor‬‭de‬‭BBDD‬‭según‬‭la‬‭necesidad‬‭→‬‭no‬‭es‬‭práctico‬‭una‬‭base‬‭de‬‭datos‬ ‭relacional en todos los casos por su escalabilidad y coste‬ ‭-‬ ‭ACID:‬ ‭- ATOMICIDAD: Si alguna parte de la transacción falla, toda la transacción falla‬ ‭- CONSISTENCIA: solo se realizan transacciones con valores válidos en la BBDD‬ ‭- AISLAMIENTO: múltiples transacciones al mismo momento‬ ‭- DURABILIDAD: cuando se escriben los datos en la BBDD permanecen para siempre‬ ‭Capa 3: Herramientas y organización de los servicios de datos‬ ‭-‬ ‭Sistema de archivos distribuido: capacidad de almacenamiento, escalar‬ ‭-‬ ‭Servicios‬ ‭de‬ ‭serialización:‬ ‭proceso‬ ‭de‬‭convertir‬‭un‬‭objeto‬‭a‬‭una‬‭secuencia‬‭de‬‭bytes‬ ‭para transmitirlo‬ ‭-‬ ‭Servicios de coordinación‬ ‭-‬ ‭Herramientas de extracción, transformación y carga (ETL)‬ ‭-‬ ‭Servicios de flujo de trabajo‬ ‭Capa 4: Almacenes de datos analíticos y data marts‬ ‭-‬ ‭Contienen datos normalizados recopilados de una variedad de fuentes‬ ‭Capa 5: Analíticas BigData:‬ ‭-‬ ‭Herramientas‬‭y‬‭algoritmos‬‭diseñados‬‭para‬‭manejar‬‭grandes‬‭volúmenes‬‭de‬‭datos,‬‭en‬ ‭distintos formatos y en tiempo real.‬ ‭Tipos de herramientas:‬ ‭-‬ ‭Cuadro‬ ‭de‬ ‭mando‬‭y‬‭paneles:‬‭centralizan‬‭y‬‭muestran‬‭datos‬‭de‬‭diversas‬‭fuentes‬‭para‬ ‭facilitar el análisis.‬ ‭-‬ ‭Visualización: ofrece representaciones interactivas y dinámicas de los datos.‬ ‭-‬ ‭Analíticas‬ ‭y‬ ‭analíticas‬ ‭avanzadas:‬ ‭procesan‬ ‭datos‬ ‭para‬ ‭identificar‬ ‭tendencias,‬ ‭eventos, y realizar análisis predictivos o de sentimientos.‬ ‭Capa 6: Aplicaciones BigData:‬ ‭Requisitos para el desarrollo:‬ ‭-‬ ‭Necesitan‬ ‭estructura,‬ ‭estándares,‬ ‭rigor,‬ ‭y‬ ‭APIs‬ ‭bien‬ ‭definidas‬ ‭para‬ ‭asegurar‬ ‭su‬ ‭funcionamiento y escalabilidad.‬ ‭Tipos de aplicaciones:‬ ‭-‬ ‭Horizontales: resuelven problemas comunes a toda una industria.‬ ‭-‬ ‭Verticales: enfocadas en resolver problemas específicos de un sector o área.‬ ‭Capa 7: Interfaces y flujos:‬ ‭-‬ ‭Proporciona‬ ‭acceso‬ ‭bidireccional‬ ‭a‬ ‭todos‬ ‭los‬ ‭componentes‬ ‭de‬ ‭la‬ ‭estructura,‬ ‭a‬ ‭aplicaciones internas como a internet‬ ‭-‬ ‭Materializadas en API‬ ‭TEMA 5 - COMPUTACIÓN DISTRIBUIDA Y VIRTUALIZACIÓN‬ ‭ irtualización:‬ V ‭Separa‬‭los‬‭recursos‬‭y‬‭servicios‬‭del‬‭entorno‬‭físico‬‭que‬‭lo‬‭soporta,‬‭permitiendo‬‭crear‬‭muchos‬ ‭más sistemas virtuales dentro de un único sistema físico‬ ‭Beneficios:‬ ‭-‬ ‭Mejora del rendimiento y eficiencia en el consumo de recursos → mejora la latencia‬ ‭-‬ ‭Mejor‬ ‭control‬ ‭sobre‬ ‭el‬ ‭uso‬ ‭y‬ ‭rendimiento‬ ‭de‬ ‭los‬ ‭recursos‬ ‭de‬ ‭la‬ ‭tecnología‬ ‭de‬ ‭información (TI)‬ ‭-‬ ‭Proporciona automatización y estandarización optimizando la TI‬ ‭-‬ ‭Base para la computación en la nube‬ ‭Permite‬ ‭obtener‬ ‭una‬ ‭gran‬‭cantidad‬‭de‬‭eficiencia,‬‭pero‬‭deben‬‭de‬‭gestionarse‬‭para‬‭que‬‭sean‬ ‭seguros y no pierdan eficiencia.‬ ‭Características:‬ ‭1.‬ ‭Particionamiento: Separación de los recursos físicos disponibles‬ ‭2.‬ ‭Aislamiento:‬ ‭Si‬ ‭una‬ ‭máquina‬ ‭virtual‬ ‭fall,‬ ‭las‬ ‭demás‬ ‭i‬ ‭el‬ ‭sistema‬ ‭host‬ ‭no‬ ‭se‬ ‭ven‬ ‭afectados‬ ‭3.‬ ‭Encapsulamiento: máquina virtual se representa por un único archivo‬ ‭Niveles de virtualización:‬ ‭1.‬ ‭Servidores → un servidor físico se divide en varios servidores virtuales‬ ‭2.‬ ‭Aplicaciones‬ ‭3.‬ ‭Red: crear redes virtuales en vez de utilizar la red física‬ ‭4.‬ ‭Procesadores y memoria‬ ‭5.‬ ‭Datos y almacenamiento‬ ‭Retos de gestión y seguridad de la virtualización:‬ ‭-‬ ‭Demasiadas imágenes virtuales disminuye el rendimiento y aumenta el coste‬ ‭-‬ ‭Incumplimiento de SLA (Service Level Agreement)‬ ‭TEMA 6 - LA NUBE Y BIGDATA‬ ‭ omputación‬ ‭en‬ ‭la‬ ‭nube‬‭:‬ ‭Permite‬ ‭el‬ ‭acceso‬ ‭compartido‬ ‭a‬ ‭recursos‬ ‭informáticos‬ C ‭(infraestructura, almacenamiento, aplicaciones) a través de Internet.‬ ‭Modelos de implementación:‬ ‭1.‬ ‭Nubes‬‭privadas:‬‭Gestionada‬‭internamente‬‭para‬‭mayor‬‭seguridad‬‭y‬‭control.‬‭→‬‭mayor‬ ‭coste‬ ‭2.‬ ‭Nubes‬‭públicas:‬‭Recursos‬‭accesibles‬‭a‬‭través‬‭de‬‭un‬‭tercero,‬‭pero‬‭con‬‭limitaciones‬‭de‬ ‭seguridad‬ ‭y‬ ‭latencia.‬ ‭→‬ ‭Eficaz‬ ‭en‬ ‭análisis‬ ‭complejo‬ ‭con‬ ‭necesidad‬ ‭de‬ ‭recursos‬ ‭adicionales‬ ‭3.‬ ‭Nube híbrida:‬‭Combina nubes privadas y públicas para‬‭optimizar costos y eficiencia.‬ ‭Modelos de entrega:‬ ‭1.‬ ‭Infrastructure as a service (IAAS):‬‭Modelo de alquiler‬‭para servicios informáticos‬ ‭2.‬ ‭Platform‬ ‭as‬ ‭a‬ ‭service‬ ‭(PAAS):‬ ‭Combinación‬ ‭de‬ ‭IAAS‬ ‭con‬ ‭un‬ ‭conjunto‬ ‭de‬ ‭servicios‬ ‭middleware‬ ‭Middleware:‬ ‭software‬ ‭que‬ ‭se‬ ‭sitúa‬ ‭entre‬ ‭el‬‭sistema‬‭operativo‬‭y‬‭las‬‭aplicaciones‬‭como‬‭una‬ ‭capa de traducción‬ ‭3.‬ ‭Software as a service (SAAS)‬ ‭4.‬ ‭Data as a service (DAAS):‬‭basado en SAAS‬ ‭Características de la nube fundamentales para el BigData:‬ ‭1.‬ ‭Escalabilidad:‬‭capacidad‬‭de‬‭pasar‬‭de‬‭pequeñas‬‭a‬‭grandes‬‭cantidades‬‭de‬‭potencia‬‭de‬ ‭procesamiento en una misma infraestructura‬ ‭2.‬ ‭Elasticidad:‬ ‭capacidad‬ ‭de‬ ‭expandir‬ ‭o‬ ‭reducir‬ ‭la‬ ‭demanda‬ ‭de‬ ‭recursos‬ ‭según‬ ‭la‬ ‭necesidad‬ ‭Hándicaps de los servicios en la nube:‬ ‭1.‬ ‭Integridad:‬‭El proveedor debe asegurar la integridad‬‭de los datos.‬ ‭2.‬ ‭Normativas:‬‭Cumplir con requisitos específicos de‬‭la empresa.‬ ‭3.‬ ‭Costes:‬‭Tener claridad sobre costos acumulativos y‬‭condiciones.‬ ‭4.‬ ‭Transporte:‬‭Definir cómo ingresar datos en la nube.‬ ‭5.‬ ‭Rendimiento:‬‭Garantizar disponibilidad y soporte adecuados.‬ ‭6.‬ ‭Acceso:‬‭Controlar quién puede acceder a los datos.‬ ‭7.‬ ‭Ubicación:‬‭Almacenar en lugares permitidos por la‬‭regulación.‬ ‭TEMA 7 - BASES DE DATOS OPERACIONALES‬ ‭ ase‬ ‭de‬ ‭datos‬ ‭relacionales:‬‭Organizadas‬‭en‬‭tablas,‬‭con‬‭una‬‭o‬‭más‬‭relaciones‬‭y‬‭SQL‬‭como‬ B ‭lenguaje de consulta. → consistencia de la BBDD por la normalización de los datos‬ ‭Base‬ ‭de‬ ‭datos‬ ‭NO‬ ‭relacionales:‬ ‭Diseñadas‬ ‭para‬ ‭grandes‬ ‭volúmenes‬ ‭de‬ ‭datos‬ ‭no‬ ‭estructurados. Ofrecen flexibilidad, escalabilidad, y se dividen en varios tipos:‬ ‭1.‬ ‭Pares clave-valor (KVP):‬‭no requieren un esquema,‬‭son flexible y escalable‬ ‭2.‬ ‭Orientada‬ ‭a‬ ‭documentos:‬ ‭Útil‬ ‭cuando‬ ‭hay‬ ‭que‬ ‭producir‬ ‭muchos‬ ‭informes‬ ‭ensamblando‬ ‭dinámicamente‬ ‭diferentes‬ ‭elementos‬ ‭→‬ ‭se‬ ‭puede‬ ‭depositar‬ ‭el‬ ‭contenido‬ ‭completo‬ ‭de‬ ‭documentos‬ ‭o‬ ‭solo‬ ‭componentes‬ ‭de‬ ‭forma‬ ‭estática‬ ‭o‬ ‭dinámica‬ ‭3.‬ O ‭ rientada‬‭a‬‭columnas:‬‭BBDD‬‭relacionales‬‭están‬‭orientadas‬‭a‬‭filas‬‭→‬‭al‬‭ser‬‭orientada‬ ‭a‬ ‭columnas‬ ‭es‬ ‭fácil‬ ‭de‬ ‭añadir‬ ‭columnas‬ ‭para‬ ‭una‬ ‭gran‬ ‭flexibilidad,‬ ‭rendimiento‬ ‭y‬ ‭escalabilidad‬ ‭4.‬ ‭Orientada‬ ‭a‬ ‭grafos:‬ ‭Basado‬ ‭en‬ ‭la‬ ‭estructura‬ ‭“Nodo‬ ‭-‬ ‭Relación”‬ ‭útil‬ ‭con‬ ‭datos‬ ‭altamente interconectados‬ ‭TEMA 8 - FUNDAMENTOS DE MAPREDUCE‬ ‭ s‬‭un‬‭marco‬‭de‬‭software‬‭que‬‭permite‬‭a‬‭los‬‭desarrolladores‬‭escribir‬‭programas‬‭que‬‭puedan‬ E ‭procesar grandes cantidades de datos no estructurados en paralelo de forma distribuida‬ ‭Clúster:‬‭grupos‬‭de‬‭servidores‬‭que‬‭se‬‭gestionan‬‭juntos‬‭y‬‭participan‬‭en‬‭la‬‭gestión‬‭de‬‭carga‬‭de‬ ‭trabajo‬ ‭Distribución de trabajo en paralelo: razones‬ ‭-‬ ‭Procesamiento escalable automáticamente.‬ ‭-‬ ‭Tolerancia a fallos de red o sistemas.‬ ‭-‬ ‭Servicios fáciles de usar para desarrolladores.‬ ‭Función‬ ‭Map:‬ ‭Procesa‬ ‭listas‬‭de‬‭elementos‬‭de‬‭datos‬‭(claves‬‭y‬‭valor)‬‭y‬‭aplica‬‭una‬‭función‬‭a‬ ‭cada elemento (clave valor) de una lista y produce una nueva lista‬ ‭Función‬‭Reduce:‬‭Utiliza‬‭la‬‭salida‬‭de‬‭la‬‭función‬‭Map‬‭y‬‭procesa‬‭cada‬‭elemento‬‭de‬‭la‬‭lista‬‭para‬ ‭aplicar una operación específica para resumir o consolidar los datos según lo requerido.‬ ‭Map+Reduce‬ ‭Fundamentos de MapReduce:‬ ‭1.‬ ‭Planificación (Scheduling):‬ ‭-‬ ‭Procesos Map han de terminar antes de poder realizar funciones Reduce‬ ‭-‬ ‭Se priorizan tareas Map de acuerdo a los nodos disponibles del clúster‬ ‭-‬ ‭Procesamiento termina cuando todos los trabajos Reduce acaban‬ ‭2.‬ ‭Sincronización:‬ ‭Asegura‬ ‭que‬ ‭los‬ ‭datos‬‭intermedios‬‭se‬‭organicen‬‭y‬‭preparen‬‭para‬‭la‬ ‭reducción.‬ ‭3.‬ ‭Distribución‬ ‭de‬ ‭código‬ ‭y‬ ‭datos:‬ ‭Ubica‬ ‭datos‬ ‭y‬ ‭funciones‬ ‭en‬ ‭el‬ ‭mismo‬ ‭nodo‬ ‭para‬ ‭mayor eficiencia.‬ ‭4.‬ ‭Tolerancia a fallos:‬‭Detecta errores y reasigna tareas fallidas a otros nodos.‬ ‭Optimización de MapReduce:‬ ‭1.‬ ‭Topología‬ ‭de‬ ‭hardware/red‬‭:‬ ‭Contar‬ ‭con‬ ‭hardware‬ ‭y‬ ‭redes‬ ‭rápidas,‬ ‭y‬ ‭un‬ ‭sistema‬‭de‬ ‭archivos distribuido.‬ ‭2.‬ ‭Sincronización:‬ ‭Mantener‬ ‭un‬ ‭nodo‬ ‭maestro‬ ‭redundante‬ ‭para‬ ‭asegurar‬ ‭la‬ ‭disponibilidad en caso de fallos.‬ ‭3.‬ ‭Sistema‬‭de‬‭ficheros:‬‭Preferir‬‭archivos‬‭grandes‬‭sobre‬‭archivos‬‭pequeños‬‭para‬‭reducir‬ ‭la complejidad de la gestión.‬

Use Quizgecko on...
Browser
Browser