Podcast
Questions and Answers
¿Qué característica no se menciona como parte de la definición de BigData?
¿Qué característica no se menciona como parte de la definición de BigData?
¿Cuál de las siguientes es una fase del ciclo de gestión del BigData?
¿Cuál de las siguientes es una fase del ciclo de gestión del BigData?
¿Qué tecnología se utiliza para ejecutar funciones contra grandes volúmenes de datos en modo batch?
¿Qué tecnología se utiliza para ejecutar funciones contra grandes volúmenes de datos en modo batch?
¿Cuál de las siguientes afirmaciones es incorrecta sobre los datos estructurados?
¿Cuál de las siguientes afirmaciones es incorrecta sobre los datos estructurados?
Signup and view all the answers
¿Qué tipo de datos se pueden consultar utilizando lenguaje SQL?
¿Qué tipo de datos se pueden consultar utilizando lenguaje SQL?
Signup and view all the answers
¿Qué componente de la arquitectura de Big Data se centra en la recolección y visualización de datos?
¿Qué componente de la arquitectura de Big Data se centra en la recolección y visualización de datos?
Signup and view all the answers
¿Cuáles son las 4 V de Big Data según el contenido?
¿Cuáles son las 4 V de Big Data según el contenido?
Signup and view all the answers
¿Cuál de las siguientes tecnologías permite la ejecución en agrupaciones de servidores utilizando MapReduce?
¿Cuál de las siguientes tecnologías permite la ejecución en agrupaciones de servidores utilizando MapReduce?
Signup and view all the answers
¿Qué tipo de datos son generados por máquinas según el contenido?
¿Qué tipo de datos son generados por máquinas según el contenido?
Signup and view all the answers
La gestión de BigData se facilitó por la reducción de los costos de qué aspecto?
La gestión de BigData se facilitó por la reducción de los costos de qué aspecto?
Signup and view all the answers
¿Qué caracteriza a los datos no estructurados?
¿Qué caracteriza a los datos no estructurados?
Signup and view all the answers
Cuál de las siguientes afirmaciones sobre la computación distribuida es correcta?
Cuál de las siguientes afirmaciones sobre la computación distribuida es correcta?
Signup and view all the answers
¿Qué describe mejor los datos semi-estructurados?
¿Qué describe mejor los datos semi-estructurados?
Signup and view all the answers
¿Cuál es una característica de la arquitectura Big Data?
¿Cuál es una característica de la arquitectura Big Data?
Signup and view all the answers
¿Qué es un nodo en el contexto de computación distribuida?
¿Qué es un nodo en el contexto de computación distribuida?
Signup and view all the answers
¿Cuál de las siguientes afirmaciones sobre la latencia es correcta?
¿Cuál de las siguientes afirmaciones sobre la latencia es correcta?
Signup and view all the answers
¿Cuál es una de las funciones de la capa 0 en la arquitectura Big Data?
¿Cuál es una de las funciones de la capa 0 en la arquitectura Big Data?
Signup and view all the answers
¿Qué implica la escalabilidad en un sistema de computación distribuida?
¿Qué implica la escalabilidad en un sistema de computación distribuida?
Signup and view all the answers
¿Cuál es una característica de los datos generados por humanos?
¿Cuál es una característica de los datos generados por humanos?
Signup and view all the answers
¿Qué se entiende por redundancia en el contexto de infraestructura tecnológica?
¿Qué se entiende por redundancia en el contexto de infraestructura tecnológica?
Signup and view all the answers
¿Cuál es una característica principal de las bases de datos orientadas a grafos?
¿Cuál es una característica principal de las bases de datos orientadas a grafos?
Signup and view all the answers
¿Qué proceso se asegura de que los datos intermedios se organicen antes de ser reducidos en MapReduce?
¿Qué proceso se asegura de que los datos intermedios se organicen antes de ser reducidos en MapReduce?
Signup and view all the answers
¿Cuál es una ventaja de la base de datos orientada a columnas en comparación con la orientada a filas?
¿Cuál es una ventaja de la base de datos orientada a columnas en comparación con la orientada a filas?
Signup and view all the answers
¿Qué función en MapReduce se encarga de aplicar una operación específica para resumir datos?
¿Qué función en MapReduce se encarga de aplicar una operación específica para resumir datos?
Signup and view all the answers
¿Cuál es el objetivo de la tolerancia a fallos en un clúster de MapReduce?
¿Cuál es el objetivo de la tolerancia a fallos en un clúster de MapReduce?
Signup and view all the answers
¿Qué tipo de bases de datos son ideales para manejar grandes volúmenes de datos no estructurados?
¿Qué tipo de bases de datos son ideales para manejar grandes volúmenes de datos no estructurados?
Signup and view all the answers
¿Cuál de los siguientes es un concepto central en la planificación de MapReduce?
¿Cuál de los siguientes es un concepto central en la planificación de MapReduce?
Signup and view all the answers
¿Qué ventaja ofrece una base de datos orientada a documentos?
¿Qué ventaja ofrece una base de datos orientada a documentos?
Signup and view all the answers
¿Qué tipo de arquitectura se utiliza para realizar procesamiento paralelo en grandes volúmenes de datos en MapReduce?
¿Qué tipo de arquitectura se utiliza para realizar procesamiento paralelo en grandes volúmenes de datos en MapReduce?
Signup and view all the answers
¿Cuál es una de las claves para la optimización de MapReduce?
¿Cuál es una de las claves para la optimización de MapReduce?
Signup and view all the answers
¿Cuál es el término que se refiere a la propiedad de una base de datos en la que, si alguna parte de la transacción falla, toda la transacción también falla?
¿Cuál es el término que se refiere a la propiedad de una base de datos en la que, si alguna parte de la transacción falla, toda la transacción también falla?
Signup and view all the answers
¿Cuál de las siguientes características NO es una ventaja de la virtualización?
¿Cuál de las siguientes características NO es una ventaja de la virtualización?
Signup and view all the answers
En el contexto de Big Data, ¿cuál es la principal función de las herramientas de ETL?
En el contexto de Big Data, ¿cuál es la principal función de las herramientas de ETL?
Signup and view all the answers
¿Qué modelo de implementación de la nube proporciona mayor seguridad y control, pero a un costo más elevado?
¿Qué modelo de implementación de la nube proporciona mayor seguridad y control, pero a un costo más elevado?
Signup and view all the answers
¿Cuál de las siguientes propiedades de ACID se refiere a la capacidad de que solo se realicen transacciones con datos válidos?
¿Cuál de las siguientes propiedades de ACID se refiere a la capacidad de que solo se realicen transacciones con datos válidos?
Signup and view all the answers
¿Qué tipo de aplicaciones Big Data se enfocan en resolver problemas específicos dentro de un sector?
¿Qué tipo de aplicaciones Big Data se enfocan en resolver problemas específicos dentro de un sector?
Signup and view all the answers
¿Qué característica de la nube permite pasar rápidamente de una pequeña a una gran cantidad de recursos de procesamiento?
¿Qué característica de la nube permite pasar rápidamente de una pequeña a una gran cantidad de recursos de procesamiento?
Signup and view all the answers
¿Cuál es uno de los retos de la gestión de la virtualización?
¿Cuál es uno de los retos de la gestión de la virtualización?
Signup and view all the answers
¿Qué propiedad de la nube se refiere a la capacidad de expandir o reducir la demanda de recursos según sea necesario?
¿Qué propiedad de la nube se refiere a la capacidad de expandir o reducir la demanda de recursos según sea necesario?
Signup and view all the answers
¿Cuál no es un tipo de modelo de entrega en la nube?
¿Cuál no es un tipo de modelo de entrega en la nube?
Signup and view all the answers
¿Cuál de las siguientes opciones describe mejor un sistema de archivos distribuido?
¿Cuál de las siguientes opciones describe mejor un sistema de archivos distribuido?
Signup and view all the answers
¿Qué no forma parte de los requisitos para el desarrollo de aplicaciones Big Data?
¿Qué no forma parte de los requisitos para el desarrollo de aplicaciones Big Data?
Signup and view all the answers
¿Qué se entiende por 'data marts' en el contexto de almacenes de datos?
¿Qué se entiende por 'data marts' en el contexto de almacenes de datos?
Signup and view all the answers
Study Notes
Introducción a BigData
-
BigData se encarga de manejar grandes cantidades de datos heterogéneos a alta velocidad para análisis en tiempo real.
-
Sus características principales son volumen, velocidad, variedad y veracidad.
-
Su evolución se ha dado a través de la creación de estructuras manejables en archivos planos y bases de datos relacionales.
-
El ciclo de gestión del BigData abarca captura, organización, integración, análisis y acción.
-
Su arquitectura se divide en dos partes: funcional (gestión de datos en tiempo real y seguridad) y operacional (recolección, almacenamiento, análisis, visualización y aplicaciones Big Data).
- Las soluciones tecnológicas para BigData incluyen MapReduce, Big Table y Hadoop.
Tipos de BigData
- Los datos estructurados tienen longitud y formato definidos, se consultan con lenguaje SQL y son proporcionados por máquinas y humanos.
- Los datos no estructurados carecen de formato y representan el 80% de la información.
- Los datos semi-estructurados no se ajustan a un esquema fijo y son autodescriptivos.
Computación Distribuida
- Permite conectar ordenadores individuales repartidos geográficamente como si estuvieran en un único entorno.
- Sus aspectos clave son:
- La necesidad de recursos adicionales para procesamiento.
-
Los avances y abaratamiento del hardware y la potencia del software.
- La capacidad de aprovechar la computación distribuida y las técnicas de procesamiento paralelo.
- La latencia, o retraso en la respuesta del sistema.
-
Un nodo es un elemento dentro de un grupo de sistemas que incluye CPU, memoria y disco.
-
La escalabilidad, que permite la adaptación al crecimiento al agregar más nodos.
Componentes Tecnológicos
- La arquitectura BigData se diseña para afrontar los requisitos fundamentales del ciclo de gestión.
- Sus componentes son: - Hardware - Software de infraestructura - Software operativo - Software de gestión - API (Interfaces de programación de aplicaciones)
- La capa 0, la base de la arquitectura, se compone de la infraestructura física redundante, que asegura disponibilidad, escalabilidad, flexibilidad y resiliencia frente a fallos.
- La capa 1, encargada de la seguridad, controla el acceso a los datos y aplicaciones, incluyendo cifrado y detección de amenazas.
- La capa 2 se compone de bases de datos operacionales, que deben ser rápidas, escalables y sólidas.
- La capa 3 se encarga de las herramientas y organización de los servicios de datos, incluyendo sistemas de archivos distribuidos, servicios de serialización, servicios de coordinación y herramientas ETL (Extracción, Transformación y Carga).
- La capa 4 se compone de almacenes de datos analíticos y data marts, que contienen datos normalizados de diferentes fuentes.
- La capa 5 se encarga de las analíticas BigData, con herramientas y algoritmos para gestionar grandes volúmenes de datos en diferentes formatos y en tiempo real.
- La capa 6 está compuesta por las aplicaciones BigData, divididas en horizontales (problemas comunes a una industria) y verticales (problemas específicos de un sector).
- La capa 7, la interfaz y los flujos, proporciona acceso bidireccional a todos los componentes de la estructura, a aplicaciones internas y a internet.
Computación Distribuida y Virtualización
-
La virtualización permite separar los recursos y servicios del entorno físico que los soporta, creando muchos sistemas virtuales dentro de un único sistema físico.
- Sus beneficios principales son:
- Mejora del rendimiento y eficiencia en el uso de recursos.
- Mejor control sobre el uso y el rendimiento de los recursos de la tecnología de información.
- Automatización y estandarización optimizando la TI.
-
Base para la computación en la nube.
- La gestión de la virtualización debe ser segura y eficiente.
- Las características principales de la virtualización son:
-
Particionamiento: separación de los recursos físicos disponibles.
- Aislamiento: si una máquina virtual falla, las demás y el sistema host no se ven afectados.
- Encapsulamiento: la máquina virtual se representa por un único archivo.
-
-
Los niveles de virtualización incluyen:
- Servidores
- Aplicaciones
- Red
- Procesadores y memoria
- Datos y almacenamiento
- Los retos de gestión y seguridad de la virtualización son:
- Demasiadas imágenes virtuales reducen el rendimiento y aumentan el coste.
- Incumplimiento de SLA (Service Level Agreement).
La Nube y BigData
- La computación en la nube permite el acceso compartido a recursos informáticos a través de internet.
- Los modelos de implementación se dividen en nubes privadas, públicas e híbridas.
- Los modelos de entrega son: - IAAS (Infrastructure as a service): alquiler de servicios informáticos. - PAAS (Platform as a service): combinación de IAAS con middleware (software que actúa como capa de traducción entre el sistema operativo y las aplicaciones). - SAAS (Software as a service). - DAAS (Data as a service): basado en SAAS.
- Las características de la nube fundamentales para BigData son:
- Escalabilidad: capacidad de pasar de pequeñas a grandes cantidades de potencia de procesamiento en una misma infraestructura.
- Elasticidad: capacidad de expandir o reducir la demanda de recursos según la necesidad.
- Los handicaps de los servicios en la nube son:
- Integridad de los datos.
- Normativas.
- Costes.
-
Transporte.
- Rendimiento.
- Accesso.
- Ubicación.
Bases de Datos Operacionales
- Las bases de datos relacionales se organizan en tablas con relaciones y se consultan con lenguaje SQL.
- Las bases de datos NO relacionales están diseñadas para grandes volúmenes de datos no estructurados. Ofrecen flexibilidad y escalabilidad.
- Tipos de bases de datos NO relacionales:
-
Pares clave-valor (KVP).
- Orientadas a documentos.
- Orientadas a columnas.
- Orientadas a grafos.
-
Fundamentos de MapReduce
-
MapReduce es un marco de software que permite procesar grandes cantidades de datos no estructurados en paralelo de forma distribuida.
- Un clúster es un grupo de servidores que se gestionan juntos y participan en la gestión de la carga de trabajo.
- Las razones para la distribución de trabajo en paralelo son:
- Procesamiento escalable automáticamente.
- Tolerancia a fallos de red o sistemas.
- Servicios fáciles de usar para desarrolladores.
- La función Map procesa listas de elementos de datos (claves y valor) y aplica una función a cada elemento para producir una nueva lista.
- La función Reduce utiliza la salida de la función Map y procesa cada elemento aplicando una operación específica para resumir o consolidar los datos.
- Los fundamentos de MapReduce incluyen:
- Planificación (Scheduling):
- los procesos Map deben terminar antes de poder realizar funciones Reduce
- las tareas Map se priorizan según la disponibilidad de nodos del clúster
- el procesamiento termina cuando todos los trabajos Reduce acaban
-
Sincronización: asegura que los datos intermedios se organicen y preparen para la reducción
- Distribución de código y datos: ubica datos y funciones en el mismo nodo para mayor eficiencia.
- Tolerancia a fallos: detecta errores y reasigna tareas fallidas a otros nodos.
- Planificación (Scheduling):
- La optimización de MapReduce se basa en:
-
Topología de hardware/red: hardware y redes rápidas, y un sistema de ficheros distribuido.
- Sincronización: mantener un nodo maestro redundante para asegurar la disponibilidad.
- Sistema de ficheros: preferir archivos grandes sobre archivos pequeños para reducir la complejidad.
-
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Este cuestionario explora los conceptos clave de BigData, incluyendo sus características, ciclo de gestión y arquitectura. Se examinan los tipos de datos, tanto estructurados como no estructurados, y las tecnologías utilizadas en su manejo. Ideal para aquellos que quieren entender la gestión de grandes volúmenes de datos.