Introducción a BigData
43 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

¿Qué característica no se menciona como parte de la definición de BigData?

  • Velocidad de generación de datos
  • Variedad de formatos extremadamente amplios
  • Costos de procesamiento bajos (correct)
  • Volumen de datos extremadamente grandes
  • ¿Cuál de las siguientes es una fase del ciclo de gestión del BigData?

  • Transfiriendo
  • Captura (correct)
  • Almacenamiento seguro
  • Prevención
  • ¿Qué tecnología se utiliza para ejecutar funciones contra grandes volúmenes de datos en modo batch?

  • SQL
  • Big Table
  • MapReduce (correct)
  • Hadoop
  • ¿Cuál de las siguientes afirmaciones es incorrecta sobre los datos estructurados?

    <p>No poseen un esquema definido</p> Signup and view all the answers

    ¿Qué tipo de datos se pueden consultar utilizando lenguaje SQL?

    <p>Datos estructurados</p> Signup and view all the answers

    ¿Qué componente de la arquitectura de Big Data se centra en la recolección y visualización de datos?

    <p>Operacional</p> Signup and view all the answers

    ¿Cuáles son las 4 V de Big Data según el contenido?

    <p>Volumen, Velocidad, Variedad, Veracidad</p> Signup and view all the answers

    ¿Cuál de las siguientes tecnologías permite la ejecución en agrupaciones de servidores utilizando MapReduce?

    <p>Hadoop</p> Signup and view all the answers

    ¿Qué tipo de datos son generados por máquinas según el contenido?

    <p>Sensores y registros web</p> Signup and view all the answers

    La gestión de BigData se facilitó por la reducción de los costos de qué aspecto?

    <p>Almacenamiento y procesamiento</p> Signup and view all the answers

    ¿Qué caracteriza a los datos no estructurados?

    <p>Son un 80% de la información generada.</p> Signup and view all the answers

    Cuál de las siguientes afirmaciones sobre la computación distribuida es correcta?

    <p>Cualquier nodo puede ser un dispositivo físico o virtual.</p> Signup and view all the answers

    ¿Qué describe mejor los datos semi-estructurados?

    <p>Son autodescriptivos mediante etiquetas y valores.</p> Signup and view all the answers

    ¿Cuál es una característica de la arquitectura Big Data?

    <p>Está diseñada para cumplir requisitos de gestión.</p> Signup and view all the answers

    ¿Qué es un nodo en el contexto de computación distribuida?

    <p>Un elemento dentro de un grupo de sistemas interconectados.</p> Signup and view all the answers

    ¿Cuál de las siguientes afirmaciones sobre la latencia es correcta?

    <p>Es el tiempo de retraso entre la acción y la respuesta.</p> Signup and view all the answers

    ¿Cuál es una de las funciones de la capa 0 en la arquitectura Big Data?

    <p>Ofrecer redundancia y resiliencia.</p> Signup and view all the answers

    ¿Qué implica la escalabilidad en un sistema de computación distribuida?

    <p>Se puede adaptar al crecimiento añadiendo recursos adicionales.</p> Signup and view all the answers

    ¿Cuál es una característica de los datos generados por humanos?

    <p>Incluirán redes sociales y dispositivos móviles.</p> Signup and view all the answers

    ¿Qué se entiende por redundancia en el contexto de infraestructura tecnológica?

    <p>Es la repetición de información que permite reconstruir contenido.</p> Signup and view all the answers

    ¿Cuál es una característica principal de las bases de datos orientadas a grafos?

    <p>Se centran en relaciones entre datos interconectados.</p> Signup and view all the answers

    ¿Qué proceso se asegura de que los datos intermedios se organicen antes de ser reducidos en MapReduce?

    <p>Sincronización.</p> Signup and view all the answers

    ¿Cuál es una ventaja de la base de datos orientada a columnas en comparación con la orientada a filas?

    <p>Mejor capacidad de escalabilidad.</p> Signup and view all the answers

    ¿Qué función en MapReduce se encarga de aplicar una operación específica para resumir datos?

    <p>Reduce.</p> Signup and view all the answers

    ¿Cuál es el objetivo de la tolerancia a fallos en un clúster de MapReduce?

    <p>Detectar errores y reasignar tareas automáticamente.</p> Signup and view all the answers

    ¿Qué tipo de bases de datos son ideales para manejar grandes volúmenes de datos no estructurados?

    <p>Bases de datos no relacionales.</p> Signup and view all the answers

    ¿Cuál de los siguientes es un concepto central en la planificación de MapReduce?

    <p>Los procesos Map deben completarse antes de que se inicien las funciones Reduce.</p> Signup and view all the answers

    ¿Qué ventaja ofrece una base de datos orientada a documentos?

    <p>Facilita la producción dinámica de informes.</p> Signup and view all the answers

    ¿Qué tipo de arquitectura se utiliza para realizar procesamiento paralelo en grandes volúmenes de datos en MapReduce?

    <p>Clúster de servidores.</p> Signup and view all the answers

    ¿Cuál es una de las claves para la optimización de MapReduce?

    <p>Contar con hardware y redes rápidas.</p> Signup and view all the answers

    ¿Cuál es el término que se refiere a la propiedad de una base de datos en la que, si alguna parte de la transacción falla, toda la transacción también falla?

    <p>Atomicidad</p> Signup and view all the answers

    ¿Cuál de las siguientes características NO es una ventaja de la virtualización?

    <p>Incremento de la latencia.</p> Signup and view all the answers

    En el contexto de Big Data, ¿cuál es la principal función de las herramientas de ETL?

    <p>Extraer, transformar y cargar datos.</p> Signup and view all the answers

    ¿Qué modelo de implementación de la nube proporciona mayor seguridad y control, pero a un costo más elevado?

    <p>Nube privada</p> Signup and view all the answers

    ¿Cuál de las siguientes propiedades de ACID se refiere a la capacidad de que solo se realicen transacciones con datos válidos?

    <p>Consistencia</p> Signup and view all the answers

    ¿Qué tipo de aplicaciones Big Data se enfocan en resolver problemas específicos dentro de un sector?

    <p>Aplicaciones verticales</p> Signup and view all the answers

    ¿Qué característica de la nube permite pasar rápidamente de una pequeña a una gran cantidad de recursos de procesamiento?

    <p>Escalabilidad</p> Signup and view all the answers

    ¿Cuál es uno de los retos de la gestión de la virtualización?

    <p>Demasiadas imágenes virtuales pueden disminuir el rendimiento.</p> Signup and view all the answers

    ¿Qué propiedad de la nube se refiere a la capacidad de expandir o reducir la demanda de recursos según sea necesario?

    <p>Elasticidad</p> Signup and view all the answers

    ¿Cuál no es un tipo de modelo de entrega en la nube?

    <p>Middleware como servicio</p> Signup and view all the answers

    ¿Cuál de las siguientes opciones describe mejor un sistema de archivos distribuido?

    <p>Capacidad de almacenar datos en diferentes máquinas.</p> Signup and view all the answers

    ¿Qué no forma parte de los requisitos para el desarrollo de aplicaciones Big Data?

    <p>Interfaz gráfica de usuario</p> Signup and view all the answers

    ¿Qué se entiende por 'data marts' en el contexto de almacenes de datos?

    <p>Subsistemas destinados a áreas específicas de negocio.</p> Signup and view all the answers

    Study Notes

    Introducción a BigData

    • BigData se encarga de manejar grandes cantidades de datos heterogéneos a alta velocidad para análisis en tiempo real.
      
    • Sus características principales son volumen, velocidad, variedad y veracidad.
      
    • Su evolución se ha dado a través de la creación de estructuras manejables en archivos planos y bases de datos relacionales.
      
    • El ciclo de gestión del BigData abarca captura, organización, integración, análisis y acción.
      
    • Su arquitectura se divide en dos partes: funcional (gestión de datos en tiempo real y seguridad) y operacional (recolección, almacenamiento, análisis, visualización y aplicaciones Big Data).
      
    • Las soluciones tecnológicas para BigData incluyen MapReduce, Big Table y Hadoop.

    Tipos de BigData

    • Los datos estructurados tienen longitud y formato definidos, se consultan con lenguaje SQL y son proporcionados por máquinas y humanos.
    • Los datos no estructurados carecen de formato y representan el 80% de la información.
    • Los datos semi-estructurados no se ajustan a un esquema fijo y son autodescriptivos.

    Computación Distribuida

    • Permite conectar ordenadores individuales repartidos geográficamente como si estuvieran en un único entorno.
    • Sus aspectos clave son:
      • La necesidad de recursos adicionales para procesamiento.
      • Los avances y abaratamiento del hardware y la potencia del software.
        
      • La capacidad de aprovechar la computación distribuida y las técnicas de procesamiento paralelo.
      • La latencia, o retraso en la respuesta del sistema.
      • Un nodo es un elemento dentro de un grupo de sistemas que incluye CPU, memoria y disco. 
        
      • La escalabilidad, que permite la adaptación al crecimiento al agregar más nodos.
        

    Componentes Tecnológicos

    • La arquitectura BigData se diseña para afrontar los requisitos fundamentales del ciclo de gestión.
    • Sus componentes son: - Hardware - Software de infraestructura - Software operativo - Software de gestión - API (Interfaces de programación de aplicaciones)
    • La capa 0, la base de la arquitectura, se compone de la infraestructura física redundante, que asegura disponibilidad, escalabilidad, flexibilidad y resiliencia frente a fallos.
    • La capa 1, encargada de la seguridad, controla el acceso a los datos y aplicaciones, incluyendo cifrado y detección de amenazas.
    • La capa 2 se compone de bases de datos operacionales, que deben ser rápidas, escalables y sólidas.
    • La capa 3 se encarga de las herramientas y organización de los servicios de datos, incluyendo sistemas de archivos distribuidos, servicios de serialización, servicios de coordinación y herramientas ETL (Extracción, Transformación y Carga).
    • La capa 4 se compone de almacenes de datos analíticos y data marts, que contienen datos normalizados de diferentes fuentes.
    • La capa 5 se encarga de las analíticas BigData, con herramientas y algoritmos para gestionar grandes volúmenes de datos en diferentes formatos y en tiempo real.
    • La capa 6 está compuesta por las aplicaciones BigData, divididas en horizontales (problemas comunes a una industria) y verticales (problemas específicos de un sector).
    • La capa 7, la interfaz y los flujos, proporciona acceso bidireccional a todos los componentes de la estructura, a aplicaciones internas y a internet.

    Computación Distribuida y Virtualización

    • La virtualización permite separar los recursos y servicios del entorno físico que los soporta, creando muchos sistemas virtuales dentro de un único sistema físico. 
      
    • Sus beneficios principales son:
      • Mejora del rendimiento y eficiencia en el uso de recursos.
      • Mejor control sobre el uso y el rendimiento de los recursos de la tecnología de información.
      • Automatización y estandarización optimizando la TI.
      • Base para la computación en la nube.
        
    • La gestión de la virtualización debe ser segura y eficiente.
    • Las características principales de la virtualización son:
      • Particionamiento: separación de los recursos físicos disponibles.
        
      • Aislamiento: si una máquina virtual falla, las demás y el sistema host no se ven afectados.
      • Encapsulamiento: la máquina virtual se representa por un único archivo.
    • Los niveles de virtualización incluyen:
      
      • Servidores
      • Aplicaciones
      • Red
      • Procesadores y memoria
      • Datos y almacenamiento
    • Los retos de gestión y seguridad de la virtualización son:
      • Demasiadas imágenes virtuales reducen el rendimiento y aumentan el coste.
      • Incumplimiento de SLA (Service Level Agreement).

    La Nube y BigData

    • La computación en la nube permite el acceso compartido a recursos informáticos a través de internet.
    • Los modelos de implementación se dividen en nubes privadas, públicas e híbridas.
    • Los modelos de entrega son: - IAAS (Infrastructure as a service): alquiler de servicios informáticos. - PAAS (Platform as a service): combinación de IAAS con middleware (software que actúa como capa de traducción entre el sistema operativo y las aplicaciones). - SAAS (Software as a service). - DAAS (Data as a service): basado en SAAS.
    • Las características de la nube fundamentales para BigData son:
      • Escalabilidad: capacidad de pasar de pequeñas a grandes cantidades de potencia de procesamiento en una misma infraestructura.
      • Elasticidad: capacidad de expandir o reducir la demanda de recursos según la necesidad.
    • Los handicaps de los servicios en la nube son:
      • Integridad de los datos.
      • Normativas.
      • Costes.
      • Transporte.
        
      • Rendimiento.
      • Accesso.
      • Ubicación.

    Bases de Datos Operacionales

    • Las bases de datos relacionales se organizan en tablas con relaciones y se consultan con lenguaje SQL.
    • Las bases de datos NO relacionales están diseñadas para grandes volúmenes de datos no estructurados. Ofrecen flexibilidad y escalabilidad.
    • Tipos de bases de datos NO relacionales:
      • Pares clave-valor (KVP).
        
      • Orientadas a documentos.
      • Orientadas a columnas.
      • Orientadas a grafos.

    Fundamentos de MapReduce

    •  MapReduce es un marco de software que permite procesar grandes cantidades de datos no estructurados en paralelo de forma distribuida.
      
    • Un clúster es un grupo de servidores que se gestionan juntos y participan en la gestión de la carga de trabajo.
    • Las razones para la distribución de trabajo en paralelo son:
      • Procesamiento escalable automáticamente.
      • Tolerancia a fallos de red o sistemas.
      • Servicios fáciles de usar para desarrolladores.
    • La función Map procesa listas de elementos de datos (claves y valor) y aplica una función a cada elemento para producir una nueva lista.
    • La función Reduce utiliza la salida de la función Map y procesa cada elemento aplicando una operación específica para resumir o consolidar los datos.
    • Los fundamentos de MapReduce incluyen:
      • Planificación (Scheduling):
        • los procesos Map deben terminar antes de poder realizar funciones Reduce
        • las tareas Map se priorizan según la disponibilidad de nodos del clúster
        • el procesamiento termina cuando todos los trabajos Reduce acaban
      • Sincronización: asegura que los datos intermedios se organicen y preparen para la reducción
        
      • Distribución de código y datos: ubica datos y funciones en el mismo nodo para mayor eficiencia.
      • Tolerancia a fallos: detecta errores y reasigna tareas fallidas a otros nodos.
    • La optimización de MapReduce se basa en:
      • Topología de hardware/red: hardware y redes rápidas, y un sistema de ficheros distribuido.
        
      • Sincronización: mantener un nodo maestro redundante para asegurar la disponibilidad.
      • Sistema de ficheros: preferir archivos grandes sobre archivos pequeños para reducir la complejidad.

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Related Documents

    Description

    Este cuestionario explora los conceptos clave de BigData, incluyendo sus características, ciclo de gestión y arquitectura. Se examinan los tipos de datos, tanto estructurados como no estructurados, y las tecnologías utilizadas en su manejo. Ideal para aquellos que quieren entender la gestión de grandes volúmenes de datos.

    More Like This

    Use Quizgecko on...
    Browser
    Browser