Big D Quiz

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

¿Cuál de los siguientes NO es un objetivo principal al estudiar las tecnologías big data?

  • Comprender el concepto de *clúster* de ordenadores y las principales tecnologías distribuidas
  • Identificar las necesidades actuales de procesamiento de datos y cómo se resuelven con _big data_
  • Conocer las herramientas del ecosistema Hadoop y cómo se relacionan
  • Memorizar la fecha de lanzamiento de cada distribución de Hadoop (correct)

Según el contenido, ¿qué porcentaje aproximado de los datos existentes se ha creado en los últimos dos años?

  • 90% (correct)
  • 20%
  • 99%
  • 50%

¿Cuál de los siguientes describe mejor el tipo de datos generados por la interacción entre humanos a través de sistemas informáticos, como redes sociales?

  • Datos cifrados para garantizar la privacidad del usuario
  • Principalmente datos estructurados, procesados directamente por el sistema
  • Principalmente datos no estructurados, procesados posteriormente por máquinas (correct)
  • Datos semiestructurados, adecuados para análisis en tiempo real

¿Cuál de los siguientes NO describe cómo la transformación digital impacta a las empresas?

<p>Las empresas deben minimizar la recopilación y el análisis de datos para proteger la privacidad (D)</p> Signup and view all the answers

¿Qué característica es esencial para que un proyecto se considere big data, según las 'tres V'?

<p>Cualquiera de las anteriores (B)</p> Signup and view all the answers

¿Cuál de las siguientes afirmaciones define mejor el concepto de tecnologías big data?

<p>Conjunto de tecnologías y arquitecturas para el manejo de datos imposibles de procesar con herramientas tradicionales (B)</p> Signup and view all the answers

¿Cuál fue la motivación principal para el desarrollo de Google File System (GFS)?

<p>Gestionar archivos que excedían la capacidad de un solo disco duro. (D)</p> Signup and view all the answers

¿Qué significa el término 'commodity hardware' en el contexto de las tecnologías big data?

<p>Máquinas convencionales y económicas que pueden conectarse en un clúster. (B)</p> Signup and view all the answers

¿Cuál fue la contribución clave de MapReduce al procesamiento de big data?

<p>Simplificó la programación paralela en <em>clústeres</em> de ordenadores. (D)</p> Signup and view all the answers

¿Qué motivó la creación de Apache Spark como alternativa a MapReduce?

<p>Las deficiencias de Hadoop en ciertas tareas de procesamiento. (B)</p> Signup and view all the answers

Dentro del ecosistema Hadoop, ¿cuál es la función principal de HDFS?

<p>Almacenar datos de forma distribuida en un <em>clúster</em>. (A)</p> Signup and view all the answers

¿Cuál de las siguientes herramientas del ecosistema Hadoop permite el acceso a datos almacenados en HDFS mediante sintaxis SQL?

<p>Hive (C)</p> Signup and view all the answers

¿Qué rol desempeña Apache Kafka en el contexto de las tecnologı́as big data?

<p>Gestión de flujos de datos en tiempo real a través de una cola de mensajes distribuida. (A)</p> Signup and view all the answers

¿Cuál es la principal ventaja de utilizar distribuciones de Hadoop como Cloudera o Hortonworks?

<p>Reducción de la complejidad en la instalación y configuración del ecosistema Hadoop. (A)</p> Signup and view all the answers

Este es dificil. Si tuvieras que diseñar una solución big data que involucra el análisis de sentimiento en tiempo real de tweets (mensajes de Twitter) y la correlación con datos de ventas de una tienda en línea, ¿cuál de los siguientes componentes sería MENOS crítico en tu arquitectura?

<p>Sqoop para la importación masiva de datos desde bases de datos relacionales existentes (A)</p> Signup and view all the answers

Flashcards

¿Qué es el Volumen en Big Data?

Grandes cantidades de datos que no pueden ser procesadas con tecnologías tradicionales.

¿Qué es la Velocidad en Big Data?

Flujos de datos que llegan en tiempo real y necesitan ser procesados continuamente.

¿Qué es la Variedad en Big Data?

Datos de diversas fuentes, tanto estructurados como no estructurados, que deben ser manejados conjuntamente.

¿Qué es un proyecto Big Data?

Un proyecto que requiere tecnologías big data para ser resuelto de manera eficiente.

Signup and view all the flashcards

¿Qué es el ecosistema Hadoop?

Conjunto de herramientas de código abierto para procesamiento distribuido de grandes volúmenes de datos.

Signup and view all the flashcards

¿Qué es HDFS?

Sistema de archivos distribuido que permite distribuir datos entre nodos, gestionando la redundancia.

Signup and view all the flashcards

¿Qué es Apache Hive?

Herramienta para acceder a datos estructurados mediante sintaxis SQL en sistemas de archivos distribuidos.

Signup and view all the flashcards

¿Qué es Apache Spark?

Motor de procesamiento distribuido y bibliotecas de programación que opera en memoria principal (RAM).

Signup and view all the flashcards

¿Qué es Apache Kafka?

Plataforma para manejo de eventos en tiempo real mediante una cola de mensajes distribuida.

Signup and view all the flashcards

¿Qué son las distribuciones de Hadoop?

Conjuntos de herramientas del ecosistema Hadoop empaquetadas para facilitar su instalación.

Signup and view all the flashcards

¿Qué es 'commodity hardware'?

Máquinas estándar que se pueden interconectar para resolver tareas complejas.

Signup and view all the flashcards

¿Qué es MapReduce?

Modelo de programación para procesar en paralelo archivos en un clúster de ordenadores.

Signup and view all the flashcards

¿Qué es Oozie?

Herramienta para planificar y ejecutar flujos de datos.

Signup and view all the flashcards

¿Qué es Pig?

Herramienta para programar flujos de datos con sintaxis similar a SQL.

Signup and view all the flashcards

¿Qué es Sqoop?

Herramienta para migrar grandes cantidades de datos desde bases de datos convencionales a HDFS.

Signup and view all the flashcards

Study Notes

Introducción a las tecnologías big data

  • El objetivo es comprender las necesidades actuales de procesamiento de datos y cómo las tecnologías Big Data las abordan.
  • Se busca entender el concepto de clúster de ordenadores y las tecnologías distribuidas capaces de explotarlo.
  • Otro objetivo es conocer las principales herramientas del ecosistema Hadoop y cómo se relacionan.

La sociedad interconectada: la era del cliente

  • Las tecnologías Big Data responden a las nuevas necesidades de la sociedad actual interconectada.
  • El 90% de toda la información existente ha sido creada en los últimos dos años.
  • El crecimiento de la información producida es exponencial.
  • Aproximadamente el 80% de los datos son generados por personas y suelen ser no estructurados, como texto libre o contenido multimedia.
  • El 20% restante son datos estructurados generados por máquinas (sensores, IoT).

Tipos de situaciones que generan datos

  • La interacción entre humanos a través de sistemas informáticos genera datos no estructurados, como correos electrónicos y actividad en redes sociales.
  • La interacción entre humanos y máquinas, como la navegación en Internet, genera logs con información que tiende a ser estructurada o semiestructurada.
  • La interacción entre máquinas, como los sistemas de monitorización, genera información estructurada que es procesada por otras máquinas.

La transformación digital en relación con los datos

  • Uber es la empresa que transporta a más personas en el mundo, pero no posee coches físicos.
  • Airbnb es la empresa con más reservas de habitaciones, sin poseer hoteles físicos.
  • Spotify lidera las ventas de música sin tener estudios de grabación, mientras que Netflix vende más películas sin tener estudios.
  • La transformación digital busca centrarse en el cliente y mejorar su experiencia, lo que requiere analizar grandes cantidades de datos sobre su comportamiento.
  • Se centra en canales digitales, sobre todo dispositivos móviles, que generan más datos.
  • Las decisiones deben estar guiadas por datos (data-driven), lo que requiere de la ciencia de datos (big data science).

Definición de las tecnologías Big Data

  • Las tecnologías existentes hasta principios del siglo XXI eran insuficientes para procesar, almacenar y analizar datos con ciertas características.
  • Las tres "V" del big data son Volumen, Velocidad y Variedad.
  • Volumen se refiere a cantidades de datos muy grandes que no pueden ser procesadas con tecnologías tradicionales.
  • Velocidad alude a flujos de datos en tiempo real que deben ser procesados de manera continua.
  • Variedad incluye datos de fuentes diversas, estructuradas y no estructuradas.
  • Big Data es el conjunto de tecnologías y arquitecturas para almacenar, mover, acceder y procesar datos que serían muy difíciles o imposibles de manejar con tecnologías tradicionales.

Causas de la imposibilidad de manejo tradicional

  • Cantidades ingentes de datos que antes eran inimaginables.
  • Datos heterogéneos y poco estructurados, como documentos, imágenes o sonido, que requieren almacenamiento y consulta (NoSQL).
  • Datos dinámicos, recibidos y procesados según llegan (flujos de datos o streams).
  • Big Data permite aplicar técnicas ya existentes a datos masivos, pero son herramientas tecnológicas, no las técnicas en sí mismas.

Origen de las tecnologías Big Data

  • Google fue la primera empresa consciente del aumento de datos en Internet y la necesidad de indexar las webs.
  • Sanjay Ghemawat, Howard Gobioff y Shun-Tak Leung publicaron en 2003 un artículo sobre el sistema de archivos distribuido Google File System (GFS).
  • Los autores plantearon la idea de usar ordenadores convencionales conectados (clúster) para almacenar archivos grandes.
  • Se denomina commodity hardware a máquinas no muy potentes, similares a las domésticas, que se conectan para trabajar conjuntamente.
  • GFS sirvió de base para el sistema de archivos distribuido HDFS.
  • En 2004, Jeffrey Dean y Sanjay Ghemawat publicaron sobre MapReduce, un modelo de programación para procesar en paralelo archivos almacenados en GFS.
  • MapReduce simplifica los detalles de hardware, redes y comunicación en el clúster.

Ecosistema Hadoop

  • La idea básica es procesar grandes cantidades de datos de forma distribuida entre máquinas interconectadas (clúster), sin necesidad de que cada una sea muy potente (commodity hardware).
  • Al paradigma MapReduce le siguió Hadoop que se transformó en HDFS.
  • Se creó un conjunto de herramientas open source para procesamiento distribuido, todas interoperables entre sí, llamado el ecosistema Hadoop.
  • HDFS: sistema de archivos distribuido.
  • MapReduce: paradigma de programación para clústeres de ordenadores.
  • Flume: Herramienta para tratamiento de logs.
  • Sqoop: Herramienta para migración de grandes cantidades de datos desde bases de datos convencionales a HDFS.
  • Zookeeper: coordinador.
  • Oozie: herramienta para planificación y ejecución de flujos de datos.
  • Pig: herramienta para programar flujos de datos con una sintaxis similar a SQL, pero con mayor nivel de granularidad.
  • Mahout: biblioteca de algoritmos de machine learning.
  • R Connectors: herramientas para conectar MapReduce con el lenguaje de programación R.
  • Hive: herramienta para manejar datos almacenados en HDFS utilizando SQL.
  • HBase: base de datos NoSQL de tipo columnar.

Apache Hadoop Ecosystem

  • HDFS (Hadoop Distributed File System) es un sistema de archivos distribuido inspirado en el GFS de Google, que permite distribuir los datos entre los nodos, gestionando la redundancia.
  • Apache Hive permite el acceso mediante sintaxis SQL a datos estructurados almacenados en un sistema de archivos distribuido como HDFS.
  • Apache Spark es un motor de procesamiento distribuido y librerías con bibliotecas de propósito general, que opera en memoria principal y ha reemplazado a MapReduce.
  • Apache Kafka es una plataforma para manejo de eventos en tiempo real, con una cola de mensajes distribuida y escalable sobre un clúster.
  • Distribuciones de Hadoop: Son conjuntos de herramientas del ecosistema Hadoop empaquetadas juntas en versiones compatibles con un único software.
  • Cloudera, Hortonworks y MapR crean distribuciones de Hadoop a las que añaden herramientas propias para solucionar fallos o añadir características.
  • Todas las distribuciones de Hadoop tienen versiones open source y de pago.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

More Like This

1 Big Data
10 questions
Introduction à Apache Hadoop
39 questions

Introduction à Apache Hadoop

InspiringUnicorn8914 avatar
InspiringUnicorn8914
1 Big D Sum
15 questions
Use Quizgecko on...
Browser
Browser