Podcast
Questions and Answers
¿Cuál de los siguientes NO es un objetivo principal al estudiar las tecnologías big data?
¿Cuál de los siguientes NO es un objetivo principal al estudiar las tecnologías big data?
- Comprender el concepto de *clúster* de ordenadores y las principales tecnologías distribuidas
- Identificar las necesidades actuales de procesamiento de datos y cómo se resuelven con _big data_
- Conocer las herramientas del ecosistema Hadoop y cómo se relacionan
- Memorizar la fecha de lanzamiento de cada distribución de Hadoop (correct)
Según el contenido, ¿qué porcentaje aproximado de los datos existentes se ha creado en los últimos dos años?
Según el contenido, ¿qué porcentaje aproximado de los datos existentes se ha creado en los últimos dos años?
- 90% (correct)
- 20%
- 99%
- 50%
¿Cuál de los siguientes describe mejor el tipo de datos generados por la interacción entre humanos a través de sistemas informáticos, como redes sociales?
¿Cuál de los siguientes describe mejor el tipo de datos generados por la interacción entre humanos a través de sistemas informáticos, como redes sociales?
- Datos cifrados para garantizar la privacidad del usuario
- Principalmente datos estructurados, procesados directamente por el sistema
- Principalmente datos no estructurados, procesados posteriormente por máquinas (correct)
- Datos semiestructurados, adecuados para análisis en tiempo real
¿Cuál de los siguientes NO describe cómo la transformación digital impacta a las empresas?
¿Cuál de los siguientes NO describe cómo la transformación digital impacta a las empresas?
¿Qué característica es esencial para que un proyecto se considere big data, según las 'tres V'?
¿Qué característica es esencial para que un proyecto se considere big data, según las 'tres V'?
¿Cuál de las siguientes afirmaciones define mejor el concepto de tecnologías big data?
¿Cuál de las siguientes afirmaciones define mejor el concepto de tecnologías big data?
¿Cuál fue la motivación principal para el desarrollo de Google File System (GFS)?
¿Cuál fue la motivación principal para el desarrollo de Google File System (GFS)?
¿Qué significa el término 'commodity hardware' en el contexto de las tecnologías big data?
¿Qué significa el término 'commodity hardware' en el contexto de las tecnologías big data?
¿Cuál fue la contribución clave de MapReduce al procesamiento de big data?
¿Cuál fue la contribución clave de MapReduce al procesamiento de big data?
¿Qué motivó la creación de Apache Spark como alternativa a MapReduce?
¿Qué motivó la creación de Apache Spark como alternativa a MapReduce?
Dentro del ecosistema Hadoop, ¿cuál es la función principal de HDFS?
Dentro del ecosistema Hadoop, ¿cuál es la función principal de HDFS?
¿Cuál de las siguientes herramientas del ecosistema Hadoop permite el acceso a datos almacenados en HDFS mediante sintaxis SQL?
¿Cuál de las siguientes herramientas del ecosistema Hadoop permite el acceso a datos almacenados en HDFS mediante sintaxis SQL?
¿Qué rol desempeña Apache Kafka en el contexto de las tecnologı́as big data?
¿Qué rol desempeña Apache Kafka en el contexto de las tecnologı́as big data?
¿Cuál es la principal ventaja de utilizar distribuciones de Hadoop como Cloudera o Hortonworks?
¿Cuál es la principal ventaja de utilizar distribuciones de Hadoop como Cloudera o Hortonworks?
Este es dificil. Si tuvieras que diseñar una solución big data que involucra el análisis de sentimiento en tiempo real de tweets (mensajes de Twitter) y la correlación con datos de ventas de una tienda en línea, ¿cuál de los siguientes componentes sería MENOS crítico en tu arquitectura?
Este es dificil. Si tuvieras que diseñar una solución big data que involucra el análisis de sentimiento en tiempo real de tweets (mensajes de Twitter) y la correlación con datos de ventas de una tienda en línea, ¿cuál de los siguientes componentes sería MENOS crítico en tu arquitectura?
Flashcards
¿Qué es el Volumen en Big Data?
¿Qué es el Volumen en Big Data?
Grandes cantidades de datos que no pueden ser procesadas con tecnologías tradicionales.
¿Qué es la Velocidad en Big Data?
¿Qué es la Velocidad en Big Data?
Flujos de datos que llegan en tiempo real y necesitan ser procesados continuamente.
¿Qué es la Variedad en Big Data?
¿Qué es la Variedad en Big Data?
Datos de diversas fuentes, tanto estructurados como no estructurados, que deben ser manejados conjuntamente.
¿Qué es un proyecto Big Data?
¿Qué es un proyecto Big Data?
Signup and view all the flashcards
¿Qué es el ecosistema Hadoop?
¿Qué es el ecosistema Hadoop?
Signup and view all the flashcards
¿Qué es HDFS?
¿Qué es HDFS?
Signup and view all the flashcards
¿Qué es Apache Hive?
¿Qué es Apache Hive?
Signup and view all the flashcards
¿Qué es Apache Spark?
¿Qué es Apache Spark?
Signup and view all the flashcards
¿Qué es Apache Kafka?
¿Qué es Apache Kafka?
Signup and view all the flashcards
¿Qué son las distribuciones de Hadoop?
¿Qué son las distribuciones de Hadoop?
Signup and view all the flashcards
¿Qué es 'commodity hardware'?
¿Qué es 'commodity hardware'?
Signup and view all the flashcards
¿Qué es MapReduce?
¿Qué es MapReduce?
Signup and view all the flashcards
¿Qué es Oozie?
¿Qué es Oozie?
Signup and view all the flashcards
¿Qué es Pig?
¿Qué es Pig?
Signup and view all the flashcards
¿Qué es Sqoop?
¿Qué es Sqoop?
Signup and view all the flashcards
Study Notes
Introducción a las tecnologías big data
- El objetivo es comprender las necesidades actuales de procesamiento de datos y cómo las tecnologías Big Data las abordan.
- Se busca entender el concepto de clúster de ordenadores y las tecnologías distribuidas capaces de explotarlo.
- Otro objetivo es conocer las principales herramientas del ecosistema Hadoop y cómo se relacionan.
La sociedad interconectada: la era del cliente
- Las tecnologías Big Data responden a las nuevas necesidades de la sociedad actual interconectada.
- El 90% de toda la información existente ha sido creada en los últimos dos años.
- El crecimiento de la información producida es exponencial.
- Aproximadamente el 80% de los datos son generados por personas y suelen ser no estructurados, como texto libre o contenido multimedia.
- El 20% restante son datos estructurados generados por máquinas (sensores, IoT).
Tipos de situaciones que generan datos
- La interacción entre humanos a través de sistemas informáticos genera datos no estructurados, como correos electrónicos y actividad en redes sociales.
- La interacción entre humanos y máquinas, como la navegación en Internet, genera logs con información que tiende a ser estructurada o semiestructurada.
- La interacción entre máquinas, como los sistemas de monitorización, genera información estructurada que es procesada por otras máquinas.
La transformación digital en relación con los datos
- Uber es la empresa que transporta a más personas en el mundo, pero no posee coches físicos.
- Airbnb es la empresa con más reservas de habitaciones, sin poseer hoteles físicos.
- Spotify lidera las ventas de música sin tener estudios de grabación, mientras que Netflix vende más películas sin tener estudios.
- La transformación digital busca centrarse en el cliente y mejorar su experiencia, lo que requiere analizar grandes cantidades de datos sobre su comportamiento.
- Se centra en canales digitales, sobre todo dispositivos móviles, que generan más datos.
- Las decisiones deben estar guiadas por datos (data-driven), lo que requiere de la ciencia de datos (big data science).
Definición de las tecnologías Big Data
- Las tecnologías existentes hasta principios del siglo XXI eran insuficientes para procesar, almacenar y analizar datos con ciertas características.
- Las tres "V" del big data son Volumen, Velocidad y Variedad.
- Volumen se refiere a cantidades de datos muy grandes que no pueden ser procesadas con tecnologías tradicionales.
- Velocidad alude a flujos de datos en tiempo real que deben ser procesados de manera continua.
- Variedad incluye datos de fuentes diversas, estructuradas y no estructuradas.
- Big Data es el conjunto de tecnologías y arquitecturas para almacenar, mover, acceder y procesar datos que serían muy difíciles o imposibles de manejar con tecnologías tradicionales.
Causas de la imposibilidad de manejo tradicional
- Cantidades ingentes de datos que antes eran inimaginables.
- Datos heterogéneos y poco estructurados, como documentos, imágenes o sonido, que requieren almacenamiento y consulta (NoSQL).
- Datos dinámicos, recibidos y procesados según llegan (flujos de datos o streams).
- Big Data permite aplicar técnicas ya existentes a datos masivos, pero son herramientas tecnológicas, no las técnicas en sí mismas.
Origen de las tecnologías Big Data
- Google fue la primera empresa consciente del aumento de datos en Internet y la necesidad de indexar las webs.
- Sanjay Ghemawat, Howard Gobioff y Shun-Tak Leung publicaron en 2003 un artículo sobre el sistema de archivos distribuido Google File System (GFS).
- Los autores plantearon la idea de usar ordenadores convencionales conectados (clúster) para almacenar archivos grandes.
- Se denomina commodity hardware a máquinas no muy potentes, similares a las domésticas, que se conectan para trabajar conjuntamente.
- GFS sirvió de base para el sistema de archivos distribuido HDFS.
- En 2004, Jeffrey Dean y Sanjay Ghemawat publicaron sobre MapReduce, un modelo de programación para procesar en paralelo archivos almacenados en GFS.
- MapReduce simplifica los detalles de hardware, redes y comunicación en el clúster.
Ecosistema Hadoop
- La idea básica es procesar grandes cantidades de datos de forma distribuida entre máquinas interconectadas (clúster), sin necesidad de que cada una sea muy potente (commodity hardware).
- Al paradigma MapReduce le siguió Hadoop que se transformó en HDFS.
- Se creó un conjunto de herramientas open source para procesamiento distribuido, todas interoperables entre sí, llamado el ecosistema Hadoop.
- HDFS: sistema de archivos distribuido.
- MapReduce: paradigma de programación para clústeres de ordenadores.
- Flume: Herramienta para tratamiento de logs.
- Sqoop: Herramienta para migración de grandes cantidades de datos desde bases de datos convencionales a HDFS.
- Zookeeper: coordinador.
- Oozie: herramienta para planificación y ejecución de flujos de datos.
- Pig: herramienta para programar flujos de datos con una sintaxis similar a SQL, pero con mayor nivel de granularidad.
- Mahout: biblioteca de algoritmos de machine learning.
- R Connectors: herramientas para conectar MapReduce con el lenguaje de programación R.
- Hive: herramienta para manejar datos almacenados en HDFS utilizando SQL.
- HBase: base de datos NoSQL de tipo columnar.
Apache Hadoop Ecosystem
- HDFS (Hadoop Distributed File System) es un sistema de archivos distribuido inspirado en el GFS de Google, que permite distribuir los datos entre los nodos, gestionando la redundancia.
- Apache Hive permite el acceso mediante sintaxis SQL a datos estructurados almacenados en un sistema de archivos distribuido como HDFS.
- Apache Spark es un motor de procesamiento distribuido y librerías con bibliotecas de propósito general, que opera en memoria principal y ha reemplazado a MapReduce.
- Apache Kafka es una plataforma para manejo de eventos en tiempo real, con una cola de mensajes distribuida y escalable sobre un clúster.
- Distribuciones de Hadoop: Son conjuntos de herramientas del ecosistema Hadoop empaquetadas juntas en versiones compatibles con un único software.
- Cloudera, Hortonworks y MapR crean distribuciones de Hadoop a las que añaden herramientas propias para solucionar fallos o añadir características.
- Todas las distribuciones de Hadoop tienen versiones open source y de pago.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.