Podcast
Questions and Answers
¿Cuál de las siguientes opciones describe mejor el propósito principal de las tecnologías big data?
¿Cuál de las siguientes opciones describe mejor el propósito principal de las tecnologías big data?
- Gestionar y analizar datos con características que dificultan su procesamiento con tecnologías tradicionales. (correct)
- Optimizar la velocidad de procesamiento de datos numéricos.
- Crear copias de seguridad de grandes volúmenes de información.
- Sistematizar información estructurada.
¿Qué característica distingue a un proyecto big data según la definición proporcionada?
¿Qué característica distingue a un proyecto big data según la definición proporcionada?
- Su mejor solución implica el uso de tecnologías _big data_ debido a su eficiencia y sencillez. (correct)
- Implica el uso de algoritmos complejos de inteligencia artificial.
- Requiere el uso exclusivo de bases de datos NoSQL.
- Se enfoca en el análisis de datos generados por máquinas.
¿Cuál de las siguientes opciones representa una causa principal por la cual las tecnologías tradicionales pueden ser insuficientes para manejar ciertos datos?
¿Cuál de las siguientes opciones representa una causa principal por la cual las tecnologías tradicionales pueden ser insuficientes para manejar ciertos datos?
- La falta de capacidad para indexar contenido multimedia.
- La dificultad para aplicar técnicas estadísticas a los datos.
- La incapacidad de conectarse a redes de alta velocidad.
- La necesidad de gestionar datos dinámicos que se reciben y procesan continuamente. (correct)
¿Cuál fue la contribución principal de Google en los orígenes de las tecnologías big data?
¿Cuál fue la contribución principal de Google en los orígenes de las tecnologías big data?
¿Qué ventaja ofrecía MapReduce en el contexto de los clusters de ordenadores?
¿Qué ventaja ofrecía MapReduce en el contexto de los clusters de ordenadores?
¿Cuál es la función principal de HDFS (Hadoop Distributed File System) dentro del ecosistema Hadoop?
¿Cuál es la función principal de HDFS (Hadoop Distributed File System) dentro del ecosistema Hadoop?
¿Cuál es el propósito principal de Apache Kafka en el contexto de las tecnologías big data?
¿Cuál es el propósito principal de Apache Kafka en el contexto de las tecnologías big data?
¿Qué rol juega Apache Hive en el ecosistema Hadoop?
¿Qué rol juega Apache Hive en el ecosistema Hadoop?
¿Cuál es la característica principal de Apache Spark que lo diferencia de MapReduce?
¿Cuál es la característica principal de Apache Spark que lo diferencia de MapReduce?
¿Qué propósito tenían las distribuciones de Hadoop como Cloudera y Hortonworks?
¿Qué propósito tenían las distribuciones de Hadoop como Cloudera y Hortonworks?
En el contexto de la evolución de las tecnologías para el análisis de datos, ¿qué representa la frase 'Decisiones guiadas por los datos' (data-driven)?
En el contexto de la evolución de las tecnologías para el análisis de datos, ¿qué representa la frase 'Decisiones guiadas por los datos' (data-driven)?
¿Cómo han cambiado las interacciones digitales entre personas y compañías, y qué impacto tiene este cambio en las tecnologías big data?
¿Cómo han cambiado las interacciones digitales entre personas y compañías, y qué impacto tiene este cambio en las tecnologías big data?
¿Qué se entiende por 'transformación digital' en el contexto de big data, y cuál es su objetivo principal?
¿Qué se entiende por 'transformación digital' en el contexto de big data, y cuál es su objetivo principal?
Considerando el origen de las tecnologías big data, ¿cuál fue el factor clave que impulsó su desarrollo inicial?
Considerando el origen de las tecnologías big data, ¿cuál fue el factor clave que impulsó su desarrollo inicial?
¿Qué tipo de datos suelen ser generados por las personas y qué implicaciones tiene esto para su posterior procesamiento?
¿Qué tipo de datos suelen ser generados por las personas y qué implicaciones tiene esto para su posterior procesamiento?
Flashcards
¿Qué es la sociedad de la información?
¿Qué es la sociedad de la información?
Es una era donde estamos interconectados y somos fuentes de datos.
¿Qué son las tecnologías Big Data?
¿Qué son las tecnologías Big Data?
Son tecnologías que responden a las necesidades de la sociedad actual interconectada.
¿Qué significa centrarse en el cliente?
¿Qué significa centrarse en el cliente?
Es pensar continuamente en lo que el cliente necesita para mejorar su experiencia.
¿Qué es el 'Volumen' en Big Data?
¿Qué es el 'Volumen' en Big Data?
Signup and view all the flashcards
¿Qué es la 'Velocidad' en Big Data?
¿Qué es la 'Velocidad' en Big Data?
Signup and view all the flashcards
¿Qué es la 'Variedad' en Big Data?
¿Qué es la 'Variedad' en Big Data?
Signup and view all the flashcards
¿Cuándo un proyecto es Big Data?
¿Cuándo un proyecto es Big Data?
Signup and view all the flashcards
¿Qué son las tecnologías Big Data?
¿Qué son las tecnologías Big Data?
Signup and view all the flashcards
¿Qué es 'commodity hardware'?
¿Qué es 'commodity hardware'?
Signup and view all the flashcards
¿Qué es GFS?
¿Qué es GFS?
Signup and view all the flashcards
¿Qué es MapReduce?
¿Qué es MapReduce?
Signup and view all the flashcards
Procesamiento distribuido
Procesamiento distribuido
Signup and view all the flashcards
¿Qué es el ecosistema Hadoop?
¿Qué es el ecosistema Hadoop?
Signup and view all the flashcards
¿Qué es HDFS?
¿Qué es HDFS?
Signup and view all the flashcards
¿Qué es Apache Hive?
¿Qué es Apache Hive?
Signup and view all the flashcards
Study Notes
Introducción y objetivos
- Los contenidos se enfocarán en las necesidades actuales de la sociedad de la información, donde la interconexión y las fuentes de datos son clave.
- Se analizarán los retos tecnológicos y las tecnologías que los resuelven.
- Es importante comprender las necesidades actuales de procesamiento de datos y cómo las tecnologías big data las abordan.
- Se busca entender el concepto de clúster de ordenadores y las tecnologías distribuidas capaces de explotarlo.
- Se pretende conocer las herramientas principales del ecosistema Hadoop, su finalidad y cómo se relacionan.
La sociedad interconectada: la era del cliente
- Las tecnologías big data responden a las nuevas necesidades de la sociedad actual.
- El 90% de la información existente se ha creado en los últimos dos años, en un mundo interconectado.
- El crecimiento de la información es exponencial.
- El 80% de los datos creados son generados por personas, siendo en su mayoría no estructurados (texto libre, comentarios, tuits, imágenes, vídeos).
- El 20% restante son datos estructurados generados por máquinas (logs, sensores, IoT) para ser procesados por otras máquinas.
Fuentes de datos en la actualidad
- La interacción entre humanos a través de sistemas informáticos genera datos no estructurados que luego se procesan.
- Clear ejemplos son el correo electrónico, los foros de Internet o las redes sociales.
- La interacción entre humanos y máquinas, como la navegación en Internet, genera logs con información que se procesa para estudiar el comportamiento de los usuarios.
- Las interacciones entre máquinas, como los sistemas de monitorización a través de sensores, generan información estructurada procesada por otras máquinas.
- Empresas como Netflix e Instagram han experimentado un gran crecimiento en la cantidad de datos generados, mientras que gigantes como Google, Facebook y YouTube se han estabilizado.
La transformación digital en relación con los datos
- Empresas como Uber, Airbnb, Spotify y Netflix son líderes en sus respectivos sectores sin poseer activos físicos.
- Las interacciones digitales entre personas y compañías generan datos valiosos que permiten anticipar las demandas de los clientes.
- La transformación digital busca centrarse en el cliente, mejorando su experiencia mediante el análisis de datos sobre su comportamiento.
- Se centra también en los canales digitales, especialmente los dispositivos móviles, que generan la mayor cantidad de datos.
- Las decisiones se guían por los datos (data-driven), utilizando la ciencia de datos (big data science).
Definición de las tecnologías big data
- Las tecnologías existentes hasta principios del siglo XX no eran suficientes para procesar, almacenar y analizar datos con características especiales.
- Dichas características se conocen como las tres "v" del big data: Volumen, Velocidad y Variedad.
- Volumen: Grandes cantidades de datos que no pueden ser procesadas por tecnologías tradicionales.
- Velocidad: Flujos de datos en tiempo real que deben ser procesados continuamente.
- Variedad: Datos de fuentes diversas, estructuradas y no estructuradas, que deben ser manejados y cruzados conjuntamente.
- Un proyecto se considera big data cuando implica alguna de estas tres "v".
- Una definición más precisa es que un proyecto es big data cuando la mejor forma de resolverlo implica utilizar tecnologías big data.
- Big data se define como el conjunto de tecnologías y arquitecturas para manejar datos que eran muy difíciles o imposibles de manejar con tecnologías tradicionales.
Causas de la imposibilidad de procesar datos con tecnologías tradicionales
- Cantidades ingentes de datos inimaginables hace unos años
- Datos de fuentes diversas, heterogéneas, poco estructuradas, como documentos o imágenes/sonido, que, aun así, necesitan ser almacenados y consultados (NoSQL).
- Datos dinámicos, recibidos y procesados según llegan (flujos de datos o streams).
- Las herramientas big data permiten aplicar técnicas ya existentes a datos masivos, pero son tecnologías, no técnicas en sí mismas.
- Las técnicas de análisis pertenecen a la estadística, las matemáticas, las ciencias de la computación y la inteligencia artificial.
- La sinergia del big data consiste en aplicar técnicas de análisis a grandes cantidades de datos heterogéneos, logrando resultados rápidos y de alta calidad.
- Se han extendido mitos sobre el término big data.
Origen de las tecnologías big data
- Google fue la primera empresa en ser consciente del aumento de datos en Internet, siendo necesario indexar las webs.
- En el siglo XX, Sanjay Ghemawat, Howard Gobioff y Shun-Tak Leung (2003) publicaron un artículo sobre el sistema de archivos distribuido Google File System (GFS).
- Los autores propusieron utilizar ordenadores convencionales conectados (clúster) para almacenar archivos que superaban la capacidad de un disco duro.
- Este concepto se conoce como commodity hardware: máquinas no potentes que se conectan para resolver tareas complejas.
- GFS fue la base del sistema de archivos distribuido HDFS.
- En 2004, Jeffrey Dean y Sanjay Ghemawat publicaron un artículo sobre el modelo de programación MapReduce, aplicable a clústeres para procesar archivos en paralelo.
- Google publicó una biblioteca de código abierto que implementaba este paradigma.
- La abstracción de detalles de hardware, redes y comunicación era el punto fuerte de este paradigma
- MapReduce fue el estándar de desarrollo de software big data a nivel comercial durante muchos años.
- En 2009, Matei Zaharia creó Apache Spark, una tecnología open source de procesamiento distribuido, como tesis doctoral en Berkeley
- Spark comparte los principios de MapReduce de ejecutarse en clústeres commodity y simplificar la red y comunicación entre los nodos
- MapReduce fue reemplazado por Spark en 2014.
El ecosistema Hadoop
-
Es posible procesar grandes cantidades de datos de forma distribuida entre varias máquinas interconectadas (clúster), que no necesitan ser potentes (commodity hardware).
-
Si se necesita más capacidad, se añaden más máquinas al clúster.
-
Siguiendo esta filosofía, se creó un conjunto de herramientas open source para procesamiento distribuido, interoperables entre sí, llamado ecosistema Hadoop.
-
HDFS: Sistema de archivos distribuido.
-
MapReduce: Paradigma de programación para clústeres (en desuso).
-
Flume: Herramienta para el tratamiento de logs.
-
Sqoop: Herramienta para la migración de grandes cantidades de datos a HDFS.
-
Zookeeper: Coordinador.
-
Oozie: Herramienta para planificación y ejecución de flujos de datos
-
Pig: Herramienta para programar flujos de datos con sintaxis similar a SQL.
-
Mahout: Biblioteca de algoritmos de machine learning.
-
R Connectors: Herramientas para conectar MapReduce con el lenguaje R (en desuso).
-
Hive: Herramienta para manejar datos en HDFS usando SQL.
-
HBase: Base de datos NoSQL de tipo columnar con registros de longitud y número de campos variable.
-
En este curso, se analiza HDFS, Apache Hive, Apache Spark y Apache Kafka como herramientas centrales para el big data.
-
HDFS: Sistema de archivos distribuido inspirado en GFS.
-
Apache Hive: Herramienta para acceder a datos estructurados mediante SQL.
-
Apache Spark: Motor de procesamiento distribuido en memoria RAM que ha reemplazado a MapReduce.
-
Apache Kafka: Plataforma para manejo de eventos en tiempo real en una cola de mensajes escalable.
Distribuciones de Hadoop
- Hadoop requiere instalación y configuración individual para cada herramienta en el clúster
- Surgieron las distribuciones de Hadoop, que empaquetan herramientas compatibles en un único software.
- Empresas como Cloudera, Hortonworks (fusionadas en 2018) y MapR crearon distribuciones de Hadoop
- Estas pueden incluir herramientas propietarias y modificaciones del código fuente
- Estas distribuciones ofrecen versiones open source y de pago.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.