1 Big D Sum

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

¿Cuál de las siguientes opciones describe mejor el propósito principal de las tecnologías big data?

  • Gestionar y analizar datos con características que dificultan su procesamiento con tecnologías tradicionales. (correct)
  • Optimizar la velocidad de procesamiento de datos numéricos.
  • Crear copias de seguridad de grandes volúmenes de información.
  • Sistematizar información estructurada.

¿Qué característica distingue a un proyecto big data según la definición proporcionada?

  • Su mejor solución implica el uso de tecnologías _big data_ debido a su eficiencia y sencillez. (correct)
  • Implica el uso de algoritmos complejos de inteligencia artificial.
  • Requiere el uso exclusivo de bases de datos NoSQL.
  • Se enfoca en el análisis de datos generados por máquinas.

¿Cuál de las siguientes opciones representa una causa principal por la cual las tecnologías tradicionales pueden ser insuficientes para manejar ciertos datos?

  • La falta de capacidad para indexar contenido multimedia.
  • La dificultad para aplicar técnicas estadísticas a los datos.
  • La incapacidad de conectarse a redes de alta velocidad.
  • La necesidad de gestionar datos dinámicos que se reciben y procesan continuamente. (correct)

¿Cuál fue la contribución principal de Google en los orígenes de las tecnologías big data?

<p>La creación de un sistema de archivos distribuido (GFS) y el modelo de programación MapReduce. (C)</p> Signup and view all the answers

¿Qué ventaja ofrecía MapReduce en el contexto de los clusters de ordenadores?

<p>Simplificaba la programación distribuida al abstraer los detalles de <em>hardware</em>, redes y comunicación. (D)</p> Signup and view all the answers

¿Cuál es la función principal de HDFS (Hadoop Distributed File System) dentro del ecosistema Hadoop?

<p>Distribuir y replicar los datos en los nodos de un <em>cluster</em>, gestionando la redundancia. (C)</p> Signup and view all the answers

¿Cuál es el propósito principal de Apache Kafka en el contexto de las tecnologías big data?

<p>Ofrecer una plataforma para el manejo de eventos en tiempo real mediante una cola de mensajes distribuida. (A)</p> Signup and view all the answers

¿Qué rol juega Apache Hive en el ecosistema Hadoop?

<p>Permite el acceso a datos estructurados almacenados en HDFS u otros sistemas similares mediante sintaxis SQL. (A)</p> Signup and view all the answers

¿Cuál es la característica principal de Apache Spark que lo diferencia de MapReduce?

<p>Spark procesa los datos en memoria (RAM), lo que resulta en un procesamiento más rápido en comparación con MapReduce. (D)</p> Signup and view all the answers

¿Qué propósito tenían las distribuciones de Hadoop como Cloudera y Hortonworks?

<p>Ofrecer un único <em>software</em> para instalar las herramientas del ecosistema Hadoop de forma sencilla. (B)</p> Signup and view all the answers

En el contexto de la evolución de las tecnologías para el análisis de datos, ¿qué representa la frase 'Decisiones guiadas por los datos' (data-driven)?

<p>Una metodología en la que las decisiones se fundamentan en el análisis y la evidencia proporcionada por los datos. (A)</p> Signup and view all the answers

¿Cómo han cambiado las interacciones digitales entre personas y compañías, y qué impacto tiene este cambio en las tecnologías big data?

<p>Las interacciones digitales han aumentado, generando grandes cantidades de datos que requieren tecnologías <em>big data</em> para su análisis y aprovechamiento. (A)</p> Signup and view all the answers

¿Qué se entiende por 'transformación digital' en el contexto de big data, y cuál es su objetivo principal?

<p>La adaptación de las empresas a las nuevas necesidades de los clientes mediante el uso intensivo de datos y la mejora de la experiencia del cliente. (A)</p> Signup and view all the answers

Considerando el origen de las tecnologías big data, ¿cuál fue el factor clave que impulsó su desarrollo inicial?

<p>La creciente cantidad de datos generados en Internet y la necesidad de indexarlos eficientemente. (C)</p> Signup and view all the answers

¿Qué tipo de datos suelen ser generados por las personas y qué implicaciones tiene esto para su posterior procesamiento?

<p>Datos no estructurados, como texto libre y contenido multimedia, que requieren un procesamiento adicional para ser analizados. (B)</p> Signup and view all the answers

Flashcards

¿Qué es la sociedad de la información?

Es una era donde estamos interconectados y somos fuentes de datos.

¿Qué son las tecnologías Big Data?

Son tecnologías que responden a las necesidades de la sociedad actual interconectada.

¿Qué significa centrarse en el cliente?

Es pensar continuamente en lo que el cliente necesita para mejorar su experiencia.

¿Qué es el 'Volumen' en Big Data?

Son cantidades de datos tan grandes que no pueden procesarse con tecnologías tradicionales.

Signup and view all the flashcards

¿Qué es la 'Velocidad' en Big Data?

Son flujos de datos que llegan en tiempo real y deben procesarse continuamente.

Signup and view all the flashcards

¿Qué es la 'Variedad' en Big Data?

Son datos de fuentes diversas, estructuradas y no estructuradas.

Signup and view all the flashcards

¿Cuándo un proyecto es Big Data?

Es un proyecto que implica al menos una de las tres 'V' (Volumen, Velocidad, Variedad).

Signup and view all the flashcards

¿Qué son las tecnologías Big Data?

Es el conjunto de tecnologías y arquitecturas para manejar datos difíciles con tecnologías tradicionales.

Signup and view all the flashcards

¿Qué es 'commodity hardware'?

Son máquinas no especialmente potentes que se conectan entre sí para trabajar conjuntamente.

Signup and view all the flashcards

¿Qué es GFS?

Sistema de archivos distribuido de Google que permite almacenar archivos grandes en un clúster.

Signup and view all the flashcards

¿Qué es MapReduce?

Modelo de programación para procesar en paralelo archivos en un clúster de ordenadores.

Signup and view all the flashcards

Procesamiento distribuido

Es posible procesar datos de forma distribuida entre máquinas no necesariamente muy potentes.

Signup and view all the flashcards

¿Qué es el ecosistema Hadoop?

Un conjunto de herramientas open source para procesamiento distribuido interoperables entre sí.

Signup and view all the flashcards

¿Qué es HDFS?

Sistema de archivos distribuido que permite distribuir los datos entre distintos nodos de un clúster.

Signup and view all the flashcards

¿Qué es Apache Hive?

Es una herramienta para acceder a datos estructurados mediante sintaxis SQL.

Signup and view all the flashcards

Study Notes

Introducción y objetivos

  • Los contenidos se enfocarán en las necesidades actuales de la sociedad de la información, donde la interconexión y las fuentes de datos son clave.
  • Se analizarán los retos tecnológicos y las tecnologías que los resuelven.
  • Es importante comprender las necesidades actuales de procesamiento de datos y cómo las tecnologías big data las abordan.
  • Se busca entender el concepto de clúster de ordenadores y las tecnologías distribuidas capaces de explotarlo.
  • Se pretende conocer las herramientas principales del ecosistema Hadoop, su finalidad y cómo se relacionan.

La sociedad interconectada: la era del cliente

  • Las tecnologías big data responden a las nuevas necesidades de la sociedad actual.
  • El 90% de la información existente se ha creado en los últimos dos años, en un mundo interconectado.
  • El crecimiento de la información es exponencial.
  • El 80% de los datos creados son generados por personas, siendo en su mayoría no estructurados (texto libre, comentarios, tuits, imágenes, vídeos).
  • El 20% restante son datos estructurados generados por máquinas (logs, sensores, IoT) para ser procesados por otras máquinas.

Fuentes de datos en la actualidad

  • La interacción entre humanos a través de sistemas informáticos genera datos no estructurados que luego se procesan.
  • Clear ejemplos son el correo electrónico, los foros de Internet o las redes sociales.
  • La interacción entre humanos y máquinas, como la navegación en Internet, genera logs con información que se procesa para estudiar el comportamiento de los usuarios.
  • Las interacciones entre máquinas, como los sistemas de monitorización a través de sensores, generan información estructurada procesada por otras máquinas.
  • Empresas como Netflix e Instagram han experimentado un gran crecimiento en la cantidad de datos generados, mientras que gigantes como Google, Facebook y YouTube se han estabilizado.

La transformación digital en relación con los datos

  • Empresas como Uber, Airbnb, Spotify y Netflix son líderes en sus respectivos sectores sin poseer activos físicos.
  • Las interacciones digitales entre personas y compañías generan datos valiosos que permiten anticipar las demandas de los clientes.
  • La transformación digital busca centrarse en el cliente, mejorando su experiencia mediante el análisis de datos sobre su comportamiento.
  • Se centra también en los canales digitales, especialmente los dispositivos móviles, que generan la mayor cantidad de datos.
  • Las decisiones se guían por los datos (data-driven), utilizando la ciencia de datos (big data science).

Definición de las tecnologías big data

  • Las tecnologías existentes hasta principios del siglo XX no eran suficientes para procesar, almacenar y analizar datos con características especiales.
  • Dichas características se conocen como las tres "v" del big data: Volumen, Velocidad y Variedad.
  • Volumen: Grandes cantidades de datos que no pueden ser procesadas por tecnologías tradicionales.
  • Velocidad: Flujos de datos en tiempo real que deben ser procesados continuamente.
  • Variedad: Datos de fuentes diversas, estructuradas y no estructuradas, que deben ser manejados y cruzados conjuntamente.
  • Un proyecto se considera big data cuando implica alguna de estas tres "v".
  • Una definición más precisa es que un proyecto es big data cuando la mejor forma de resolverlo implica utilizar tecnologías big data.
  • Big data se define como el conjunto de tecnologías y arquitecturas para manejar datos que eran muy difíciles o imposibles de manejar con tecnologías tradicionales.

Causas de la imposibilidad de procesar datos con tecnologías tradicionales

  • Cantidades ingentes de datos inimaginables hace unos años
  • Datos de fuentes diversas, heterogéneas, poco estructuradas, como documentos o imágenes/sonido, que, aun así, necesitan ser almacenados y consultados (NoSQL).
  • Datos dinámicos, recibidos y procesados según llegan (flujos de datos o streams).
  • Las herramientas big data permiten aplicar técnicas ya existentes a datos masivos, pero son tecnologías, no técnicas en sí mismas.
  • Las técnicas de análisis pertenecen a la estadística, las matemáticas, las ciencias de la computación y la inteligencia artificial.
  • La sinergia del big data consiste en aplicar técnicas de análisis a grandes cantidades de datos heterogéneos, logrando resultados rápidos y de alta calidad.
  • Se han extendido mitos sobre el término big data.

Origen de las tecnologías big data

  • Google fue la primera empresa en ser consciente del aumento de datos en Internet, siendo necesario indexar las webs.
  • En el siglo XX, Sanjay Ghemawat, Howard Gobioff y Shun-Tak Leung (2003) publicaron un artículo sobre el sistema de archivos distribuido Google File System (GFS).
  • Los autores propusieron utilizar ordenadores convencionales conectados (clúster) para almacenar archivos que superaban la capacidad de un disco duro.
  • Este concepto se conoce como commodity hardware: máquinas no potentes que se conectan para resolver tareas complejas.
  • GFS fue la base del sistema de archivos distribuido HDFS.
  • En 2004, Jeffrey Dean y Sanjay Ghemawat publicaron un artículo sobre el modelo de programación MapReduce, aplicable a clústeres para procesar archivos en paralelo.
  • Google publicó una biblioteca de código abierto que implementaba este paradigma.
  • La abstracción de detalles de hardware, redes y comunicación era el punto fuerte de este paradigma
  • MapReduce fue el estándar de desarrollo de software big data a nivel comercial durante muchos años.
  • En 2009, Matei Zaharia creó Apache Spark, una tecnología open source de procesamiento distribuido, como tesis doctoral en Berkeley
  • Spark comparte los principios de MapReduce de ejecutarse en clústeres commodity y simplificar la red y comunicación entre los nodos
  • MapReduce fue reemplazado por Spark en 2014.

El ecosistema Hadoop

  • Es posible procesar grandes cantidades de datos de forma distribuida entre varias máquinas interconectadas (clúster), que no necesitan ser potentes (commodity hardware).

  • Si se necesita más capacidad, se añaden más máquinas al clúster.

  • Siguiendo esta filosofía, se creó un conjunto de herramientas open source para procesamiento distribuido, interoperables entre sí, llamado ecosistema Hadoop.

  • HDFS: Sistema de archivos distribuido.

  • MapReduce: Paradigma de programación para clústeres (en desuso).

  • Flume: Herramienta para el tratamiento de logs.

  • Sqoop: Herramienta para la migración de grandes cantidades de datos a HDFS.

  • Zookeeper: Coordinador.

  • Oozie: Herramienta para planificación y ejecución de flujos de datos

  • Pig: Herramienta para programar flujos de datos con sintaxis similar a SQL.

  • Mahout: Biblioteca de algoritmos de machine learning.

  • R Connectors: Herramientas para conectar MapReduce con el lenguaje R (en desuso).

  • Hive: Herramienta para manejar datos en HDFS usando SQL.

  • HBase: Base de datos NoSQL de tipo columnar con registros de longitud y número de campos variable.

  • En este curso, se analiza HDFS, Apache Hive, Apache Spark y Apache Kafka como herramientas centrales para el big data.

  • HDFS: Sistema de archivos distribuido inspirado en GFS.

  • Apache Hive: Herramienta para acceder a datos estructurados mediante SQL.

  • Apache Spark: Motor de procesamiento distribuido en memoria RAM que ha reemplazado a MapReduce.

  • Apache Kafka: Plataforma para manejo de eventos en tiempo real en una cola de mensajes escalable.

Distribuciones de Hadoop

  • Hadoop requiere instalación y configuración individual para cada herramienta en el clúster
  • Surgieron las distribuciones de Hadoop, que empaquetan herramientas compatibles en un único software.
  • Empresas como Cloudera, Hortonworks (fusionadas en 2018) y MapR crearon distribuciones de Hadoop
  • Estas pueden incluir herramientas propietarias y modificaciones del código fuente
  • Estas distribuciones ofrecen versiones open source y de pago.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

More Like This

1 Big Data
10 questions
Big Data Introduction
41 questions

Big Data Introduction

ThrillingWaterfall8758 avatar
ThrillingWaterfall8758
Big D Quiz
15 questions
Introduction à Apache Hadoop
39 questions

Introduction à Apache Hadoop

InspiringUnicorn8914 avatar
InspiringUnicorn8914
Use Quizgecko on...
Browser
Browser