Introducción a las tecnologías Big Data
10 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

En la sociedad actual, la mayoría de los datos que se generan a diario son...

  • Datos no estructurados generados por las personas. (correct)
  • Datos estructurados generados por máquinas.
  • Datos estructurados generados por las personas.

¿Qué retos presentan los datos generados por personas en una red social?

  • Las dos respuestas anteriores son correctas. (correct)
  • Son datos no estructurados (imágenes, vídeos), más difíciles de procesar.
  • Son datos masivos.

El término commodity hardware se refiere a...

  • Máquinas muy potentes que suelen adquirir las grandes empresas.
  • Máquinas de potencia y coste normales, conectadas entre sí para formar un clúster más potente. (correct)
  • Máquinas remotas que se alquilan a un proveedor de cloud como Amazon.

Un proyecto se denomina big data cuando...

<p>La forma más eficaz y directa de abordarlo implica tecnologías <em>big data</em>. (A)</p> Signup and view all the answers

Las tres «v» del big data se refieren a:

<p>Volumen, velocidad y variedad. (A)</p> Signup and view all the answers

Lo mejor, si necesitamos más potencia de cómputo en un clúster big data, es...

<p>Añadir más máquinas al clúster y aprovechar todas las que ya había. (B)</p> Signup and view all the answers

El sistema de ficheros precursor de HDFS fue...

<p>GFS. (B)</p> Signup and view all the answers

Una distribución de Hadoop es...

<p>Un conjunto de aplicaciones del ecosistema Hadoop, con versiones interoperables entre sí y listas para usarse. (A)</p> Signup and view all the answers

¿Qué compañías fueron precursoras de HDFS y MapReduce?

<p>Google, en los dos casos. (A)</p> Signup and view all the answers

Definimos big data como...

<p>Las tecnologías que permiten almacenar, mover, procesar y analizar cantidades inmensas de datos heterogéneos. (A)</p> Signup and view all the answers

Flashcards

¿Qué son las tecnologías Big Data?

Conjunto de tecnologías para almacenar, mover, acceder y procesar datos difíciles de manejar con tecnologías tradicionales.

¿Cuáles son las tres 'V' de Big Data?

Volumen, Velocidad y Variedad. Indican que un proyecto requiere tecnologías Big Data.

Volumen (Big Data)

Cantidades de datos tan grandes que no se pueden procesar con tecnologías tradicionales.

Velocidad (Big Data)

Flujos de datos que llegan en tiempo real y se procesan continuamente.

Signup and view all the flashcards

Variedad (Big Data)

Datos de fuentes diversas, estructurados y no estructurados.

Signup and view all the flashcards

¿Cuándo un proyecto es Big Data?

Cuando la mejor manera de resolver un problema implica usar tecnologías Big Data.

Signup and view all the flashcards

¿Qué es un clúster?

Ordenadores convencionales conectados para almacenar archivos grandes.

Signup and view all the flashcards

Commodity Hardware

Máquinas no muy potentes que trabajan juntas como una sola.

Signup and view all the flashcards

¿Qué es GFS?

Sistema de archivos distribuido de Google, precursor de HDFS.

Signup and view all the flashcards

¿Qué es MapReduce?

Modelo de programación para procesar archivos en paralelo en un clúster.

Signup and view all the flashcards

¿Qué es Apache Spark?

Tecnología open source de procesamiento distribuido, más rápida que MapReduce.

Signup and view all the flashcards

¿Qué es el ecosistema Hadoop?

Conjunto de herramientas open source para procesamiento distribuido.

Signup and view all the flashcards

¿Qué es HDFS?

Sistema de archivos distribuido de Hadoop.

Signup and view all the flashcards

¿Qué es Apache Hive?

Herramienta para manejar datos en HDFS usando SQL.

Signup and view all the flashcards

¿Qué es Apache Spark?

Motor de procesamiento distribuido que opera en la memoria RAM del clúster.

Signup and view all the flashcards

¿Qué es Apache Kafka?

Plataforma para manejo de eventos en tiempo real.

Signup and view all the flashcards

¿Qué es una distribución de Hadoop?

Conjunto de herramientas de Hadoop empaquetadas para facilitar la instalación.

Signup and view all the flashcards

¿Qué es la transformación digital?

Transformación enfocada en el cliente, canales digitales y decisiones basadas en datos.

Signup and view all the flashcards

Centrarse en el cliente (Transformación Digital)

Centrarse en las necesidades del cliente y mejorar su experiencia.

Signup and view all the flashcards

Centrarse en canales digitales

Utilizar dispositivos móviles para las interacciones.

Signup and view all the flashcards

Data-driven decisions

Tomar decisiones guiadas por el análisis de grandes cantidades de datos.

Signup and view all the flashcards

Fuentes de datos: Humanos-Humanos

Interacción entre humanos a través de sistemas informáticos.

Signup and view all the flashcards

Fuentes de datos: Humanos-Máquinas

Interacción entre un humano y una máquina, como la navegación web.

Signup and view all the flashcards

Fuentes de datos: Máquinas-Máquinas

Intercambio de información entre máquinas.

Signup and view all the flashcards

¿Qué empresa originó las tecnologías Big Data?

Google, por su necesidad de indexar la web.

Signup and view all the flashcards

Google File System (GFS)

Sistema de archivos distribuido que permite almacenar archivos que ocupan más que un solo disco duro.

Signup and view all the flashcards

MapReduce

Modelo de programación que permite simplificar los detalles de hardware, redes y comunicación entre los nodos del clúster.

Signup and view all the flashcards

Procesamiento distribuido

Es posible procesar grandes cantidades de datos de forma distribuida entre varias máquinas interconectadas.

Signup and view all the flashcards

Transformación digital

El mundo ya ha cambiado, ahora hay interacciones digitales más físicas.

Signup and view all the flashcards

Ecosistema Hadoop

Sistema de archivos distribuido, MapReduce, Flume, Sqoop, Zookeeper, Oozie, Pig, Mahout, R Connectors, Hive y HBase.

Signup and view all the flashcards

Study Notes

Introducción a las tecnologías Big Data

  • El tema motiva los contenidos del curso, repasa las necesidades de información actuales y presenta las tecnologías que las resuelven.
  • Los objetivos incluyen comprender las necesidades de procesamiento de datos y las soluciones de las tecnologías big data.
  • También busca entender los clústeres de ordenadores, las tecnologías distribuidas y el ecosistema Hadoop.

La Sociedad Interconectada: La Era del Cliente

  • Las tecnologías big data responden a las necesidades de la sociedad actual, donde el 90% de la información existente se ha creado en los últimos dos años.
  • Hay tres tipos de situaciones que generan datos: interacciónes entre humanos, interacciónes humano-máquina e interacciónes máquina-máquina.
  • La transformación digital busca centrarse en el cliente, mejorar su experiencia, y usar canales digitales, guiándose por los datos.
  • Uber no tiene coches, Airbnb no tiene hoteles, Spotify no tiene estudios, Netflix no tiene estudios.
  • La transformación digital busca centrarse en el cliente, mejorar su experiencia, y usar canales digitales, guiándose por los datos.

Definición de las tecnologías big data

  • Las tecnologías existentes hasta principios del siglo XXI no eran suficientes para procesar datos con características especiales.
  • Tres características especiales de big data son volumen, velocidad y variedad.
  • El volumen se trata de cantidades de datos grandes.
  • La velocidad se refiere a flujos de datos en tiempo real.
  • La variedad son datos de fuentes diversas, estructuradas y no estructuradas.
  • Un proyecto es big data cuando implica alguna de las tres «v».
  • Las tecnologías big data permiten aplicar técnicas existentes a datos masivos de forma más rápida y eficiente.

Origen de las tecnologías big data

  • Google fue la primera empresa en reconocer el aumento de datos en Internet.
  • Sanjay Ghemawat, Howard Gobioff y Shun-Tak Leung crearon Google File System (GFS) en 2003, presentando la idea de usar ordenadores convencionales en clúster.
  • A esto se lo denomina commodity hardware: máquinas no potentes que trabajan juntas.
  • Jeffrey Dean y Sanjay Ghemawat popularizaron MapReduce en 2004, un modelo de programación para clústeres.
  • En 2009, Matei Zaharia creó Apache Spark, una tecnología open source de procesamiento distribuido.

El ecosistema Hadoop

  • La idea básica es procesar grandes cantidades de datos de forma distribuida con máquinas interconectadas no necesariamente potentes.
  • GFS se transformó en HDFS, y con MapReduce se creó un conjunto de herramientas open source llamado ecosistema Hadoop.
  • HDFS: sistema de archivos distribuido.
  • MapReduce: paradigma de programación para clústeres, actualmente en desuso.
  • Flume: herramienta para tratamiento de logs.
  • Sqoop: herramienta para migración de datos a HDFS.
  • Zookeeper: coordinador.
  • Oozie: herramienta para planificación y ejecución de flujos de datos.
  • Pig: herramienta para programar flujos de datos con sintaxis SQL.
  • Mahout: biblioteca de algoritmos de machine learning.
  • R Connectors: herramientas para conectar MapReduce con R, en desuso.
  • Hive: herramienta para manejar datos en HDFS con SQL, soporta Spark y Apache Tez.
  • HBase: base de datos NoSQL de tipo columnar.
  • El curso se centra en Apache HDFS, Hive, Spark y Kafka.
  • HDFS: sistema de archivos distribuido inspirado en GFS, gestionando la distribución y redundancia.
  • Apache Hive: acceso a datos estructurados con sintaxis SQL en sistemas de archivos distribuidos.
  • Apache Spark: motor de procesamiento distribuido que opera en la memoria principal, reemplazando a MapReduce.
  • Apache Kafka: plataforma para manejo de eventos en tiempo real, una cola de mensajes distribuida.
  • Las distribuciones de Hadoop son conjuntos de herramientas empaquetadas para simplificar la instalación y configuración.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Description

Este tema introduce las tecnologías Big Data y su relevancia en la sociedad actual. Explora las necesidades de información y cómo estas tecnologías las resuelven. Se enfoca en comprender los clústeres de ordenadores, las tecnologías distribuidas y el ecosistema Hadoop.

More Like This

Hadoop and Big Data Concepts
24 questions
Understanding Hadoop and Big Data
8 questions
Big Data Concepts and Workload Processing
30 questions
Big Data Concepts and Hadoop Ecosystem
48 questions
Use Quizgecko on...
Browser
Browser