Podcast
Questions and Answers
En la sociedad actual, la mayoría de los datos que se generan a diario son...
En la sociedad actual, la mayoría de los datos que se generan a diario son...
- Datos no estructurados generados por las personas. (correct)
- Datos estructurados generados por máquinas.
- Datos estructurados generados por las personas.
¿Qué retos presentan los datos generados por personas en una red social?
¿Qué retos presentan los datos generados por personas en una red social?
- Las dos respuestas anteriores son correctas. (correct)
- Son datos no estructurados (imágenes, vídeos), más difíciles de procesar.
- Son datos masivos.
El término commodity hardware se refiere a...
El término commodity hardware se refiere a...
- Máquinas muy potentes que suelen adquirir las grandes empresas.
- Máquinas de potencia y coste normales, conectadas entre sí para formar un clúster más potente. (correct)
- Máquinas remotas que se alquilan a un proveedor de cloud como Amazon.
Un proyecto se denomina big data cuando...
Un proyecto se denomina big data cuando...
Las tres «v» del big data se refieren a:
Las tres «v» del big data se refieren a:
Lo mejor, si necesitamos más potencia de cómputo en un clúster big data, es...
Lo mejor, si necesitamos más potencia de cómputo en un clúster big data, es...
El sistema de ficheros precursor de HDFS fue...
El sistema de ficheros precursor de HDFS fue...
Una distribución de Hadoop es...
Una distribución de Hadoop es...
¿Qué compañías fueron precursoras de HDFS y MapReduce?
¿Qué compañías fueron precursoras de HDFS y MapReduce?
Definimos big data como...
Definimos big data como...
Flashcards
¿Qué son las tecnologías Big Data?
¿Qué son las tecnologías Big Data?
Conjunto de tecnologías para almacenar, mover, acceder y procesar datos difíciles de manejar con tecnologías tradicionales.
¿Cuáles son las tres 'V' de Big Data?
¿Cuáles son las tres 'V' de Big Data?
Volumen, Velocidad y Variedad. Indican que un proyecto requiere tecnologías Big Data.
Volumen (Big Data)
Volumen (Big Data)
Cantidades de datos tan grandes que no se pueden procesar con tecnologías tradicionales.
Velocidad (Big Data)
Velocidad (Big Data)
Signup and view all the flashcards
Variedad (Big Data)
Variedad (Big Data)
Signup and view all the flashcards
¿Cuándo un proyecto es Big Data?
¿Cuándo un proyecto es Big Data?
Signup and view all the flashcards
¿Qué es un clúster?
¿Qué es un clúster?
Signup and view all the flashcards
Commodity Hardware
Commodity Hardware
Signup and view all the flashcards
¿Qué es GFS?
¿Qué es GFS?
Signup and view all the flashcards
¿Qué es MapReduce?
¿Qué es MapReduce?
Signup and view all the flashcards
¿Qué es Apache Spark?
¿Qué es Apache Spark?
Signup and view all the flashcards
¿Qué es el ecosistema Hadoop?
¿Qué es el ecosistema Hadoop?
Signup and view all the flashcards
¿Qué es HDFS?
¿Qué es HDFS?
Signup and view all the flashcards
¿Qué es Apache Hive?
¿Qué es Apache Hive?
Signup and view all the flashcards
¿Qué es Apache Spark?
¿Qué es Apache Spark?
Signup and view all the flashcards
¿Qué es Apache Kafka?
¿Qué es Apache Kafka?
Signup and view all the flashcards
¿Qué es una distribución de Hadoop?
¿Qué es una distribución de Hadoop?
Signup and view all the flashcards
¿Qué es la transformación digital?
¿Qué es la transformación digital?
Signup and view all the flashcards
Centrarse en el cliente (Transformación Digital)
Centrarse en el cliente (Transformación Digital)
Signup and view all the flashcards
Centrarse en canales digitales
Centrarse en canales digitales
Signup and view all the flashcards
Data-driven decisions
Data-driven decisions
Signup and view all the flashcards
Fuentes de datos: Humanos-Humanos
Fuentes de datos: Humanos-Humanos
Signup and view all the flashcards
Fuentes de datos: Humanos-Máquinas
Fuentes de datos: Humanos-Máquinas
Signup and view all the flashcards
Fuentes de datos: Máquinas-Máquinas
Fuentes de datos: Máquinas-Máquinas
Signup and view all the flashcards
¿Qué empresa originó las tecnologías Big Data?
¿Qué empresa originó las tecnologías Big Data?
Signup and view all the flashcards
Google File System (GFS)
Google File System (GFS)
Signup and view all the flashcards
MapReduce
MapReduce
Signup and view all the flashcards
Procesamiento distribuido
Procesamiento distribuido
Signup and view all the flashcards
Transformación digital
Transformación digital
Signup and view all the flashcards
Ecosistema Hadoop
Ecosistema Hadoop
Signup and view all the flashcards
Study Notes
Introducción a las tecnologías Big Data
- El tema motiva los contenidos del curso, repasa las necesidades de información actuales y presenta las tecnologías que las resuelven.
- Los objetivos incluyen comprender las necesidades de procesamiento de datos y las soluciones de las tecnologías big data.
- También busca entender los clústeres de ordenadores, las tecnologías distribuidas y el ecosistema Hadoop.
La Sociedad Interconectada: La Era del Cliente
- Las tecnologías big data responden a las necesidades de la sociedad actual, donde el 90% de la información existente se ha creado en los últimos dos años.
- Hay tres tipos de situaciones que generan datos: interacciónes entre humanos, interacciónes humano-máquina e interacciónes máquina-máquina.
- La transformación digital busca centrarse en el cliente, mejorar su experiencia, y usar canales digitales, guiándose por los datos.
- Uber no tiene coches, Airbnb no tiene hoteles, Spotify no tiene estudios, Netflix no tiene estudios.
- La transformación digital busca centrarse en el cliente, mejorar su experiencia, y usar canales digitales, guiándose por los datos.
Definición de las tecnologías big data
- Las tecnologías existentes hasta principios del siglo XXI no eran suficientes para procesar datos con características especiales.
- Tres características especiales de big data son volumen, velocidad y variedad.
- El volumen se trata de cantidades de datos grandes.
- La velocidad se refiere a flujos de datos en tiempo real.
- La variedad son datos de fuentes diversas, estructuradas y no estructuradas.
- Un proyecto es big data cuando implica alguna de las tres «v».
- Las tecnologías big data permiten aplicar técnicas existentes a datos masivos de forma más rápida y eficiente.
Origen de las tecnologías big data
- Google fue la primera empresa en reconocer el aumento de datos en Internet.
- Sanjay Ghemawat, Howard Gobioff y Shun-Tak Leung crearon Google File System (GFS) en 2003, presentando la idea de usar ordenadores convencionales en clúster.
- A esto se lo denomina commodity hardware: máquinas no potentes que trabajan juntas.
- Jeffrey Dean y Sanjay Ghemawat popularizaron MapReduce en 2004, un modelo de programación para clústeres.
- En 2009, Matei Zaharia creó Apache Spark, una tecnología open source de procesamiento distribuido.
El ecosistema Hadoop
- La idea básica es procesar grandes cantidades de datos de forma distribuida con máquinas interconectadas no necesariamente potentes.
- GFS se transformó en HDFS, y con MapReduce se creó un conjunto de herramientas open source llamado ecosistema Hadoop.
- HDFS: sistema de archivos distribuido.
- MapReduce: paradigma de programación para clústeres, actualmente en desuso.
- Flume: herramienta para tratamiento de logs.
- Sqoop: herramienta para migración de datos a HDFS.
- Zookeeper: coordinador.
- Oozie: herramienta para planificación y ejecución de flujos de datos.
- Pig: herramienta para programar flujos de datos con sintaxis SQL.
- Mahout: biblioteca de algoritmos de machine learning.
- R Connectors: herramientas para conectar MapReduce con R, en desuso.
- Hive: herramienta para manejar datos en HDFS con SQL, soporta Spark y Apache Tez.
- HBase: base de datos NoSQL de tipo columnar.
- El curso se centra en Apache HDFS, Hive, Spark y Kafka.
- HDFS: sistema de archivos distribuido inspirado en GFS, gestionando la distribución y redundancia.
- Apache Hive: acceso a datos estructurados con sintaxis SQL en sistemas de archivos distribuidos.
- Apache Spark: motor de procesamiento distribuido que opera en la memoria principal, reemplazando a MapReduce.
- Apache Kafka: plataforma para manejo de eventos en tiempo real, una cola de mensajes distribuida.
- Las distribuciones de Hadoop son conjuntos de herramientas empaquetadas para simplificar la instalación y configuración.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Este tema introduce las tecnologías Big Data y su relevancia en la sociedad actual. Explora las necesidades de información y cómo estas tecnologías las resuelven. Se enfoca en comprender los clústeres de ordenadores, las tecnologías distribuidas y el ecosistema Hadoop.