Podcast
Questions and Answers
¿Cuál de las siguientes NO es una característica principal de las plataformas de cloud computing como AWS?
¿Cuál de las siguientes NO es una característica principal de las plataformas de cloud computing como AWS?
- Esquema de pago por uso (pay-as-you-go).
- Alta disponibilidad y seguridad.
- Disponibilidad global.
- Dependencia de la ubicación física de los servidores del usuario. (correct)
¿Qué factor NO es fundamental para seleccionar una región de AWS para desplegar una aplicación?
¿Qué factor NO es fundamental para seleccionar una región de AWS para desplegar una aplicación?
- La popularidad de la región entre otras empresas. (correct)
- El coste de los servicios en las diferentes regiones.
- Las leyes que rigen en cada región.
- La latencia para los usuarios de la aplicación.
¿Cuál es el propósito de las Availability Zones (AZ) en AWS?
¿Cuál es el propósito de las Availability Zones (AZ) en AWS?
- Aislar geográficamente los datos de los usuarios.
- Simplificar la gestión de los recursos en la nube.
- Aumentar la disponibilidad y redundancia de los servicios. (correct)
- Reducir los costes de los servicios.
¿Cuál de los siguientes NO es un servicio transversal de seguridad que ofrece AWS?
¿Cuál de los siguientes NO es un servicio transversal de seguridad que ofrece AWS?
¿En el modelo de responsabilidad compartida de AWS, cuál de las siguientes es responsabilidad del usuario?
¿En el modelo de responsabilidad compartida de AWS, cuál de las siguientes es responsabilidad del usuario?
¿Cuál de los siguientes servicios de computación de AWS ofrece una opción serverless (FaaS)?
¿Cuál de los siguientes servicios de computación de AWS ofrece una opción serverless (FaaS)?
Al crear una instancia EC2, ¿qué es una Amazon Machine Image (AMI)?
Al crear una instancia EC2, ¿qué es una Amazon Machine Image (AMI)?
¿Cuál es la función principal de Amazon Virtual Private Cloud (VPC)?
¿Cuál es la función principal de Amazon Virtual Private Cloud (VPC)?
En una arquitectura de AWS que utiliza VPC y subredes, ¿cuál es la función de un gateway?
En una arquitectura de AWS que utiliza VPC y subredes, ¿cuál es la función de un gateway?
¿Cuál de los siguientes servicios de almacenamiento de AWS está diseñado para ser el equivalente a un disco duro persistente para instancias EC2?
¿Cuál de los siguientes servicios de almacenamiento de AWS está diseñado para ser el equivalente a un disco duro persistente para instancias EC2?
¿Cuál es la principal ventaja de usar Amazon S3 para el almacenamiento de datos?
¿Cuál es la principal ventaja de usar Amazon S3 para el almacenamiento de datos?
¿Cuál de los siguientes tipos de almacenamiento de Amazon S3 es más adecuado para archivar datos a los que se accede de forma muy ocasional?
¿Cuál de los siguientes tipos de almacenamiento de Amazon S3 es más adecuado para archivar datos a los que se accede de forma muy ocasional?
¿Qué servicio de base de datos de AWS es compatible con MongoDB?
¿Qué servicio de base de datos de AWS es compatible con MongoDB?
¿Cuál es una característica clave de Amazon Aurora en comparación con MySQL o PostgreSQL?
¿Cuál es una característica clave de Amazon Aurora en comparación con MySQL o PostgreSQL?
¿Qué servicio de AWS permite ejecutar bases de datos en memoria compatibles con Redis o Memcached?
¿Qué servicio de AWS permite ejecutar bases de datos en memoria compatibles con Redis o Memcached?
¿Cuál es el servicio de AWS que proporciona tecnologías Hadoop sobre instancias EC2 sin que el usuario tenga que gestionar el clúster?
¿Cuál es el servicio de AWS que proporciona tecnologías Hadoop sobre instancias EC2 sin que el usuario tenga que gestionar el clúster?
¿Cuál de las siguientes NO es una forma de ejecutar un clúster de Amazon EMR?
¿Cuál de las siguientes NO es una forma de ejecutar un clúster de Amazon EMR?
¿Qué servicio de AWS está enfocado en tareas ETL (extract, transform, load)?
¿Qué servicio de AWS está enfocado en tareas ETL (extract, transform, load)?
¿Cuál es la función principal de AWS Data Pipeline?
¿Cuál es la función principal de AWS Data Pipeline?
¿Qué diferencia principal existe entre Amazon Redshift y Amazon RDS?
¿Qué diferencia principal existe entre Amazon Redshift y Amazon RDS?
¿Cuál de los siguientes servicios de AWS permite realizar consultas interactivas a datos almacenados en S3 sin necesidad de cargarlos en otro servicio?
¿Cuál de los siguientes servicios de AWS permite realizar consultas interactivas a datos almacenados en S3 sin necesidad de cargarlos en otro servicio?
¿Qué servicio de AWS es una alternativa a Apache Kafka y Spark Streaming?
¿Qué servicio de AWS es una alternativa a Apache Kafka y Spark Streaming?
Dentro de Amazon Kinesis, ¿qué servicio se utiliza para realizar analíticas en tiempo real de flujos de datos usando consultas SQL?
Dentro de Amazon Kinesis, ¿qué servicio se utiliza para realizar analíticas en tiempo real de flujos de datos usando consultas SQL?
¿Cuál de las siguientes opciones describe mejor el propósito de Amazon SageMaker?
¿Cuál de las siguientes opciones describe mejor el propósito de Amazon SageMaker?
¿Qué componente de Amazon SageMaker ofrece la posibilidad de construir modelos de machine learning automáticos?
¿Qué componente de Amazon SageMaker ofrece la posibilidad de construir modelos de machine learning automáticos?
¿Cuál de los siguientes servicios de inteligencia artificial de AWS permite extraer conocimiento útil de textos no estructurados?
¿Cuál de los siguientes servicios de inteligencia artificial de AWS permite extraer conocimiento útil de textos no estructurados?
¿Qué servicio de AWS proporciona agentes conversacionales (chatbots)?
¿Qué servicio de AWS proporciona agentes conversacionales (chatbots)?
Si tiene una base de datos MySQL en sus instalaciones y desea migrarla a AWS, ¿qué servicio podría ayudarlo?
Si tiene una base de datos MySQL en sus instalaciones y desea migrarla a AWS, ¿qué servicio podría ayudarlo?
Está diseñando una aplicación web que necesita almacenar archivos estáticos y entregarlos de manera eficiente a los usuarios. ¿Cuál de los siguientes servicios sería más adecuado?
Está diseñando una aplicación web que necesita almacenar archivos estáticos y entregarlos de manera eficiente a los usuarios. ¿Cuál de los siguientes servicios sería más adecuado?
Si necesita ejecutar un clúster Hadoop para procesar grandes volúmenes de datos, pero no desea encargarse de la configuración y mantenimiento de las instancias EC2, ¿qué servicio sería la mejor opción?
Si necesita ejecutar un clúster Hadoop para procesar grandes volúmenes de datos, pero no desea encargarse de la configuración y mantenimiento de las instancias EC2, ¿qué servicio sería la mejor opción?
Necesita crear un pipeline para transformar datos desde una variedad de fuentes (S3, RDS, DynamoDB) y cargar los resultados en Redshift. ¿Qué servicio sería el más adecuado para este propósito?
Necesita crear un pipeline para transformar datos desde una variedad de fuentes (S3, RDS, DynamoDB) y cargar los resultados en Redshift. ¿Qué servicio sería el más adecuado para este propósito?
Para una aplicación que necesita realizar analíticas en tiempo real de datos que fluyen desde dispositivos IoT, ¿qué combinación de servicios sería la mejor opción?
Para una aplicación que necesita realizar analíticas en tiempo real de datos que fluyen desde dispositivos IoT, ¿qué combinación de servicios sería la mejor opción?
Si está construyendo un modelo de machine learning y necesita una forma de administrar los conjuntos de datos para entrenar, ¿qué servicio podría ayudarle?
Si está construyendo un modelo de machine learning y necesita una forma de administrar los conjuntos de datos para entrenar, ¿qué servicio podría ayudarle?
Es necesario realizar consultas SQL interactivas sobre datos almacenados en S3. No desea preparar o transformar los datos antes de consultar. ¿Cuál sería el servicio de AWS más apropiado para este propósito?
Es necesario realizar consultas SQL interactivas sobre datos almacenados en S3. No desea preparar o transformar los datos antes de consultar. ¿Cuál sería el servicio de AWS más apropiado para este propósito?
Se necesita desarrollar una aplicación de chatbot que pueda interactuar con los clientes en lenguaje natural. ¿Cuál sería el servicio de AWS más adecuado para proporcionar la funcionalidad de chatbot?
Se necesita desarrollar una aplicación de chatbot que pueda interactuar con los clientes en lenguaje natural. ¿Cuál sería el servicio de AWS más adecuado para proporcionar la funcionalidad de chatbot?
Está trabajando en un proyecto de análisis de fraude y necesita un servicio que pueda identificar transacciones fraudulentas en tiempo real en su aplicación online en función del conocimiento adquirido sobre su base de compradores. ¿Qué servicio de AWS sería más apropiado?
Está trabajando en un proyecto de análisis de fraude y necesita un servicio que pueda identificar transacciones fraudulentas en tiempo real en su aplicación online en función del conocimiento adquirido sobre su base de compradores. ¿Qué servicio de AWS sería más apropiado?
Si desea crear un entorno de desarrollo integrado para construir, entrenar y desplegar modelos de machine learning en AWS, ¿qué servicio proporcionaría la mejor combinación de herramientas y recursos?
Si desea crear un entorno de desarrollo integrado para construir, entrenar y desplegar modelos de machine learning en AWS, ¿qué servicio proporcionaría la mejor combinación de herramientas y recursos?
Al diseñar la seguridad para su aplicación en AWS, ¿qué acción es una responsabilidad del usuario según el modelo de responsabilidad compartida de AWS?
Al diseñar la seguridad para su aplicación en AWS, ¿qué acción es una responsabilidad del usuario según el modelo de responsabilidad compartida de AWS?
Al examinar la arquitectura de una aplicación, observe que la latencia durante el acceso a datos en una región determinada impacta la experiencia del usuario. ¿Qué estrategia se puede seguir para abordar dicho impacto?
Al examinar la arquitectura de una aplicación, observe que la latencia durante el acceso a datos en una región determinada impacta la experiencia del usuario. ¿Qué estrategia se puede seguir para abordar dicho impacto?
Flashcards
¿Qué es cloud computing?
¿Qué es cloud computing?
Alternativa a tener aplicaciones instaladas en equipos propios, usando tecnologías big data.
¿Qué es Amazon Web Services (AWS)?
¿Qué es Amazon Web Services (AWS)?
Es la plataforma líder de servicios en la nube que presta sus servicios a grandes empresas, startups, sector público y particulares.
¿Qué es una región de AWS?
¿Qué es una región de AWS?
Es un área geográfica autocontenida que ofrece servicios cloud basados en recursos alojados en dicha región, localizada en un país y regida por leyes.
¿Qué es la latencia al elegir una región?
¿Qué es la latencia al elegir una región?
Signup and view all the flashcards
Costes de servicios AWS por región
Costes de servicios AWS por región
Signup and view all the flashcards
Disponibilidad de los servicios AWS
Disponibilidad de los servicios AWS
Signup and view all the flashcards
¿Qué son las Availability Zones (AZ)?
¿Qué son las Availability Zones (AZ)?
Signup and view all the flashcards
¿Qué es el modelo de responsabilidad compartida en AWS?
¿Qué es el modelo de responsabilidad compartida en AWS?
Signup and view all the flashcards
¿Qué permite EC2?
¿Qué permite EC2?
Signup and view all the flashcards
¿Qué es Amazon Machine Image (AMI)?
¿Qué es Amazon Machine Image (AMI)?
Signup and view all the flashcards
¿Qué es ECS?
¿Qué es ECS?
Signup and view all the flashcards
¿Qué es Virtual Private Cloud (VPC)?
¿Qué es Virtual Private Cloud (VPC)?
Signup and view all the flashcards
¿Qué es Amazon Elastic Block Store (EBS)?
¿Qué es Amazon Elastic Block Store (EBS)?
Signup and view all the flashcards
¿Qué es Amazon Simple Storage Service (Amazon S3)?
¿Qué es Amazon Simple Storage Service (Amazon S3)?
Signup and view all the flashcards
¿Qué es Amazon Elastic File System (EFS)?
¿Qué es Amazon Elastic File System (EFS)?
Signup and view all the flashcards
¿Cuántos y cuáles son los motores de bases de datos que ofrece Amazon RDS?
¿Cuántos y cuáles son los motores de bases de datos que ofrece Amazon RDS?
Signup and view all the flashcards
¿Qué es DynamoDB?
¿Qué es DynamoDB?
Signup and view all the flashcards
¿Qué es Amazon ElastiCache?
¿Qué es Amazon ElastiCache?
Signup and view all the flashcards
¿Qué permite Redshift?
¿Qué permite Redshift?
Signup and view all the flashcards
¿Qué es Amazon Athena?
¿Qué es Amazon Athena?
Signup and view all the flashcards
¿Qué es Amazon Kinesis?
¿Qué es Amazon Kinesis?
Signup and view all the flashcards
¿Qué es Amazon SageMaker Studio?
¿Qué es Amazon SageMaker Studio?
Signup and view all the flashcards
¿Qué ofrece Amazon SageMaker Autopilot?
¿Qué ofrece Amazon SageMaker Autopilot?
Signup and view all the flashcards
¿Qué es Amazon SageMaker Ground Truth?
¿Qué es Amazon SageMaker Ground Truth?
Signup and view all the flashcards
¿Qué es AWS Glue?
¿Qué es AWS Glue?
Signup and view all the flashcards
¿Qué es AWS Data Pipeline?
¿Qué es AWS Data Pipeline?
Signup and view all the flashcards
¿Qué es Amazon Elastic MapReduce (Amazon EMR)?
¿Qué es Amazon Elastic MapReduce (Amazon EMR)?
Signup and view all the flashcards
Study Notes
Introducción y Objetivos
- Los servicios de "cloud computing" son una alternativa a las aplicaciones instaladas en equipos propios, incluyendo tecnologías de "big data".
- Microsoft Azure es un proveedor de servicios "cloud".
- Amazon Web Services (AWS) es un proveedor líder en servicios en la nube.
- Los objetivos principales son:
- Conocer Amazon Web Services como el principal proveedor de servicios de "cloud computing".
- Explorar los servicios "cloud" proporcionados por AWS.
- Examinar los servicios "laaS" ofrecidos por AWS y las tecnologías de "big data" que se pueden desplegar.
- Conocer las alternativas PaaS y SaaS centradas en "big data," "analytics," y "machine learning" que AWS ofrece de forma nativa.
Amazon Web Services
- AWS es la plataforma líder de servicios en la nube.
- AWS proporciona acceso a una infraestructura global desde cualquier parte del mundo.
- Ofrece alta disponibilidad, seguridad y un esquema de pago por uso (pay-as-you-go).
- Ofrece almacenamiento, procesamiento, redes y seguridad, además de analítica de datos, DevOps, bases de datos, inteligencia artificial, IoT y desarrollo móvil.
- Permite modelos implementados completamente en la nube o de forma híbrida.
- Permite migrar datos cuando el usuario lo decide.
- AWS Marketplace es un catálogo digital con recursos adicionales de empresas independientes que se basan en servicios AWS.
- Es importante se comprendan las regiones, las zonas de disponibilidad, los servicios de gestión y los servicios de seguridad.
- Los servicios AWS se agrupan en computación, almacenamiento, redes, bases de datos, "big data", analítica y "machine learning".
Regiones y "Availability Zones" (AZ)
- Las plataformas de "cloud computing" tienen disponibilidad global.
- AWS se despliega por regiones, áreas geográficas autocontenidas.
- Una región ofrece una serie de servicios "cloud" basados en recursos alojados en esa región basándose en las leyes del país.
- Actualmente, hay 24 regiones en el mundo (Londres, Sídney, Montreal, Sao Paulo...), más 4 adicionales en proceso de incorporación.
- Hay cuatro aspectos clave para elegir la región adecuada:
- Latencia y ubicación de usuarios: es mejor desplegar la aplicación en la región donde estén los usuarios para reducir la latencia.
- Costes de los servicios: puede haber diferencias significativas en los precios entre regiones debido a leyes y situación financiera local.
- Leyes vigentes: ejemplo, en Europa es necesario desplegar servicios en una región europea para cumplir con la GDPR.
- Disponibilidad de servicios: no todos los servicios están disponibles en todas las zonas; es necesario verificarlo antes de tomar una decisión.
- Una región se compone de "availability zones" (AZ) o zonas de disponibilidad, que son centros de datos.
- Cada región tiene varios "availability zones," aisladas e interconectadas con fibra óptica de baja latencia, alto ancho de banda y gran redundancia.
- Los centros de datos son lógicamente una única área, por lo que las aplicaciones se ejecutan simultáneamente en todos los centros de datos asociados a una región.
- Una falla en un centro de datos no debe afectar su disponibilidad ya que podrá respaldarse con otro.
- Los recursos o servicios contratados en una región no se replican en otras a menos que se especifique explícitamente.
- Si se replica una base de datos en dos regiones para aumentar la disponibilidad y fiabilidad, se paga por cada una de las regiones.
Servicios Transversales: Seguridad y Gestión
- AWS se centra en estos cinco puntos para garantizar la seguridad de las aplicaciones en la nube:
- Protección de datos: asegurar la información, las cuentas y los procesos en la nube ante accesos no autorizados a través de encriptación y gestión de claves.
- Gestión de identidad y acceso: herramientas para administrar la identidad de los usuarios y los permisos que tienen (AWS Identity & Access Management (AWS IAM), Amazon Cognito y AWS Organizations).
- Protección de la infraestructura: recursos para proteger las aplicaciones a nivel de red, con mecanismos de filtrado y protección contra ataques DDoS (AWS Shield).
- Detección de amenazas y monitorización continua: servicios de monitorización como AWS Config y AWS CloudTrail, y Amazon GuardDuty para detección de amenazas.
- Privacidad de los datos: AWS Artifact proporciona informes sobre el cumplimiento de prácticas para el manejo de datos sensibles.
- AWS, como otros proveedores, utiliza un modelo de responsabilidad compartida en seguridad:
- AWS se encarga de la seguridad de la nube (security of the cloud), protegiendo la infraestructura sobre la que se ejecutan los servicios.
- El usuario es responsable de la seguridad en la nube (security in the cloud), dependiendo del servicio contratado.
Servicios de computación
-
En los servicios de cómputo, AWS tiene Amazon Elastic Compute Cloud (EC2), equivalente a un servidor físico en la nube (IaaS).
-
Elastic Container Service (ECS) permite usar contenedores Docker.
-
Elastic Kubernetes Service (EKS) permite usar la tecnología Kubernetes (PaaS).
-
AWS Lambda ofrece computación "serverless" (FaaS).
-
AWS Lightsail (SaaS) ofrece opciones para desplegar aplicaciones web.
-
AWS EC2 y las tecnologías de contenedores son los servicios más interesantes para el despliegue de tecnologías "big data".
-
EC2 permite tener servidores virtuales bajo demanda llamados "instancias EC2".
-
Se pueden adquirir todas las instancias que se deseen y proporcionan flexibilidad para gestionarlas.
-
Al crear una instancia EC2, se configuran:
- Sistema operativo: se selecciona un "Amazon Machine Image" (AMI) que contiene el sistema operativo y la configuración de la instancia.
- Capacidad de cómputo, memoria y red: se elige la capacidad, tamaño de memoria RAM y características de red.
- Podemos modificar hardware a través de la API.
-
ECS es un servicio para implementar y escalar aplicaciones de contenedores Docker en AWS.
-
EKS es el servicio en implementa en AWS para contenedores Kubernetes.
-
AWS Fargate se usa para gestionar los contenedores sin tener que gestionar los servidores o clústeres.
Servicios de red
- Para conectar los recursos, AWS ofrece los servicios de red.
- Virtual Private Cloud (VPC) sirve para aislar la aplicación de un usuario del resto de aplicaciones.
- VPC permite aislar todos los datos utilizados dentro de un marco aislado.
- Se puede dividir en subredes las cuales pueden regular el acceso.
- Para crear una VPC es habitual empezar por determinar la región y el rango IP que utilizarse, definir una subred, y por último crear una instancia de EC2 conectada a la subred.
- Una VPC engloba todas las zonas de disponibilidad (AZ) de una región.
- AWS ofrece una VPC por defecto en cada región.
Servicios de almacenamiento
-
El almacenamiento es una de las partes críticas de la arquitectura de una aplicación.
-
AWS cuenta con varios servicios de almacenamiento ofrecidos a través de Internet.
-
Amazon Elastic Block Store (EBS) está orientado a volúmenes de bloques, para usarlo en instancias EC2 con la finalidad de proporcionar almacenamiento persistente.
-
Cada servicio EBS está asociado a una única instancia EC2.
-
Cada volumen EBS se replica automáticamente dentro de una AZ.
-
Amazon Simple Storage Service (Amazon S3) almacena datos como "objetos" (ficheros) dentro de recursos llamados "buckets".
-
Se pueden almacenar casi ilimitados objetos de hasta 5TB cada uno en un "bucket".
-
Se cuenta con un control de acceso y auditoria de acceso y modificación.
-
Amazon Elastic File System (EFS) proporciona almacenamiento para archivos en la nube, similar a un NAS.
-
Múltiples instancias EC2 pueden acceder a un mismo sistema de ficheros EFS simultáneamente.
-
Amazon S3 permite almacenar objetos (ficheros) en "buckets" con diferentes tipos de almacenamiento según su frecuencia de acceso:
- Standard: Almacenamiento de propósito general.
- Standar-Infrequent Access (IA): Para datos que no se acceden de forma frecuente.
- One Zone-Infrequent Access: Para datos que no se acceden de forma frecuente y se almacenan en una única AZ.
- Intelligent Tiering: Amazon decide en qué tipo de almacenamiento S3 guardar los datos.
- Glacier: Para archivar datos que son accedidos muy ocasionalmente.
-
Se pueden programar acciones de transición (reglas) para mover los datos entre los diferentes tipos de almacenamiento, así como programar reglas de caducidad para poder eliminar los archivos.
-
ES posible encriptar objetos de S3 hasta con cuatro opciones distintas de encriptación:
- SSE-S3
- SSE-KMS
- SSe-C
- CSE
Bases de Datos
- En AWS, las bases de datos son una de las herramientas clave.
- Una de las alternativas es utilizar el servicio EC2 descrito anteriormente. Basta con instalar la base de datos que elijamos en la instancia EC2. Aunque la gestión del "hardware" sera responsabilidad del proveedor, AWS, será responsabilidad del usuario gestionar el resto.
- AWS cuenta con Amazon Relational Database Service (Amazon RDS), que proporciona diferentes tipos de bases de datos relacional, lo cual hace que ya no tengamos que preocuparnos por toda la infraestructura física.
- Amazon RDS ofrece seis motores de base de datos: PostgreSQL, MySQL, MariaDB, Oracle, Microsoft SQL Server y Amazon Aurora.
- Amazon Aurora es una base de datos nativa en la nube, compatible con MySQL y PostgreSQL, que mejora las prestaciones de los motores originales.
- AWS Database Migration Service (AWS DMS) permite de ayudar a migrar bases de datos, tanto "on-premises" como en otras plataformas.
- Amazon ofrece DynamoDB, para las bases de datos NoSQL con latencias por debajo de10 ms a cualquier escala. Al igual que ocurre con los servicios anteriores, AWS gestiona todo.
- DynamoDB soporta modelos de almacenamiento tanto de documento como de clave-valor. En DynamoDB, lo que se define son los requisitos de rendimiento en términos de rapidez.
- Amazon ElastiCache permite construir y ejecutar en la nube bases de datos en memoria compatibles con Redis o Memcached.
- Amazon DocumentDB es una base de datos de documentos no relacional compatible con MongoDB y gestionada completamente por Amazon y ofrece características rapidez, escalabilidad y alta disponibilidad.
Servicios de "big data" y analítica
-
AWS ofrece un abanico de servicios relacionados con el mundo "big data."
-
Pueden utilizarse instancias EC2 (IaaS) para instalar y gestionar las herramientas "big data" así como si fuese un clúster local.
-
Amazon Elastic MapReduce (Amazon EMR) es una plataforma que proporciona tecnologías Hadoop sobre instancias EC2. Incluye: HDFS, YARN, Tez, Zookeeper, Spark, HBase, Presto, Flink, Hive, ademas de Notebooks con integración con otros servicios.
-
Un clúster EMR se compone por:
- Un nodo maestro (máster), presente siempre en cualquier clúster, es una instancia EC2 que se encarga de gestionar el clúster.
- Core nodos, componen el sistema de ficheros HDFS, ademas de ejecutar tareas.
- Task nodos, ejecutan únicamente tareas y no almacenan nada (no son perte del HDFS).
-
AWS ofrece las siguientes alternativas para almacenar datos:
- EMR File System (EMRFS), un sistema que permite acceder a S3 como si fuera HDFS.
- El sistema de ficheros local, que no está distribuido y es menos eficiente y es utilizado generalmente en el nodo máster.
- EBS para HDFS, donde EBS se emplea para almacenar los datos como si fuera HDFS, sin necesidad de tener instancias EC2 ejecuntándose continuamente.
-
Amazon Managed Streaming for Apache Kafka (Amazon MSK) es un servicio que gestiona Apache Kafka, agilizando la complejidad del clúster ademas de simplificar la tarea de crear "Kafka" apps y conectarlas a través de una API nativa.
-
AWS Glue proporciona un editor visual que señala las rutas donde encontrar los datos, tanto sea en AWS como en otras fuentes accesibles mediante JDBC.
-
A través de Glue ETL transforma, limpia y enriquece datos. Ademas su código ETL se escribe en Python o Scala. Ademas, Amazon Athena es un servicio "serverless" para realizar consultas interactivas a datos almacenados en S3, sin necesidad de cargarlos.
-
Amazon Kinesis es alternativa a Apache Kafka y Spark Streaming, una tecnología propietaria en la cual datos en tiempo real replican rápidamente para evitar perdida de información, se usa para el procesamiento de "logs" mediciones loT y flujos de clics.
- Ademas se puede hacer ingestión de datos a gran escala con baja latencia.
- Analíticas se realizan en tiempo real
Machine learning e inteligencia artificial
- Muchos proveedores incluyen servicios de "machine learning"
- AWS ofrece servicios IaaS donde existen instancias EC2 configuradas con "hardware" específico (como GPU).
- Amazon SageMaker es un servicio que brinda la oportunidad de construir, entrenar y desplegar modelos de "machine learning".
- Amazon SageMaker Ground Truth ayuda a construir conjuntos de datos etiquetados.
- Amazon SageMaker Studio es un entorno de desarrollo integrado (IDE) web para el proceso de construcción.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.