Podcast
Questions and Answers
La arquitectura de datos solo se compone de una capa.
La arquitectura de datos solo se compone de una capa.
False
El almacenamiento NAS permite el acceso a datos mediante protocolo TCP/IP.
El almacenamiento NAS permite el acceso a datos mediante protocolo TCP/IP.
True
Los datos estructurados y no estructurados se pueden analizar utilizando técnicas de regresiones.
Los datos estructurados y no estructurados se pueden analizar utilizando técnicas de regresiones.
True
El almacenamiento SAN conecta dispositivos de almacenamiento a través de conexiones de red Wi-Fi.
El almacenamiento SAN conecta dispositivos de almacenamiento a través de conexiones de red Wi-Fi.
Signup and view all the answers
Los sistemas de archivos como Hadoop son parte de la capa de transformación y almacenamiento de datos.
Los sistemas de archivos como Hadoop son parte de la capa de transformación y almacenamiento de datos.
Signup and view all the answers
Las bases de datos NoSQL son siempre relacionales y utilizan SQL para su manejo.
Las bases de datos NoSQL son siempre relacionales y utilizan SQL para su manejo.
Signup and view all the answers
DAS implica el uso de almacenamiento accesible directamente desde dispositivos como discos duros.
DAS implica el uso de almacenamiento accesible directamente desde dispositivos como discos duros.
Signup and view all the answers
Las técnicas analíticas para el procedimiento de análisis incluyen únicamente árboles de decisión.
Las técnicas analíticas para el procedimiento de análisis incluyen únicamente árboles de decisión.
Signup and view all the answers
HDFS permite almacenar información en una sola máquina.
HDFS permite almacenar información en una sola máquina.
Signup and view all the answers
Mapreduce es el único método de procesamiento que utiliza Hadoop.
Mapreduce es el único método de procesamiento que utiliza Hadoop.
Signup and view all the answers
Cassandra es una herramienta utilizada en almacenamiento tradicional.
Cassandra es una herramienta utilizada en almacenamiento tradicional.
Signup and view all the answers
Python es un lenguaje de programación utilizado exclusivamente para procesamiento de datos.
Python es un lenguaje de programación utilizado exclusivamente para procesamiento de datos.
Signup and view all the answers
El sistema de archivos de Hadoop se llama HDFS.
El sistema de archivos de Hadoop se llama HDFS.
Signup and view all the answers
R es un lenguaje diseñado únicamente para la visualización de datos.
R es un lenguaje diseñado únicamente para la visualización de datos.
Signup and view all the answers
Las bases de datos relacionales son parte del almacenamiento NoSQL.
Las bases de datos relacionales son parte del almacenamiento NoSQL.
Signup and view all the answers
Hadoop y sus herramientas como Hive y Pig son de código abierto.
Hadoop y sus herramientas como Hive y Pig son de código abierto.
Signup and view all the answers
SEMMA consiste en cinco pasos: Muestreo, Exploración, Modificación, Modelado y Evaluación.
SEMMA consiste en cinco pasos: Muestreo, Exploración, Modificación, Modelado y Evaluación.
Signup and view all the answers
En la metodología CRISP-DM, se pueden realizar regresiones a las etapas previas pero no al inicio del ciclo.
En la metodología CRISP-DM, se pueden realizar regresiones a las etapas previas pero no al inicio del ciclo.
Signup and view all the answers
La interpretación de datos en minería implica presentar patrones y modelos mediante técnicas de visualización.
La interpretación de datos en minería implica presentar patrones y modelos mediante técnicas de visualización.
Signup and view all the answers
El paso de evaluación en SEMMA es opcional y no siempre se incluye en el proceso de análisis.
El paso de evaluación en SEMMA es opcional y no siempre se incluye en el proceso de análisis.
Signup and view all the answers
La etapa de comprensión del negocio en CRISP-DM busca identificar patrones iniciales en los datos.
La etapa de comprensión del negocio en CRISP-DM busca identificar patrones iniciales en los datos.
Signup and view all the answers
La metodología SEMMA se centra en trabajar con datos completos y no en muestras representativas.
La metodología SEMMA se centra en trabajar con datos completos y no en muestras representativas.
Signup and view all the answers
El análisis preliminar de datos en SEMMA se realiza durante la fase de Modificación.
El análisis preliminar de datos en SEMMA se realiza durante la fase de Modificación.
Signup and view all the answers
CRISP-DM combina el negocio con la ciencia de datos y abarca seis fases completas.
CRISP-DM combina el negocio con la ciencia de datos y abarca seis fases completas.
Signup and view all the answers
Las transacciones u operaciones se generan únicamente por el uso de redes sociales.
Las transacciones u operaciones se generan únicamente por el uso de redes sociales.
Signup and view all the answers
La recopilación de datos debe comenzar sin una definición previa de los objetivos.
La recopilación de datos debe comenzar sin una definición previa de los objetivos.
Signup and view all the answers
Las fuentes de información para la recopilación de datos son limitadas a los registros médicos electrónicos.
Las fuentes de información para la recopilación de datos son limitadas a los registros médicos electrónicos.
Signup and view all the answers
Los datos recopilados pueden ser estructurados, no estructurados o semi estructurados.
Los datos recopilados pueden ser estructurados, no estructurados o semi estructurados.
Signup and view all the answers
El análisis de datos sirve únicamente como un insumo para la organización.
El análisis de datos sirve únicamente como un insumo para la organización.
Signup and view all the answers
Los datos generados por personas provienen exclusivamente de grabaciones de atención al cliente.
Los datos generados por personas provienen exclusivamente de grabaciones de atención al cliente.
Signup and view all the answers
El proceso de recopilación de datos es un simple paso a paso.
El proceso de recopilación de datos es un simple paso a paso.
Signup and view all the answers
La técnica de recopilación de datos elegida no influye en los objetivos de la investigación.
La técnica de recopilación de datos elegida no influye en los objetivos de la investigación.
Signup and view all the answers
Las técnicas de recopilación de datos sólo se basan en fuentes secundarias como libros y revistas.
Las técnicas de recopilación de datos sólo se basan en fuentes secundarias como libros y revistas.
Signup and view all the answers
Es fundamental definir claramente los objetivos de la investigación al inicio del proceso.
Es fundamental definir claramente los objetivos de la investigación al inicio del proceso.
Signup and view all the answers
El tiempo no tiene impacto en la duración del proceso de recolección de datos.
El tiempo no tiene impacto en la duración del proceso de recolección de datos.
Signup and view all the answers
La validación del instrumento para la recopilación de información es opcional y no afecta su efectividad.
La validación del instrumento para la recopilación de información es opcional y no afecta su efectividad.
Signup and view all the answers
El investigador es la persona encargada de desarrollar la metodología del estudio.
El investigador es la persona encargada de desarrollar la metodología del estudio.
Signup and view all the answers
Los recursos económicos no son un factor a considerar en el proceso de investigación.
Los recursos económicos no son un factor a considerar en el proceso de investigación.
Signup and view all the answers
Las encuestas son una técnica de recolección de datos que se clasifica como fuente secundaria.
Las encuestas son una técnica de recolección de datos que se clasifica como fuente secundaria.
Signup and view all the answers
La recolección de información se realiza mediante la implementación del instrumento diseñado por el investigador.
La recolección de información se realiza mediante la implementación del instrumento diseñado por el investigador.
Signup and view all the answers
Study Notes
Minería de Datos
- Aplicación de algoritmos para extraer información valiosa de los datos.
- Identificación de patrones y modelos para su presentación mediante técnicas de visualización.
SEMMA
- Metodología en ciencia de datos centrada en la muestra representativa.
- Muestreo: Selección de una muestra para análisis.
- Exploración: Análisis inicial utilizando estadísticas para identificar relevancia y corregir anomalías.
- Modificación: Transformación de datos basada en variables definidas.
- Modelado: Utilización de algoritmos de minería de datos para asociar datos.
- Evaluación: Verificación del éxito del modelo, con posibilidad de regresar a etapas anteriores.
CRISP-DM
- Modelo estándar para minería de datos, desarrollado por IBM.
- Permite regresar a etapas anteriores y reiniciar el ciclo.
- Comprensión del negocio: Identificación de objetivos organizacionales.
- Comprensión de los datos: Recolección y exploración inicial de datos.
- Preparación de los datos: Análisis y descripción estadística de variables.
Herramientas y Tecnologías en Ciencia de Datos
- Distinción crucial entre herramientas de almacenamiento y procesamiento de datos.
-
Hadoop: Plataforma para almacenamiento y procesamiento de grandes volúmenes de datos.
- Utiliza HDFS (Hadoop Distributed File System) para almacenamiento distribuido.
- Implementa MapReduce para procesamiento de datos.
- Hive y Pig: Herramientas alternativas a MapReduce, simplifican el procesamiento de datos.
Tipos de Almacenamiento de Datos
- Almacenamiento Tradicional: Ficheros y bases de datos relacionales, como SQL y Excel.
- NoSQL: Herramientas para datos no estructurados, como Cassandra.
Herramientas de Procesamiento
- Comerciales: IBM y SAS son ejemplos populares en entornos comerciales.
-
De Código Abierto:
- R: Lenguaje enfocado en análisis estadísticos y visualización.
- Python: Lenguaje versátil para analítica, minería de datos, y machine learning.
Arquitectura de Datos
- Fundamental para la interacción eficiente entre hardware y software en ciencia de datos.
- Cuatro capas propuestas por IBM:
- Fuente de Datos: Diversas fuentes como sensores, redes sociales, dispositivos conectados.
- Transformación y Almacenamiento: Conexión y transformación de datos para procesamiento.
- Procedimiento de Análisis: Uso de técnicas analíticas para extraer información relevante.
- Consumo de Datos: Entrega de resultados a usuarios finales.
Comparación SQL vs NoSQL
- SQL: Bases de datos relacionales que organizan datos en tablas relacionadas, fáciles de manejar y ampliamente utilizadas.
- NoSQL: Preferidas para datos no estructurados y en situaciones donde SQL no es suficiente.
Proceso de Recopilación de Datos
- La recopilación no es lineal, implica planificación y revisión constante.
- Definición de Objetivos: Establecer claros objetivos relacionados con el estudio.
- Fuentes de Información: Considerar múltiples tipos de fuentes (biométrica, transacciones, web).
- Tipo de Datos: Identificar datos estructurados, no estructurados o semi estructurados.
- Herramientas de Almacenamiento: Evaluar si se requieren actualizaciones en herramientas.
- Recursos: Estimar costos, personal, y tiempo necesarios para la recopilación.
Técnicas de Obtención de Datos
- Procedimientos utilizados para obtener información fiable y relevante.
-
Fuentes de Información:
- Primaria: Encuestas, entrevistas, observaciones.
- Secundaria: Documentos, bibliografía.
- Validación del Instrumento: Usar focus groups para comprobar efectividad de instrumentos de recolección.
- Implementación: Ejecución de instrumentos para recoger los datos necesarios.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
Explora los conceptos fundamentales de la arquitectura de datos en el campo de la ciencia de datos. Este cuestionario abarca la importancia de la interacción entre hardware y software, así como las diferentes capas propuestas por IBM. Adéntrate en el manejo de datos y técnicas modernas como el machine learning e inteligencia artificial.