Podcast
Questions and Answers
La arquitectura de datos solo se compone de una capa.
La arquitectura de datos solo se compone de una capa.
False (B)
El almacenamiento NAS permite el acceso a datos mediante protocolo TCP/IP.
El almacenamiento NAS permite el acceso a datos mediante protocolo TCP/IP.
True (A)
Los datos estructurados y no estructurados se pueden analizar utilizando técnicas de regresiones.
Los datos estructurados y no estructurados se pueden analizar utilizando técnicas de regresiones.
True (A)
El almacenamiento SAN conecta dispositivos de almacenamiento a través de conexiones de red Wi-Fi.
El almacenamiento SAN conecta dispositivos de almacenamiento a través de conexiones de red Wi-Fi.
Los sistemas de archivos como Hadoop son parte de la capa de transformación y almacenamiento de datos.
Los sistemas de archivos como Hadoop son parte de la capa de transformación y almacenamiento de datos.
Las bases de datos NoSQL son siempre relacionales y utilizan SQL para su manejo.
Las bases de datos NoSQL son siempre relacionales y utilizan SQL para su manejo.
DAS implica el uso de almacenamiento accesible directamente desde dispositivos como discos duros.
DAS implica el uso de almacenamiento accesible directamente desde dispositivos como discos duros.
Las técnicas analíticas para el procedimiento de análisis incluyen únicamente árboles de decisión.
Las técnicas analíticas para el procedimiento de análisis incluyen únicamente árboles de decisión.
HDFS permite almacenar información en una sola máquina.
HDFS permite almacenar información en una sola máquina.
Mapreduce es el único método de procesamiento que utiliza Hadoop.
Mapreduce es el único método de procesamiento que utiliza Hadoop.
Cassandra es una herramienta utilizada en almacenamiento tradicional.
Cassandra es una herramienta utilizada en almacenamiento tradicional.
Python es un lenguaje de programación utilizado exclusivamente para procesamiento de datos.
Python es un lenguaje de programación utilizado exclusivamente para procesamiento de datos.
El sistema de archivos de Hadoop se llama HDFS.
El sistema de archivos de Hadoop se llama HDFS.
R es un lenguaje diseñado únicamente para la visualización de datos.
R es un lenguaje diseñado únicamente para la visualización de datos.
Las bases de datos relacionales son parte del almacenamiento NoSQL.
Las bases de datos relacionales son parte del almacenamiento NoSQL.
Hadoop y sus herramientas como Hive y Pig son de código abierto.
Hadoop y sus herramientas como Hive y Pig son de código abierto.
SEMMA consiste en cinco pasos: Muestreo, Exploración, Modificación, Modelado y Evaluación.
SEMMA consiste en cinco pasos: Muestreo, Exploración, Modificación, Modelado y Evaluación.
En la metodología CRISP-DM, se pueden realizar regresiones a las etapas previas pero no al inicio del ciclo.
En la metodología CRISP-DM, se pueden realizar regresiones a las etapas previas pero no al inicio del ciclo.
La interpretación de datos en minería implica presentar patrones y modelos mediante técnicas de visualización.
La interpretación de datos en minería implica presentar patrones y modelos mediante técnicas de visualización.
El paso de evaluación en SEMMA es opcional y no siempre se incluye en el proceso de análisis.
El paso de evaluación en SEMMA es opcional y no siempre se incluye en el proceso de análisis.
La etapa de comprensión del negocio en CRISP-DM busca identificar patrones iniciales en los datos.
La etapa de comprensión del negocio en CRISP-DM busca identificar patrones iniciales en los datos.
La metodología SEMMA se centra en trabajar con datos completos y no en muestras representativas.
La metodología SEMMA se centra en trabajar con datos completos y no en muestras representativas.
El análisis preliminar de datos en SEMMA se realiza durante la fase de Modificación.
El análisis preliminar de datos en SEMMA se realiza durante la fase de Modificación.
CRISP-DM combina el negocio con la ciencia de datos y abarca seis fases completas.
CRISP-DM combina el negocio con la ciencia de datos y abarca seis fases completas.
Las transacciones u operaciones se generan únicamente por el uso de redes sociales.
Las transacciones u operaciones se generan únicamente por el uso de redes sociales.
La recopilación de datos debe comenzar sin una definición previa de los objetivos.
La recopilación de datos debe comenzar sin una definición previa de los objetivos.
Las fuentes de información para la recopilación de datos son limitadas a los registros médicos electrónicos.
Las fuentes de información para la recopilación de datos son limitadas a los registros médicos electrónicos.
Los datos recopilados pueden ser estructurados, no estructurados o semi estructurados.
Los datos recopilados pueden ser estructurados, no estructurados o semi estructurados.
El análisis de datos sirve únicamente como un insumo para la organización.
El análisis de datos sirve únicamente como un insumo para la organización.
Los datos generados por personas provienen exclusivamente de grabaciones de atención al cliente.
Los datos generados por personas provienen exclusivamente de grabaciones de atención al cliente.
El proceso de recopilación de datos es un simple paso a paso.
El proceso de recopilación de datos es un simple paso a paso.
La técnica de recopilación de datos elegida no influye en los objetivos de la investigación.
La técnica de recopilación de datos elegida no influye en los objetivos de la investigación.
Las técnicas de recopilación de datos sólo se basan en fuentes secundarias como libros y revistas.
Las técnicas de recopilación de datos sólo se basan en fuentes secundarias como libros y revistas.
Es fundamental definir claramente los objetivos de la investigación al inicio del proceso.
Es fundamental definir claramente los objetivos de la investigación al inicio del proceso.
El tiempo no tiene impacto en la duración del proceso de recolección de datos.
El tiempo no tiene impacto en la duración del proceso de recolección de datos.
La validación del instrumento para la recopilación de información es opcional y no afecta su efectividad.
La validación del instrumento para la recopilación de información es opcional y no afecta su efectividad.
El investigador es la persona encargada de desarrollar la metodología del estudio.
El investigador es la persona encargada de desarrollar la metodología del estudio.
Los recursos económicos no son un factor a considerar en el proceso de investigación.
Los recursos económicos no son un factor a considerar en el proceso de investigación.
Las encuestas son una técnica de recolección de datos que se clasifica como fuente secundaria.
Las encuestas son una técnica de recolección de datos que se clasifica como fuente secundaria.
La recolección de información se realiza mediante la implementación del instrumento diseñado por el investigador.
La recolección de información se realiza mediante la implementación del instrumento diseñado por el investigador.
Flashcards are hidden until you start studying
Study Notes
Minería de Datos
- Aplicación de algoritmos para extraer información valiosa de los datos.
- Identificación de patrones y modelos para su presentación mediante técnicas de visualización.
SEMMA
- Metodología en ciencia de datos centrada en la muestra representativa.
- Muestreo: Selección de una muestra para análisis.
- Exploración: Análisis inicial utilizando estadísticas para identificar relevancia y corregir anomalías.
- Modificación: Transformación de datos basada en variables definidas.
- Modelado: Utilización de algoritmos de minería de datos para asociar datos.
- Evaluación: Verificación del éxito del modelo, con posibilidad de regresar a etapas anteriores.
CRISP-DM
- Modelo estándar para minería de datos, desarrollado por IBM.
- Permite regresar a etapas anteriores y reiniciar el ciclo.
- Comprensión del negocio: Identificación de objetivos organizacionales.
- Comprensión de los datos: Recolección y exploración inicial de datos.
- Preparación de los datos: Análisis y descripción estadística de variables.
Herramientas y Tecnologías en Ciencia de Datos
- Distinción crucial entre herramientas de almacenamiento y procesamiento de datos.
- Hadoop: Plataforma para almacenamiento y procesamiento de grandes volúmenes de datos.
- Utiliza HDFS (Hadoop Distributed File System) para almacenamiento distribuido.
- Implementa MapReduce para procesamiento de datos.
- Hive y Pig: Herramientas alternativas a MapReduce, simplifican el procesamiento de datos.
Tipos de Almacenamiento de Datos
- Almacenamiento Tradicional: Ficheros y bases de datos relacionales, como SQL y Excel.
- NoSQL: Herramientas para datos no estructurados, como Cassandra.
Herramientas de Procesamiento
- Comerciales: IBM y SAS son ejemplos populares en entornos comerciales.
- De Código Abierto:
- R: Lenguaje enfocado en análisis estadísticos y visualización.
- Python: Lenguaje versátil para analítica, minería de datos, y machine learning.
Arquitectura de Datos
- Fundamental para la interacción eficiente entre hardware y software en ciencia de datos.
- Cuatro capas propuestas por IBM:
- Fuente de Datos: Diversas fuentes como sensores, redes sociales, dispositivos conectados.
- Transformación y Almacenamiento: Conexión y transformación de datos para procesamiento.
- Procedimiento de Análisis: Uso de técnicas analíticas para extraer información relevante.
- Consumo de Datos: Entrega de resultados a usuarios finales.
Comparación SQL vs NoSQL
- SQL: Bases de datos relacionales que organizan datos en tablas relacionadas, fáciles de manejar y ampliamente utilizadas.
- NoSQL: Preferidas para datos no estructurados y en situaciones donde SQL no es suficiente.
Proceso de Recopilación de Datos
- La recopilación no es lineal, implica planificación y revisión constante.
- Definición de Objetivos: Establecer claros objetivos relacionados con el estudio.
- Fuentes de Información: Considerar múltiples tipos de fuentes (biométrica, transacciones, web).
- Tipo de Datos: Identificar datos estructurados, no estructurados o semi estructurados.
- Herramientas de Almacenamiento: Evaluar si se requieren actualizaciones en herramientas.
- Recursos: Estimar costos, personal, y tiempo necesarios para la recopilación.
Técnicas de Obtención de Datos
- Procedimientos utilizados para obtener información fiable y relevante.
- Fuentes de Información:
- Primaria: Encuestas, entrevistas, observaciones.
- Secundaria: Documentos, bibliografía.
- Validación del Instrumento: Usar focus groups para comprobar efectividad de instrumentos de recolección.
- Implementación: Ejecución de instrumentos para recoger los datos necesarios.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.