Ciencia de Datos Semana 3
40 Questions
1 Views

Ciencia de Datos Semana 3

Created by
@SuperbGroup

Questions and Answers

La arquitectura de datos solo se compone de una capa.

False

El almacenamiento NAS permite el acceso a datos mediante protocolo TCP/IP.

True

Los datos estructurados y no estructurados se pueden analizar utilizando técnicas de regresiones.

True

El almacenamiento SAN conecta dispositivos de almacenamiento a través de conexiones de red Wi-Fi.

<p>False</p> Signup and view all the answers

Los sistemas de archivos como Hadoop son parte de la capa de transformación y almacenamiento de datos.

<p>True</p> Signup and view all the answers

Las bases de datos NoSQL son siempre relacionales y utilizan SQL para su manejo.

<p>False</p> Signup and view all the answers

DAS implica el uso de almacenamiento accesible directamente desde dispositivos como discos duros.

<p>True</p> Signup and view all the answers

Las técnicas analíticas para el procedimiento de análisis incluyen únicamente árboles de decisión.

<p>False</p> Signup and view all the answers

HDFS permite almacenar información en una sola máquina.

<p>False</p> Signup and view all the answers

Mapreduce es el único método de procesamiento que utiliza Hadoop.

<p>False</p> Signup and view all the answers

Cassandra es una herramienta utilizada en almacenamiento tradicional.

<p>False</p> Signup and view all the answers

Python es un lenguaje de programación utilizado exclusivamente para procesamiento de datos.

<p>False</p> Signup and view all the answers

El sistema de archivos de Hadoop se llama HDFS.

<p>True</p> Signup and view all the answers

R es un lenguaje diseñado únicamente para la visualización de datos.

<p>False</p> Signup and view all the answers

Las bases de datos relacionales son parte del almacenamiento NoSQL.

<p>False</p> Signup and view all the answers

Hadoop y sus herramientas como Hive y Pig son de código abierto.

<p>True</p> Signup and view all the answers

SEMMA consiste en cinco pasos: Muestreo, Exploración, Modificación, Modelado y Evaluación.

<p>True</p> Signup and view all the answers

En la metodología CRISP-DM, se pueden realizar regresiones a las etapas previas pero no al inicio del ciclo.

<p>False</p> Signup and view all the answers

La interpretación de datos en minería implica presentar patrones y modelos mediante técnicas de visualización.

<p>True</p> Signup and view all the answers

El paso de evaluación en SEMMA es opcional y no siempre se incluye en el proceso de análisis.

<p>False</p> Signup and view all the answers

La etapa de comprensión del negocio en CRISP-DM busca identificar patrones iniciales en los datos.

<p>False</p> Signup and view all the answers

La metodología SEMMA se centra en trabajar con datos completos y no en muestras representativas.

<p>False</p> Signup and view all the answers

El análisis preliminar de datos en SEMMA se realiza durante la fase de Modificación.

<p>False</p> Signup and view all the answers

CRISP-DM combina el negocio con la ciencia de datos y abarca seis fases completas.

<p>True</p> Signup and view all the answers

Las transacciones u operaciones se generan únicamente por el uso de redes sociales.

<p>False</p> Signup and view all the answers

La recopilación de datos debe comenzar sin una definición previa de los objetivos.

<p>False</p> Signup and view all the answers

Las fuentes de información para la recopilación de datos son limitadas a los registros médicos electrónicos.

<p>False</p> Signup and view all the answers

Los datos recopilados pueden ser estructurados, no estructurados o semi estructurados.

<p>True</p> Signup and view all the answers

El análisis de datos sirve únicamente como un insumo para la organización.

<p>False</p> Signup and view all the answers

Los datos generados por personas provienen exclusivamente de grabaciones de atención al cliente.

<p>False</p> Signup and view all the answers

El proceso de recopilación de datos es un simple paso a paso.

<p>False</p> Signup and view all the answers

La técnica de recopilación de datos elegida no influye en los objetivos de la investigación.

<p>False</p> Signup and view all the answers

Las técnicas de recopilación de datos sólo se basan en fuentes secundarias como libros y revistas.

<p>False</p> Signup and view all the answers

Es fundamental definir claramente los objetivos de la investigación al inicio del proceso.

<p>True</p> Signup and view all the answers

El tiempo no tiene impacto en la duración del proceso de recolección de datos.

<p>False</p> Signup and view all the answers

La validación del instrumento para la recopilación de información es opcional y no afecta su efectividad.

<p>False</p> Signup and view all the answers

El investigador es la persona encargada de desarrollar la metodología del estudio.

<p>False</p> Signup and view all the answers

Los recursos económicos no son un factor a considerar en el proceso de investigación.

<p>False</p> Signup and view all the answers

Las encuestas son una técnica de recolección de datos que se clasifica como fuente secundaria.

<p>False</p> Signup and view all the answers

La recolección de información se realiza mediante la implementación del instrumento diseñado por el investigador.

<p>True</p> Signup and view all the answers

Study Notes

Minería de Datos

  • Aplicación de algoritmos para extraer información valiosa de los datos.
  • Identificación de patrones y modelos para su presentación mediante técnicas de visualización.

SEMMA

  • Metodología en ciencia de datos centrada en la muestra representativa.
  • Muestreo: Selección de una muestra para análisis.
  • Exploración: Análisis inicial utilizando estadísticas para identificar relevancia y corregir anomalías.
  • Modificación: Transformación de datos basada en variables definidas.
  • Modelado: Utilización de algoritmos de minería de datos para asociar datos.
  • Evaluación: Verificación del éxito del modelo, con posibilidad de regresar a etapas anteriores.

CRISP-DM

  • Modelo estándar para minería de datos, desarrollado por IBM.
  • Permite regresar a etapas anteriores y reiniciar el ciclo.
  • Comprensión del negocio: Identificación de objetivos organizacionales.
  • Comprensión de los datos: Recolección y exploración inicial de datos.
  • Preparación de los datos: Análisis y descripción estadística de variables.

Herramientas y Tecnologías en Ciencia de Datos

  • Distinción crucial entre herramientas de almacenamiento y procesamiento de datos.
  • Hadoop: Plataforma para almacenamiento y procesamiento de grandes volúmenes de datos.
    • Utiliza HDFS (Hadoop Distributed File System) para almacenamiento distribuido.
    • Implementa MapReduce para procesamiento de datos.
  • Hive y Pig: Herramientas alternativas a MapReduce, simplifican el procesamiento de datos.

Tipos de Almacenamiento de Datos

  • Almacenamiento Tradicional: Ficheros y bases de datos relacionales, como SQL y Excel.
  • NoSQL: Herramientas para datos no estructurados, como Cassandra.

Herramientas de Procesamiento

  • Comerciales: IBM y SAS son ejemplos populares en entornos comerciales.
  • De Código Abierto:
    • R: Lenguaje enfocado en análisis estadísticos y visualización.
    • Python: Lenguaje versátil para analítica, minería de datos, y machine learning.

Arquitectura de Datos

  • Fundamental para la interacción eficiente entre hardware y software en ciencia de datos.
  • Cuatro capas propuestas por IBM:
    • Fuente de Datos: Diversas fuentes como sensores, redes sociales, dispositivos conectados.
    • Transformación y Almacenamiento: Conexión y transformación de datos para procesamiento.
    • Procedimiento de Análisis: Uso de técnicas analíticas para extraer información relevante.
    • Consumo de Datos: Entrega de resultados a usuarios finales.

Comparación SQL vs NoSQL

  • SQL: Bases de datos relacionales que organizan datos en tablas relacionadas, fáciles de manejar y ampliamente utilizadas.
  • NoSQL: Preferidas para datos no estructurados y en situaciones donde SQL no es suficiente.

Proceso de Recopilación de Datos

  • La recopilación no es lineal, implica planificación y revisión constante.
  • Definición de Objetivos: Establecer claros objetivos relacionados con el estudio.
  • Fuentes de Información: Considerar múltiples tipos de fuentes (biométrica, transacciones, web).
  • Tipo de Datos: Identificar datos estructurados, no estructurados o semi estructurados.
  • Herramientas de Almacenamiento: Evaluar si se requieren actualizaciones en herramientas.
  • Recursos: Estimar costos, personal, y tiempo necesarios para la recopilación.

Técnicas de Obtención de Datos

  • Procedimientos utilizados para obtener información fiable y relevante.
  • Fuentes de Información:
    • Primaria: Encuestas, entrevistas, observaciones.
    • Secundaria: Documentos, bibliografía.
  • Validación del Instrumento: Usar focus groups para comprobar efectividad de instrumentos de recolección.
  • Implementación: Ejecución de instrumentos para recoger los datos necesarios.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Description

Explora los conceptos fundamentales de la arquitectura de datos en el campo de la ciencia de datos. Este cuestionario abarca la importancia de la interacción entre hardware y software, así como las diferentes capas propuestas por IBM. Adéntrate en el manejo de datos y técnicas modernas como el machine learning e inteligencia artificial.

More Quizzes Like This

Use Quizgecko on...
Browser
Browser