Ciencia de Datos: Conceptos Fundamentales
18 Questions
2 Views

Ciencia de Datos: Conceptos Fundamentales

Created by
@CushyLasVegas

Questions and Answers

¿Qué es la Ciencia de Datos?

Una disciplina que combina estadísticas, análisis de datos, aprendizaje automático y métodos computacionales para extraer conocimientos de diferentes tipos de datos.

¿Cuál es el objetivo principal de la ciencia de datos?

  • Almacenar datos
  • Entender los datos para resolver problemas (correct)
  • Mostrar datos en gráficos
  • Recoger datos
  • Define el término 'Dato'.

    Es el nivel más básico, como una cifra o un texto sin contexto.

    El ciclo de un pipeline de datos incluye la etapa de ______.

    <p>Análisis</p> Signup and view all the answers

    ¿Qué son las 5 Vs que describen Big Data?

    <p>Volumen, Velocidad, Variedad, Veracidad, Valor</p> Signup and view all the answers

    ¿Qué es un dataset?

    <p>Una colección de información organizada en forma de tabla.</p> Signup and view all the answers

    El Data Warehouse se utiliza principalmente para almacenar y analizar grandes cantidades de datos.

    <p>True</p> Signup and view all the answers

    Menciona una característica clave de un Data Warehouse.

    <p>Orientado al tema, integrado, no volátil, o histórico.</p> Signup and view all the answers

    ¿Qué es Big Data?

    <p>Se refiere a grandes volúmenes de datos, que son demasiado complejos para ser gestionados y procesados con métodos tradicionales.</p> Signup and view all the answers

    ¿Cuáles son los tipos de datos que se manejan en Big Data?

    <p>Estructurados</p> Signup and view all the answers

    ¿Qué es ETL?

    <p>Es el proceso de Extracción, Transformación y Carga utilizado en Data Warehouses.</p> Signup and view all the answers

    Las métricas de calidad de datos incluyen la ______, que mide qué porcentaje de los datos esperados están presentes.

    <p>completitud</p> Signup and view all the answers

    Relaciona las métricas de calidad de datos con su descripción:

    <p>Completitud = Mide el porcentaje de datos presentes Validez = Indica si los datos cumplen con reglas establecidas Integridad = Asegura que los datos estén correctos y completos Oportunidad = Asegura que los datos estén disponibles a tiempo</p> Signup and view all the answers

    ¿Qué es el modelo de copo de nieve?

    <p>Es una variación del modelo estrella donde las tablas de dimensiones están normalizadas.</p> Signup and view all the answers

    Identifica qué pasos son parte de los requerimientos de Data Warehouse:

    <p>Establecer KPIs</p> Signup and view all the answers

    ¿Qué es un DSS activo?

    <p>Automatiza acciones</p> Signup and view all the answers

    ¿Cuál es la principal diferencia entre OLAP y OLTP?

    <p>OLAP se enfoca en análisis y toma de decisiones, mientras que OLTP se centra en la gestión de transacciones en tiempo real.</p> Signup and view all the answers

    ¿Qué maneja OLAP?

    <p>Grandes volúmenes de datos históricos</p> Signup and view all the answers

    Study Notes

    Ciencia de Datos

    • Disciplina que integra estadísticas, análisis de datos, aprendizaje automático y métodos computacionales.
    • Se enfoca en extraer conocimientos útiles de datos estructurados (en tablas) y no estructurados (textos, imágenes, videos).
    • Objetivo principal: comprender datos para resolver problemas y generar nuevos insights.

    Jerarquía de información

    • Dato: Elemento básico sin contexto, ejemplo: "42".
    • Información: Dato en un contexto, ejemplo: "42 grados Celsius".
    • Conocimiento: Aplicación de la información, ejemplo: "Una persona con 42 grados de fiebre debe ser atendida".
    • Sabiduría: Uso del conocimiento en un marco temporal y de razón, ejemplo: "Fiebre alta requiere atención médica urgente".

    Pipeline de Datos

    • Proceso que transforma datos desde su origen hasta el destino final.
    • Etapas del pipeline:
      • Extracción: Recolección de datos de múltiples fuentes (bases de datos, archivos).
      • Transformación: Limpieza y conversión de datos en un formato adecuado.
      • Análisis: Calculos y obtención de insights a partir de datos transformados.
      • Visualización o Almacenamiento: Presentación de resultados (gráficos, informes) o almacenamiento seguro.

    Big Data

    • Se refiere a conjuntos de datos grandes y complejos que los métodos tradicionales no pueden procesar eficazmente.
    • Descrito por las 5 Vs:
      • Volumen: Cantidad masiva de datos.
      • Velocidad: Rapidez de generación y procesamiento de datos.
      • Variedad: Diversidad de tipos de datos (textos, imágenes, videos).
      • Veracidad: Fiabilidad y precisión de los datos.
      • Valor: Capacidad de convertir datos en información útil para la toma de decisiones.
    • Empleado en diversas industrias para detectar patrones y mejorar decisiones en áreas como atención al cliente y marketing.

    Dataset

    • Conjunto de datos organizado en forma de tabla.
    • Columnas: Representan variables (edad, peso).
    • Filas: Representan observaciones (individuos o elementos analizados).
    • Fundamentales en ciencia de datos para entrenar y evaluar modelos de análisis o aprendizaje automático.

    Data Warehouse

    • Sistema diseñado para almacenar y analizar grandes cantidades de datos de diversas fuentes.
    • Centrales en facilitar la toma de decisiones empresariales basadas en datos.
    • Características clave:
      • Orientado al tema: Organización de datos por temas (clientes, productos).
      • Integrado: Unificación de datos de diferentes fuentes.
      • No volátil: Almacenamiento de datos sin cambios ni eliminaciones.
      • Histórico: Conservar datos a largo plazo para análisis de tendencias.

    Arquitectura de un Data Warehouse

    • Compuesta por tres capas principales:
      • Capa Superior (Top Tier): Herramientas de minería de datos, informes, análisis y consultas.
      • Capa Intermedia (Middle Tier): Contiene el servidor OLAP para procesamiento analítico y cálculos complejos.
      • Capa Inferior (Bottom Tier): Parte no mencionada pero esencial para la estructura del sistema.

    Ciencia de Datos

    • Disciplina que utiliza métodos científicos, algoritmos y sistemas para obtener conocimientos de datos.
    • Combina estadística, análisis de datos, informática y aprendizaje automático.

    Big Data

    • Alude a grandes volúmenes de datos que no pueden ser gestionados por métodos tradicionales.
    • Tipos de datos en Big Data:
      • Estructurados: Datos organizados en formatos predefinidos, como bases de datos relacionales.
      • No estructurados: Datos sin una estructura establecida, como texto, imágenes, audios y videos.

    ETL (Extracción, Transformación y Carga)

    • Proceso fundamental en Data Warehouses:
      • Extracción: Conseguir datos de diversas fuentes.
      • Transformación: Limpiar y adaptar los datos para su uso adecuado.
      • Carga: Almacenar los datos procesados en un sistema de destino.

    Métricas de Calidad de Datos

    • Completitud: Porcentaje de datos esperados que están presentes.
    • Validez: Cumplimiento de los datos con formatos o reglas establecidas.
    • Integridad: Verificación de que los datos estén completos y correctos.
    • Oportunidad: Disponibilidad de los datos en el momento necesario para la toma de decisiones.

    Modelo de Copo de Nieve

    • Variación del modelo estrella en Data Warehousing.
    • Las tablas de dimensiones están normalizadas, dividiéndose en subtablas para reducir redundancias.
    • Mejora la eficiencia del almacenamiento pero complica las consultas.

    Pasos de los Requerimientos de Data Warehouse

    • Identificación de stakeholders: Determinar quiénes utilizarán el Data Warehouse.
    • Entrevistas y encuestas: Recolectar requerimientos de los usuarios.
    • Análisis de fuentes de datos: Evaluar y elegir las fuentes que se usarán.
    • Definir KPIs: Establecer indicadores clave para evaluar el éxito.
    • Documentación: Registrar los requerimientos y decisiones tomadas.

    Tipos de Sistemas de Soporte de Decisiones

    • DSS Pasivo: Ofrece apoyo en la toma de decisiones sin sugerir acciones específicas.
    • DSS Activo: Ofrece sugerencias concretas y puede automatizar decisiones.
    • DSS Colaborativo: Facilita la comunicación entre usuarios para mejorar el proceso decisional.

    OLAP vs OLTP

    • OLAP (Online Analytical Processing):
      • Diseñado para consultas complejas y análisis de datos históricos.
      • Utiliza cubos de datos multidimensionales.
    • OLTP (Online Transaction Processing):
      • Enfocado en la gestión de transacciones en tiempo real.
      • Usa bases de datos relacionales.

    Diferencias entre OLAP y OLTP

    • Enfoque: OLAP se centra en análisis y decisiones, mientras que OLTP se centra en transacciones.
    • Volumen de datos: OLAP maneja grandes volúmenes históricos; OLTP gestiona transacciones individuales en tiempo real.

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Related Documents

    preguntas.txt

    Description

    Este cuestionario explora los conceptos clave de la ciencia de datos, incluyendo la jerarquía de información y el pipeline de datos. A través de preguntas sobre datos, información, conocimiento y sabiduría, se busca evaluar la comprensión de estos términos y su aplicación práctica. Ideal para aquellos que deseen profundizar en el análisis de datos y sus procesos.

    More Quizzes Like This

    Introduction to Data Science
    10 questions
    Data Analysis in IT
    8 questions
    Introduction to Data Science
    16 questions

    Introduction to Data Science

    SignificantQuadrilateral avatar
    SignificantQuadrilateral
    Einführung in Big Data
    119 questions
    Use Quizgecko on...
    Browser
    Browser