Full Transcript

Teoría: ¿Qué es la ciencia de datos? La ciencia de datos es una disciplina que utiliza métodos científicos, procesos, algoritmos y sistemas para extraer conocimientos e insights de datos estructurados y no estructurados. Combina disciplinas como las estadísticas, el análisis de datos, la informátic...

Teoría: ¿Qué es la ciencia de datos? La ciencia de datos es una disciplina que utiliza métodos científicos, procesos, algoritmos y sistemas para extraer conocimientos e insights de datos estructurados y no estructurados. Combina disciplinas como las estadísticas, el análisis de datos, la informática y el aprendizaje automático. ¿Qué es Big Data? ¿Qué tipos de datos hay en Big Data? Big Data se refiere a grandes volúmenes de datos, que son demasiado complejos para ser gestionados y procesados con métodos tradicionales. Los tipos de datos que se manejan en Big Data son: Estructurados: Datos que siguen un formato predefinido, como las bases de datos relacionales. No estructurados: Datos que no tienen una estructura predefinida, como texto, imágenes, audio, y video. ¿Qué es ETL? ETL es el proceso de Extracción, Transformación y Carga, utilizado en Data Warehouses: Extracción: Obtener datos desde múltiples fuentes. Transformación: Limpiar y modificar los datos para adecuarlos a su uso. Carga: Almacenar los datos transformados en un sistema de destino, como un Data Warehouse. Métricas de calidad de datos. ¿Cuáles hay? Desarrollar 2. Las métricas de calidad de datos incluyen: Completitud: Mide qué porcentaje de los datos esperados están presentes. Validez: Indica si los datos cumplen con los formatos o reglas establecidas. Integridad: Asegura que los datos estén correctos y completos. Oportunidad: Asegura que los datos estén disponibles en el momento en que se necesitan. Desarrollo de 2: Integridad: Verifica si los datos tienen todas las partes necesarias (por ejemplo, un registro completo de información de un cliente). Si faltan campos importantes, los datos pueden ser incompletos. Oportunidad: Refleja si los datos están disponibles en tiempo útil para la toma de decisiones. Un buen ejemplo es la actualización periódica de los datos financieros de una empresa. Modelo de copo de nieve. Desarrollar. El modelo de copo de nieve es una variación del modelo estrella. En este modelo, las tablas de dimensiones están normalizadas, lo que significa que las tablas se dividen en subtablas para eliminar la redundancia de datos. Esto mejora la eficiencia del almacenamiento, pero puede hacer que las consultas sean más complejas. Pasos de los requerimientos de Data Warehouse: Identificación de stakeholders: Definir quiénes necesitan usar el Data Warehouse. Entrevistas y encuestas: Recopilar información sobre los requerimientos de los usuarios. Análisis de las fuentes de datos: Identificar y evaluar las fuentes de datos que serán utilizadas. Definir KPIs: Establecer los indicadores clave de rendimiento para medir el éxito del Data Warehouse. Documentación: Documentar todos los requerimientos recopilados y las decisiones tomadas. Tipos de sistemas de soporte de decisiones. Desarrollarlos. DSS Pasivo: Ayuda en la toma de decisiones sin sugerir acciones específicas. DSS Activo: Sugerencias específicas para la toma de decisiones, puede incluso automatizar acciones. DSS Colaborativo: Facilita la comunicación entre usuarios para mejorar la toma de decisiones. OLAP. Desarrollar. Diferencias con OLTP. OLAP (Online Analytical Processing): Orientado a consultas complejas y análisis de grandes volúmenes de datos históricos para apoyar la toma de decisiones. Usa cubos de datos multidimensionales. OLTP (Online Transaction Processing): Se enfoca en la gestión de transacciones en tiempo real, como registros de ventas o actualizaciones de inventarios. Usa bases de datos relacionales. Diferencias: Enfoque: OLAP se enfoca en análisis y toma de decisiones; OLTP se enfoca en transacciones en tiempo real. Volumen de datos: OLAP maneja grandes volúmenes de datos históricos; OLTP maneja transacciones individuales en tiempo real.

Use Quizgecko on...
Browser
Browser