RESUMEN PRUEBA DE ANALISIS DE DATOS 1.docx
Document Details
Uploaded by SuperbGroup
Instituto Profesional AIEP
Tags
Related
- Big Data - Oposiciones TIC
- AGRI18 Natural Resources & Environmental Management PDF
- Hypothesis Testing - CS2MATH211 - University of Science and Technology of Southern Philippines PDF
- Data Processing Lecture Notes PDF
- Data Science - Unit 1 - Introduction to Business Analytics PDF
- Data Engineering and Analysis PDF
Full Transcript
**SEMANA 1** - **Ciencia de Datos:** Conjunto de conocimientos obtenidos mediante la observación y el razonamiento, estructurados sistemáticamente, de los cuales se deducen principios y leyes generales con capacidad predictiva y comparables experimentalmente. - **Dato:** Informació...
**SEMANA 1** - **Ciencia de Datos:** Conjunto de conocimientos obtenidos mediante la observación y el razonamiento, estructurados sistemáticamente, de los cuales se deducen principios y leyes generales con capacidad predictiva y comparables experimentalmente. - **Dato:** Información sobre algo concreto que permite su conocimiento exacto o sirve para deducir las consecuencias derivadas de un hecho. - **Proceso Tradicional de Contratación de Radiotaxi:** - Sin Teléfono en Todos los Domicilios: No todos los hogares contaban con un teléfono, lo que complicaba la solicitud del servicio. - Estimación de Tiempos de Espera: Los tiempos de espera eran aproximados, sin información precisa sobre la ubicación del vehículo ni el tiempo exacto de llegada. Este proceso destacaba la falta de tecnología en la comunicación y la información en tiempo real, contrastando con las soluciones modernas que permiten seguimiento y estimaciones precisas. ![](media/image2.png) **Figura 1: Proceso Tradicional** - **Comunicación Limitada:** Los domicilios sin teléfono fijo dificultaban el acceso al servicio. - **Estimación de Tiempos de Espera:** No había información precisa sobre la ubicación del vehículo ni el tiempo exacto de llegada**.** - **Intermediario Humano:** Una persona recibía la llamada, tomaba nota del contratante, origen y destino, y luego asignaba el móvil. **Figura 2: Proceso Actual** - **Uso Universal de Móviles**: La mayoría de las personas usa teléfonos móviles, reduciendo la dependencia de teléfonos fijos. - **Información en Tiempo Real:** La aplicación móvil muestra el recorrido en tiempo real, los tiempos de llegada a origen y destino, y la ubicación del móvil. - **Automatización y Tecnología:** Se utilizan algoritmos e inteligencia artificial (IA) para procesar rápidamente la información y optimizar la toma de decisiones. **Evolución y Tecnología:** - **Mejora en la Comunicación:** La tecnología móvil ha permitido una comunicación instantánea y continua. - **Procesamiento de Datos:** Los algoritmos y la IA permiten un análisis rápido y eficiente, facilitando la toma de decisiones en tiempo real. - **Experiencia del Usuario:** La visualización en tiempo real y la precisión en la estimación de tiempos han mejorado significativamente la experiencia del usuario. Este avance muestra cómo la tecnología ha transformado la forma en que interactuamos con servicios, haciéndolos más eficientes y adaptados a las necesidades modernas. 1. Concepto A partir de lo descrito, se puede definir "Ciencia de Datos" como aquella ciencia que, utilizando herramientas tecnológicas avanzadas, transforman datos en información relevante para una organización generando conocimiento necesario para la toma de decisiones. ![](media/image4.png) **En ciencia de datos comúnmente se trabaja en tres tipos de problemas, situación que se describe en la siguiente figura:** 2. Etapas Dentro de la literatura existente, se encontrarán, dependiendo del autor, diversos esquemas que representan las etapas o ciclos en una investigación de ciencia de datos. Sin embargo, muchos de ellos parten desde la recolección de la información sin tomar en cuenta que para recopilar información se necesita primero considerar un objetivo o un proyecto. El siguiente esquema sintetiza de mejor manera estas etapas en 5 áreas**.** ![](media/image6.png) **Etapas del Proceso en Ciencia de Datos** 1. **Etapa de Definición del Problema** - **Objetivo:** Definir claramente el problema a investigar o el objetivo del estudio. Identificar la necesidad específica que se pretende resolver. - **Actividades:** - Reunión con stakeholders para comprender el problema. - Establecimiento de objetivos y metas claras. - Identificación de las preguntas clave que deben responderse. 2. **Etapa de Análisis y Exploración de los Datos** - **Objetivo:** Examinar los datos disponibles para evaluar su calidad y relevancia. - **Actividades:** - Recolección y consolidación de datos, si es necesario. - Evaluación de la procedencia y confiabilidad de los datos. - Realización de técnicas estadísticas y de visualización para explorar patrones y tendencias. - Limpieza y depuración de datos para asegurar su calidad y precisión. 3. **Etapa de Ingeniería** - **Objetivo:** Preparar los datos para el modelado, definiendo características y atributos relevantes. - **Actividades:** - Identificación y creación de características (features) que serán utilizadas en el modelo. - Aplicación de técnicas de minería de datos para descubrir patrones y relaciones. - Selección y transformación de variables para mejorar la calidad del análisis. 4. **Etapa de Modelado** - **Objetivo:** Construir y ajustar modelos predictivos que puedan hacer pronósticos o clasificaciones. - **Actividades:** - Aplicación de algoritmos de machine learning para construir modelos. - Evaluación y ajuste del modelo basado en la validación de resultados. - Iteración entre ingeniería y modelado: ajustar características y mejorar el modelo para obtener resultados confiables. - Verificación y prueba del modelo para evitar conclusiones equivocadas. 5. **Etapa de Entrega de Resultados** - **Objetivo**: Presentar los resultados del análisis de manera que facilite la toma de decisiones. - **Actividades:** - Generación de informes y visualizaciones para comunicar los hallazgos. - Interpretación de los resultados en el contexto del problema original. - Presentación a los stakeholders y recomendaciones para la acción basada en los resultados. **Características del Proceso:** - **Ciclo Continuo**: La generación constante de datos puede llevar a iteraciones en las etapas anteriores. El esquema es circular, ya que los nuevos datos pueden llevar a redefinir el problema o mejorar los modelos existentes. - **Iteración:** Las etapas de ingeniería y modelado son bidireccionales. Los ajustes en las características pueden requerir modificaciones en el modelo y viceversa**.** **Concepto de Big Data** **Big Data hace referencia al procesamiento y análisis de grandes volúmenes de datos que son generados a una velocidad muy alta y en una variedad significativa de formatos. Inicialmente, el término se centraba en tres dimensiones clave:** 1. **Volumen**: La cantidad masiva de datos generados y almacenados. 2. **Variedad:** La diversidad de tipos de datos y fuentes (estructurados, no estructurados, semi-estructurados). 3. **Velocidad: La rapidez con la que los datos son generados y deben ser procesados.** A medida que el campo de Big Data ha evolucionado, se han añadido más dimensiones para capturar los desafíos y requisitos adicionales en el tratamiento de datos. Estas dimensiones adicionales se conocen comúnmente como las \"Vs\" de Big Data. **Las Vs de Big Data** - **Volumen**: Se refiere a la gran cantidad de datos que se generan en un lapso reducido de tiempo y que no son posibles de analizar utilizando técnicas tradicionales. - **Velocidad**: Se refiere a la velocidad con que los datos pueden ser analizados. Esto involucra los procesos de captura, transformación y almacenamiento. - **Variedad:** Es la diferencia entre los tipos de datos según distintos tipos de fuentes, como por ejemplo: planillas, videos, bases de datos, archivos de audio, etc. Esto puede dificultar la organización de la información para un posterior proceso de análisis. - **Valor:** Busca generar valor a una organización a partir de los datos con que cuenta. Esto se puede apreciar al implementar nuevos sistemas, más complejos, a partir de las definiciones anteriores. - **Veracidad:** En cualquier análisis es condición necesaria que los datos con que se cuenten sean reales. Fieles a la realidad. - **Variabilidad:** Este punto recoge el contexto en el cual se recogen los datos y que con el tiempo ya no tienen el mismo significado. Un ejemplo de variabilidad es el valor del dinero en el tiempo. Otros contextos a tener en cuenta son las diferencias culturales y nuevas leyes que entren en vigencia. - **Visualización:** Se refiere a la forma en que se presentan los resultados después de un análisis. Debe ser fácil de interpretar con el fin de tomar decisiones. **Debido a estas características, Big Data requiere nuevas herramientas y metodologías para:** - **Almacenamiento:** Sistemas distribuidos que puedan manejar grandes volúmenes de datos de manera eficiente. - **Procesamiento:** Herramientas como Hadoop y Spark que permiten procesar datos a gran escala y en tiempo real. - **Análisis:** Técnicas avanzadas de análisis y minería de datos para extraer valor y conocimiento de los datos masivos. **Origen del BigData:** **El interés en la gestión de datos se remonta a tiempos antiguos, con métodos rudimentarios de almacenamiento desde el Paleolítico. El ábaco, utilizado desde 2400 AC, permitió cálculos complejos. El desarrollo del concepto de BigData ha evolucionado a través de hitos clave:** - 1663: Se realizó el primer experimento de análisis de datos estadísticos, marcando un avance en la interpretación de datos. - 1865: Se introdujo el término \"business intelligence\", base para el análisis de datos empresariales. - 1880: Hernán Hollerith creó una máquina tabuladora, fundando una compañía que más tarde sería IBM. - 1928: Fritz Pfleumer patentó el primer sistema de almacenamiento magnético de datos. - 1962: IBM Shoebox, un avance en reconocimiento de voz. - 1965: Se construyó el primer data center en EE. UU. para almacenar documentos importantes en cintas magnéticas. - 1970: IBM desarrolló el modelo relacional de datos, esencial para la gestión moderna de bases de datos. - 1976: La popularización de MRP (Material Resource Planning) mejoró la gestión de materiales y datos en empresas. - 1989\. Erik Larson acuña por primera vez el término BigData en el sentido que hoy se conoce. - 1991\. Nace internet y con ello una revolución en la generación, almacenamiento y análisis de - datos. - 1997\. Google lanza un sistema de búsqueda en internet. - 2001\. Doug Laney define las primeras 3 Vs de BigData. - 2005\. Nace la web 2.0, se crea hadoop. - 2014\. Los móviles superan a los ordenadores en acceso a internet. - 2016\. Finalmente, se universaliza el termino BigData. **Utilidad de la Ciencia de Datos para las Organizaciones:** **La ciencia de datos tiene aplicaciones significativas en diversas áreas:** - **Análisis de Riesgo:** Ayuda a calcular primas de seguros y evaluar la elegibilidad para créditos y cuentas bancarias. - **Ciberseguridad:** Detecta patrones inusuales para identificar posibles fraudes. - **Salud:** Utiliza imágenes para detectar anomalías y predecir o prevenir afecciones. - **Marketing:** Permite segmentar clientes, predecir comportamientos y ofrecer productos personalizados**.** **Ejemplos de Impacto en Negocios:** - **Netflix:** Transformó su modelo de negocio usando BigData para personalizar recomendaciones, pasando de alquilar DVDs a ser un gigante del entretenimiento. - **Amazon**: Empezó usando ciencia de datos para recomendaciones y luego optimizó precios y logística, mejorando la proximidad de productos a los clientes. - **Spotify:** Emplea algoritmos de minería de datos para personalizar la experiencia musical para sus usuarios**.** **Otras empresas como Uber, Zara, Hopper y McDonald\'s también han utilizado ciencia de datos para mejorar sus operaciones y aumentar la rentabilidad.** **BigData y Ciencia de Datos:** - **BigData:** Se refiere a grandes volúmenes de datos que varían en tipo y se generan continuamente. Se enfoca en el manejo y almacenamiento de estos datos masivos. - **Ciencia de Datos:** Utiliza herramientas matemáticas, estadísticas y tecnológicas para analizar y extraer valor de los datos, optimizando el uso de BigData para mejorar la eficiencia y descubrir nuevas oportunidades. **Científicos de Datos:** - Definición: Profesionales que analizan datos complejos usando algoritmos y técnicas avanzadas para ofrecer conclusiones útiles para la toma de decisiones. - Habilidades y Conocimientos: - Resolución de problemas. - Matemáticas y estadística avanzada. - Programación en R, Python y SQL. - Conocimientos en minería de datos, aprendizaje automático e ingeniería de software. - Capacidad para trabajar en equipo. **SEMANA 2** **Metodología de la Ciencia de Datos:** La metodología en ciencia de datos se refiere a un protocolo claro que guía el desarrollo de procesos para completar tareas, permitiendo la interacción y evaluación continua. Las principales metodologías incluyen KDD, SEMMA y CRISP-DM. **1. KDD (Knowledge Discovery in Databases):** - **Objetivo:** Descubrimiento de conocimiento en bases de datos, asociado a la minería de datos. - **Pasos Clave:** 1. **Diseño:** Definir objetivos y fuentes de información. 2. **Selección e Integración de Datos:** Homogeneizar datos de diversas fuentes. 3. **Limpieza y Procesamiento de Datos:** Mejorar la calidad de los datos, eliminando inconsistencias y valores faltantes. 4. **Minería de Datos:** Aplicar algoritmos para extraer información útil. 5. **Interpretación:** Identificar patrones y modelos, y presentarlos de manera comprensible, generalmente usando técnicas de visualización. **1.2 SEMMA (Sample, Explore, Modify, Model and Assess):** SEMMA es una metodología utilizada en la ciencia de datos que se enfoca en trabajar con muestras de datos representativas para su análisis. Sus pasos principales son: - **Paso 1: Muestreo:** Se extrae una muestra representativa de los datos para su análisis. - **Paso 2: Exploración:** Análisis preliminar de los datos usando técnicas estadísticas para detectar relevancia y corregir anomalías. - **Paso 3: Modificación:** Transformación de datos basados en variables o características definidas. - **Paso 4: Modelado:** Uso de herramientas de minería de datos y algoritmos para combinar y asociar datos. - **Paso 5: Evaluación:** Se evalúan los resultados del modelo para verificar el éxito del proyecto. Si el modelo no es adecuado, se regresa a los pasos anteriores para optimizarlo. ![](media/image8.png) **1.3 CRISP-DM (Cross-Industry Standard Process for Data Mining):** CRISP-DM es un modelo estándar ampliamente utilizado en la minería de datos, creado por IBM. A diferencia de otras metodologías, permite regresar no solo a etapas anteriores, sino también al inicio del ciclo. Combina el negocio con la ciencia de datos y consta de seis fases: - **Etapa 1: Comprensión del negocio:** Entender la organización, sus objetivos y necesidades, con un plan de negocios previamente diseñado. - **Etapa 2: Comprensión de los datos:** Recoger y explorar los datos para identificar patrones iniciales. - **Etapa 3: Preparación de los datos:** Analizar y describir las variables de estudio utilizando herramientas estadísticas. - **Etapa 4: Modelado:** Aplicar técnicas de minería de datos para construir el modelo basado en el contexto del fenómeno estudiado. - **Etapa 5: Evaluación:** Medir la funcionalidad del modelo. Si no se obtienen los resultados esperados, se regresa a etapas anteriores. - **Etapa 6: Implementación:** Poner en marcha el modelo en la organización, haciendo las correcciones necesarias. 2\. **Importancia de Definir Preguntas Adecuadas en un Proyecto de Ciencia de Datos:** En cualquier proyecto de ciencia de datos, es fundamental tener objetivos claros y formular preguntas pertinentes para analizarlos. Los datos se consideran un activo estratégico para las organizaciones, ayudándoles a obtener una ventaja competitiva. - **Identificación del Problema:** El proyecto debe comenzar identificando el problema y la información disponible para resolverlo. Las preguntas surgen a partir de estas consideraciones. - **Iniciativa \"100 Questions\":** The GovLab de la Universidad de Nueva York lanzó esta iniciativa para identificar y priorizar preguntas relevantes. Los criterios principales fueron: - **Impacto:** Las preguntas deben tener respuestas significativas que cambien vidas o avancen en la ciencia. - **Basado en Datos:** La búsqueda de respuestas debe basarse en datos. - **Originalidad y Claridad:** También fueron considerados como criterios adicionales. **2.1 Categorías de Preguntas en Ciencia de Datos:** Las preguntas se agrupan en cuatro categorías principales: - **Análisis de la Situación:** Para comprender tendencias y distribución geográfica. - **Causa y Efecto:** Determina factores causales y sus efectos. - **Predicción:** Evalúa riesgos, necesidades y oportunidades futuras. - **Evaluación de Impacto:** Determina los resultados, ya sean positivos o negativos. **3. Herramientas y Tecnologías Asociadas a la Ciencia de Datos:** En un proyecto de ciencia de datos, es crucial distinguir entre herramientas de **almacenamiento** y **procesamiento** de datos. - **Hadoop:** Una plataforma diseñada para almacenar y procesar grandes volúmenes de datos. Utiliza un sistema de archivos llamado HDFS para el almacenamiento y acceso de información dentro de la plataforma. ![](media/image10.png) HDFS (Hadoop Distributed File System): Permite almacenar la información en múltiples máquinas y se encarga de gestionar la interacción entre todas ellas sin que el usuario necesite recuperar la información una por una. Para el procesamiento, HFDS utiliza Mapreduce (nodo maestro), el cuál captura la información obtenida de otros nodos, llamados nodos esclavos, que en un principio fueron subdivididos con el fin de repartir una tarea. Debido a las limitaciones iniciales, Hadoop lanzó Hive y Pig como herramientas alternativas a Mapreduce, pero más fáciles de utilizar que esta al momento de procesar datos ![](media/image12.png) **Herramientas de Almacenamiento en Ciencia de Datos:** - **Almacenamiento Tradicional:** Incluye ficheros y bases de datos relacionales, utilizadas para datos estructurados como Excel. Estos datos se manejan en formato SQL. - **NoSQL:** Para datos no estructurados, se utilizan herramientas como **Cassandra**. **Herramientas de Procesamiento en Ciencia de Datos:** - **Comerciales:** Herramientas más antiguas como **IBM** y **SAS** son ampliamente utilizadas en entornos comerciales. - **De Código Abierto:** - **R:** Un lenguaje diseñado para análisis estadísticos, que también ofrece opciones para visualización, minería de datos y machine learning. - **Python:** Un lenguaje de programación versátil, utilizado principalmente para analítica. Sus aplicaciones incluyen manejo de datos, desarrollo de algoritmos de data mining, machine learning e inteligencia artificial. SEMANA 3 **1. Arquitectura de los Datos:** La arquitectura de datos es fundamental para garantizar una interacción eficiente entre hardware y software en proyectos de ciencia de datos. IBM propone una división en cuatro capas: - **Fuente de los Datos:** Incluye diversas fuentes como plataformas, dispositivos conectados a internet, sensores, hojas de cálculo, GPS, redes sociales, etc. - **Transformación y Almacenamiento de Datos:** Conecta los datos de las fuentes anteriores y los transforma para su procesamiento. Los almacena en sistemas relacionales (SQL) o no relacionales (NoSQL), o en sistemas de archivos como Hadoop. - **Procedimiento de Análisis:** Utiliza técnicas analíticas (árboles de decisión, redes neuronales, regresiones) para obtener información relevante. Se pueden usar datos estructurados y no estructurados. - **Consumo de Datos:** Entrega los resultados de la analítica a una capa final para su uso. Además, existen tres tipos de arquitectura para el almacenamiento en la nube: - **DAS (Direct Attached Storage):** Almacenamiento conectado directamente al computador, como discos duros o cintas. - **NAS (Network Attached Storage):** Almacenamiento conectado a una red, accesible mediante protocolo TCP/IP. - **SAN (Storage Area Network):** Conecta múltiples dispositivos de almacenamiento a través de fibra óptica a una red, que a su vez se conecta al computador que accede a los datos. **2. SQL vs. NoSQL:** Elegir entre bases de datos SQL y NoSQL depende de las necesidades del proyecto. - **SQL:** Bases de datos relacionales que almacenan datos en tablas relacionadas entre sí. El lenguaje SQL es común entre diferentes bases, facilitando la relación entre ellas. Son ampliamente utilizadas. - **NoSQL:** Bases de datos no relacionales que no utilizan tablas y, por lo tanto, no tienen relaciones como las bases SQL. Utilizan otros métodos de almacenamiento, como colecciones de datos o pares clave-valor. Requieren lenguajes alternativos, incluyendo lenguajes de programación. **3. Escalamiento:** Para optimizar los recursos disponibles en el almacenamiento y procesamiento de datos, es necesario implementar estrategias de escalamiento. Esto se refiere a aumentar la capacidad del sistema para manejar más datos y mejorar el rendimiento del procesamiento. **Escalamiento Vertical:** - El escalamiento vertical implica mejorar la capacidad de un único servidor mediante la instalación de más y mejores procesadores, mayor memoria o hardware más rápido. A diferencia del escalamiento horizontal, que distribuye las tareas entre múltiples computadores, el escalamiento vertical se enfoca en potenciar un único servidor para manejar el procesamiento y almacenamiento de datos de manera más eficiente. - **Escalamiento Horizontal:** Consiste en dividir y distribuir las tareas entre múltiples computadores de bajo costo, que trabajan juntos como una gran arquitectura de datos. Plataformas como **Hadoop** y **Spark** (vistas en la semana 2) utilizan este tipo de escalamiento. ![](media/image14.png) **3.3. Privacidad y Confidencialidad:** - En el contexto de la analítica de datos, la privacidad y confidencialidad implican que los científicos de datos o analistas no deben obtener más información personal sobre los individuos de lo que sabían antes de comenzar el proyecto. Sin embargo, en la práctica, trabajar con datos genera un conocimiento más profundo sobre los individuos. - Un ejemplo relevante es el manejo de encuestas de satisfacción y clima laboral, donde la divulgación de información sensible, como críticas de empleados hacia la organización, podría causarles problemas, incluso hasta la pérdida de su empleo. - Por lo tanto, aunque la privacidad absoluta es idealista, la meta práctica es minimizar situaciones en las que el analista pueda identificar a los individuos, protegiendo información sensible como nombres, domicilios, problemas de salud, y otros datos personales, que hoy en día son considerados derechos fundamentales de las personas. SEMANA 4 **1. Tipos de Datos:** - **Datos Estructurados:**\ Información con un formato bien definido y especificado. Se encuentran en bases de datos relacionales, hojas de cálculo y otros archivos estructurados, y son fáciles de trabajar y manipular. - **Datos No Estructurados:**\ Información sin una estructura fija, como archivos de audio, videos, fotografías, textos y correos electrónicos. Son difíciles de controlar y manipular debido a la falta de un formato estandarizado. - **Datos Semi Estructurados:**\ Información que no tiene un formato fijo, pero incluye etiquetas o marcadores que facilitan su comprensión, como XML y HTML. Las diferencias entre datos estructurados y no estructurados se pueden reducir a tres áreas como se muestra a continuación en el siguiente esquema: ![](media/image16.png) **2. Fuentes de Información:** En ciencia de datos, las fuentes de información se clasifican en cinco tipos según su procedencia: - **Biométrica:**\ Identificación automática de individuos mediante características anatómicas o información personal. - **Máquina a Máquina:**\ Tecnología que permite la comunicación y relación entre diferentes dispositivos a través de internet. - **Transacciones u Operaciones:**\ Datos generados por actividades como facturación, reclamos, pagos por internet, y otras transacciones normales. - **Generados por Personas:**\ Información obtenida de grabaciones de atención al cliente, registros médicos electrónicos y otros datos recogidos por operadores de call centers. - **Web y Redes Sociales:**\ Datos generados en línea a través de clics, uso de plataformas, aplicaciones, enlaces y búsquedas en redes sociales. Es la fuente que proporciona la mayor cantidad de información. **3. Proceso de Recopilación:** - **Consideraciones Generales:**\ El proceso de recopilación de datos no es simplemente un paso a paso, sino una serie de consideraciones clave que abarcan desde la planificación de objetivos hasta la recolección de datos para su procesamiento y análisis. - **Objetivos y Recopilación:**\ Es fundamental definir claramente los objetivos antes de comenzar la recopilación de datos. Los datos sirven como insumos para la organización, y su análisis permitirá generar resultados que se convertirán en conocimiento valioso. ![](media/image18.png) **Consideraciones en el Proceso de Recopilación de Datos:** 1. **Definición de Objetivos de la Investigación:** - Los objetivos deben estar claros y relacionados con las características a estudiar. La técnica de recopilación de datos elegida dependerá de estos objetivos. 2. **Fuentes de Información:** - Considerar las distintas fuentes descritas en el punto 2 del apunte (biométrica, máquina a máquina, transacciones, generadas por personas, web y redes sociales). 3. **Tipo de Datos:** - Identificar si los datos son estructurados, no estructurados o semi estructurados para elegir las herramientas y métodos adecuados. 4. **Herramientas de Almacenamiento y Procesamiento:** - Evaluar si los equipos y procesadores actuales son suficientes o si se necesita actualizar o adquirir nuevas herramientas para manejar la información. 5. **Tiempo:** - El tiempo es crucial y limita la duración del proceso de recolección y los pasos posteriores. 6. **Recursos de Personal:** - Definir quiénes serán los responsables del proceso de recopilación de datos y delimitar sus tareas. 7. **Recursos Económicos:** - Considerar los costos asociados con el personal, equipos y procesadores necesarios para la investigación. 8. **Metodología:** - La metodología específica para la obtención de datos se desarrollará en el siguiente apartado. **4. Técnicas de Obtención de Datos:** Las técnicas de recopilación de datos son los procedimientos utilizados por los investigadores para obtener información fiable y cumplir con los objetivos de la investigación. Tradicionalmente, estas técnicas siguen una secuencia claramente definida: 1. **El Investigador:** - La persona encargada del estudio. 2. **Objetivos de la Investigación:** - Definición de los alcances y fines del estudio. 3. **Fuente de Información:** - **Primaria:** Encuestas, entrevistas, observaciones, cuestionarios, paneles. - **Secundaria:** Bibliotecas, revistas, diarios. 4. **Instrumento a Utilizar:** - Encuestas, entrevistas, observaciones, paneles, focus groups, etc. 5. **Validación del Instrumento:** - Generalmente se realiza mediante focus groups u otros métodos de validación para asegurar que el instrumento sea efectivo. 6. **Recopilación de la Información:** - Implementación del instrumento para recoger los datos necesarios. ![](media/image20.png) **Ética y Prácticas de Seguridad en Ciencia de Datos:** La ética y la seguridad en la ciencia de datos abordan cuestiones cruciales sobre cómo se manejan y protegen los datos personales. Aquí se exploran los temas clave: **1. Cambio en la Recopilación de Datos:** Tradicionalmente, la recopilación de datos seguía un proceso lineal: - **Definición de Objetivos:** Establecimiento de metas y preguntas específicas. - **Desarrollo del Instrumento de Recopilación:** Creación de encuestas, entrevistas u otros instrumentos basados en los objetivos. - **Obtención de Datos:** Recolección de información que responde directamente a las preguntas planteadas. Hoy en día, con la tecnología avanzada y el análisis continuo, el enfoque ha cambiado: - **Datos Disponibles:** Los datos ya están presentes y deben analizarse para descubrir lo relevante. - **Definición de Objetivos:** En lugar de definir objetivos y luego recopilar datos, los objetivos se ajustan según lo que se encuentra en los datos. - **Filtrado y Depuración:** Identificación y exclusión de información no relevante. - **Uso de Tecnologías Avanzadas:** Implementación de herramientas de Big Data, minería de datos, e inteligencia artificial para análisis y modelado. **2. Ética y Seguridad de los Datos:** La ética en ciencia de datos se centra en varios aspectos importantes: - **Privacidad y Confidencialidad:** - **Recopilación de Información:** Garantizar que la recopilación de datos se realice con el consentimiento del usuario. - **Protección de Datos:** Asegurarse de que los datos personales sean manejados de forma segura y que se minimice la posibilidad de exposición no autorizada. - **Desarrollo Tecnológico y Privacidad:** - **Uso de Tecnología:** La tecnología en sí no es la culpable de la falta de privacidad. En cambio, el uso indebido de la tecnología puede llevar a problemas de privacidad. - **Beneficios de la Tecnología:** Las técnicas de Big Data y la inteligencia artificial han traído avances significativos en medicina, seguridad, eficiencia organizacional, etc. - **Ética a lo Largo del Ciclo de Vida de los Datos:** - **Ciclo Completo:** La ética no solo aplica a la recolección de datos, sino también al análisis, los algoritmos utilizados y el propósito final de los datos. - **Transparencia y Responsabilidad:** Asegurarse de que las prácticas sean transparentes y responsables, y que el propósito del análisis de datos sea claro y justificado.