Fundamentos de anlisis de datos.pdf

Full Transcript

Fundamentos de análisis de datos ¿Qué es un dato? Es la representación más básica de una variable que puede ser cuantitativa o cualitativa que indica un valor que se le asigna a las cosas y se representa a través de una secuencia de símbolos, numéricos o letras. (elementos...

Fundamentos de análisis de datos ¿Qué es un dato? Es la representación más básica de una variable que puede ser cuantitativa o cualitativa que indica un valor que se le asigna a las cosas y se representa a través de una secuencia de símbolos, numéricos o letras. (elementos aislados) Tipos de datos Datos cualitativos: Los datos cualitativos se refieren a los datos recogidos que no pueden medirse fácilmente por medios numéricos. Un ejemplo de ello son los sentimientos u opiniones de un usuario sobre un determinado producto o servicio. Datos cuantitativos: Son datos que pueden medirse fácilmente por medios numéricos. Este tipo de datos permite medir y cuantificar fácilmente el comportamiento de los usuarios. Por ejemplo, la edad, el peso, la altura, etc. Datos Nominales: Son un tipo de datos Cualitativos que se utiliza para etiquetar variables sin ningún valor cuantitativo. Son aquellos que expresan una cualidad o característica y, además, no admiten ningún orden jerárquico. Por ejemplo, Hombre o Mujer, Tipo de sangre, Marca de auto, etc. Datos ordinales: Son un tipo de datos cuantitativos en los que existen variables en categorías ordenadas. Establecen un orden que puede ser creciente o decreciente. Por ejemplo, escolaridad (primaria, secundaria, universitaria, etc.) Riesgo (alto, medio, bajo), etc. Datos discretos: Los datos discretos son aquellos que sólo pueden tomar valores determinados. Se trata de datos que se pueden contar y que tienen un número limitado de valores. Suelen presentarse en forma de números enteros. Por ejemplo, N° de Estudiantes, La hora, etc. Datos continuos: Los datos continuos pueden tomar cualquier valor (dentro de un rango). Por ejemplo, la altura de una persona, las medidas, etc. ¿Qué es una base de datos? Conjunto de datos organizados de tal modo que permita obtener con rapidez diversos tipos de información. Evolución de la base de datos Los orígenes de las bases de datos se remontan a la Antigüedad donde ya existían bibliotecas y toda clase de registros. El término bases de datos fue escuchado por primera vez en un simposio celebrado en California en 1963. Desde el punto de vista informático, una base de datos es un sistema formado por un conjunto de datos almacenados en discos que permiten el acceso directo a ellos y un conjunto de programas que manipulan ese conjunto de datos. No podemos hablar de un análisis de datos sin hablar de los datos. Cuanta más información se tenga, mejores serán las conclusiones a las que lleguemos con nuestro análisis. Pero los datos no siempre están estructurados, ni son sencillos de acceder. Uso de los datos El uso de las bases de datos tiene importancia en la elaboración, lanzamiento y distribución de servicios o productos de uso masivo. Marketing: el manejo de bases de datos permite conocer de manera anticipada los gustos y preferencias del cliente, la información referida a la segmentación de este, de manera tal que las organizaciones y empresas pueden modelar o moldear sus productos y servicios de acuerdo con las necesidades de los clientes o potenciales clientes. Face Detecction: La detección de caras es un caso específico de la detección de objetos. La detección de caras por ordenador es un proceso por el cual el ordenador ubica los rostros presentes en una imagen o un vídeo. Asistentes de Voz: Los más conocidos son Alexa (Amazon), Siri (Apple), Google Assistant (Google) y Bixby (Samsung). Información Es el resultado del procesamiento y la interpretación de los datos. La información se crea al organizar, estructurar y dar sentido a los datos, lo que les otorga relevancia y significado. La información es más útil y valiosa que los datos, ya que proporciona conocimientos, ideas o respuestas a preguntas específicas. ¿Por qué son importantes las bases de datos para las empresas? Agrupar y almacenar todos los datos de la empresa en un único lugar. Facilitar que se compartan los datos entre los diferentes miembros o departamentos de la empresa. Evitar la redundancia y mejorar la organización de la empresa. Tomar decisiones eficientes y efectivas. Las bases de datos se deben gestionar. Las bases de datos son el corazón de las empresas, es por lo que se deben aplicar seguridad. Sistemas que se sustentan de bases de datos Son fundamentales para poder implementar sistemas CRM o ERP, los cuales apoyan aún más la organización y la toma de decisiones de una empresa. Un CRM (Customer Relationship Manager) es un sistema que permite gestionar clientes mientras que un ERP (Enterprise Resource Planning) gestiona procesos. Un CRM es por lo tanto una herramienta imprescindible para la venta, el marketing y la atención al cliente mientras que un ERP lo es para la producción. ¿Por qué se debe gestionar una base de datos? Si una base de datos se gestiona adecuadamente, la organización obtendrá diferentes ventajas. Aumentará su eficacia, habrá trabajos que se realicen con mayor rapidez y agilidad debido a la simplificación de estos, podremos mejorar la seguridad de los datos que almacenamos, y con todos estos factores, maximizamos los tiempos y, por tanto, se producirá una mejora en la productividad. Además, la información es poder, cuantos más datos tengamos mayor debe ser el orden de estos mismos, con el objetivo de aumentar la competitividad de la compañía. Importancia de la calidad de los datos ¿Qué significa mala calidad? Inválida Desactualizada No estructurada Faltante No disponible Inentendible Incompleta Inconsistente Temas de privacidad ¿Qué es el análisis de datos? El análisis de datos es la ciencia que se encarga de examinar un conjunto de datos con el propósito de sacar conclusiones sobre la información para poder tomar decisiones, o simplemente ampliar los conocimientos sobre diversos temas. Importancia del análisis de datos en el contexto actual Actualmente, el Análisis de Datos se ha convertido en una herramienta fundamental para la toma de decisiones en las diferentes organizaciones, empresas e instituciones de todo tipo. El Análisis de Datos nos permite trabajar grandes cantidades de datos y extraer información relevante para mejorar el Rendimiento, Eficiencia y Rentabilidad de una organización ¿Por qué es importante el análisis del dato? Permite a las organizaciones tomar decisiones más informadas y basadas en datos. Permite identificar patrones o tendencias que ayude a predecir comportamiento (de clientes, de mercado, etc.) Permite detectar problemas antes de tiempo, realizando las mejoras que correspondan. Permite identificar las áreas que necesiten atención, donde se deba mejorar y que se deba mejorar. Permite generar segmentación de datos, estrategias de negocios y criterios para la toma de decisiones. Interactuamos todos los días con sistemas que almacenan información relacionada con nuestros gustos, intereses y nuestra vida en general. No importa si se trata de una pequeña, mediana o gran organización, todas necesitan afrontar de forma eficiente este masivo rastro que dejan los usuarios y darles un sentido y utilidad a estos datos. La información disponible que existe de todas las personas es inmensa, desde edades, géneros, gustos, preferencias, productos más utilizados, entre otras. Con lo que tenemos un listado de características de las personas a la que se puede tener acceso. ¿Qué hacemos con tantos datos? Hay tantos datos actualmente disponibles que es fundamental tener el conocimiento para procesarlos y obtener información que sea de utilidad en los diferentes ámbitos. Es aquí donde el Análisis de Datos cobra relevancia, ya que la importancia de los datos no es solo regístralos, sino también obtener de la información que sea relevante. El análisis de datos nos entrega procedimientos y metodologías que nos ayudaran para obtener la información. El Análisis de datos se está volviendo cada vez más importante dentro de una organización, no solo enfocado en la toma de decisiones sino también en la optimización de recursos, mejoras de procesos, en áreas de investigación y desarrollo. El correcto manejo y levantamiento de información es fundamental para las organizaciones, permitiéndoles mejorar procedimientos internos e identificar oportunidades de mejora. Para hacer análisis de datos 1. Gestión de clientes Los clientes son el centro de una empresa. El análisis de los clientes se realiza para acercar al cliente a la organización todo esto para mantener una basa de clientes sólida y no perderlos. Los clientes son claves para el mantenimiento y el crecimiento de la organización. Es fundamental poder brindar una atención única y personalizada. 2. Definir los objetivos estratégicos Es importante tener una visión futura. La planificación es fundamental para el crecimiento de la empresa. Un buen análisis permite definir objetivos sólidos y bien planificados. 3. Mejor organización de los datos El análisis de datos es posible gracias a la recolección y organización de estos. Mientras más fiable y mejor organizados estén los datos, se podrán realizar mejores análisis y se obtendrá mejor información. 4. Mejora continua El análisis de datos se debe hace periódicamente, ya que los datos van cambiando y creciendo en magnitud. Se debe hacer un seguimiento semanal, mensual o con la frecuencia que mejor se adapte a la organización. Un análisis continuo permite identificar necesidades que contribuyen a una mejora continua de la organización. 5. Monitoreo constante Permite un monitoreo constante del estado de la organización. Permite la evaluación continua de indicadores y variables que resultan de mayor interés. Permite visualizar el avance en diferentes áreas de la organización, permitiendo tomar decisiones a tiempos siguientes. 6. Comunicación fluida Permite una comunicación más fluida entre las diferentes partes de la organización. Las mejores organizaciones son aquellas que tienen todas sus áreas intercomunicadas. Se miden de manera general incorporando todas las áreas y se toman medidas pensando en el global de la organización. 7. Contribuir en la toma de decisiones El tener los datos bien almacenados y el correcto procesamiento de ellos permite una adecuada toma de decisiones. 8. Fomentar la innovación El análisis del mercado actual, pasado y futuro, entrega una visión global que permite detectar nuevas necesidades que puedan resultar en la creación de nuevos productos o servicios. 9. Evitar costes extras Una visión adecuada de los gastos, costos y ganancias de la organización permitirá tener un buen control económico. 10. Aumentar la productividad Una mejor toma de decisiones, mayor innovación y control de costes mejora los procesos y con ello aumenta la productividad. 11. Producir un impacto social Un bueno análisis de datos puede resultar en la identificación de necesidades sociales y creación de iniciativas que den solución a estas necesidades. 12. Colaborar con recursos humanos El análisis de datos permite conocer los perfiles que mejor encajan con las compañías y las necesidades laborales que tiene el entorno. 13. Mejorar la experiencia del cliente Gracias a los análisis de datos se puede conocer a los clientes, sus gustos, preferencias, necesidades, etc. Por lo que se les puede entregar servicio personalizado. 14. Reforzar el marketing Con los análisis de datos se pueden diseñar estrategias de marketing más precisas y eficaces que puedan atraer más clientes. Existen diferentes tipos de análisis de datos que permiten con técnicas estadísticas y/o lógicas para describir y evaluar los datos, con el fin de extraer la mejor información. Importancia de elegir el tipo de análisis de datos correcto El análisis de datos incluye la limpieza, la transformación y el modelado de los datos para descubrir información útil para la toma de decisiones El objetivo principal de utilizar diferentes tipos de análisis de datos es contar con diversas opciones para extraer información útil de los datos y tomar decisiones inteligentes. Tipos de análisis Análisis descriptivo El objetivo del Análisis Descriptivo es describir un conjunto de datos a partir de examinar lo que ha sucedido en el pasado. Este tipo de análisis de datos busca proporcionar una descripción del momento identificando tendencias y patrones. Análisis exploratorio: El análisis exploratorio de datos se refiere al proceso crítico de realizar investigaciones sobre los datos para descubrir patrones, detectar anomalías, probar hipótesis y comprobar suposiciones. El objetivo de un análisis exploratorio es examinar los datos y encontrar relaciones entre las variables que antes se desconocían. Análisis de diagnostico El análisis de diagnóstico busca profundizar para entender por qué ha ocurrido algo. El objetivo principal del análisis de diagnóstico es identificar y responder a las anomalías de los datos. Sin embargo, el análisis de diagnóstico no se limita a solucionar los problemas, sino que también se puede utilizar para ver qué es lo que impulsa los resultados positivos. Análisis predictivo El análisis predictivo utiliza la relación entre un conjunto de variables para hacer predicciones sobre los resultados futuros utilizando datos históricos combinados con modelos estadísticos, técnicas de minería de datos y aprendizaje automático. Basándose en patrones y tendencias pasadas, los analistas de datos pueden diseñar modelos predictivos que estimen la probabilidad de un evento o resultado futuro. Esto es especialmente útil porque permite a las empresas planificar con antelación. El análisis prescriptivo busca aprovechar los datos existentes para orientar una toma de decisiones. Al tener en cuenta todos los factores relevantes, este tipo de análisis produce recomendaciones para los próximos pasos. Además, examina lo que ha sucedido, por qué ha sucedido y lo que podría suceder para determinar lo que debería hacerse a continuación. Como resultado, permite ver cómo cada combinación de condiciones y decisiones podría afectar al futuro, con lo que ayuda a medir el impacto que podría tener una determinada decisión. Análisis de Clústeres: Este tipo de análisis de datos consiste en la acción de agrupar un conjunto de elementos que sean similares entre sí. Se utiliza para encontrar patrones ocultos en los datos. Análisis de cohortes: Este tipo de análisis de datos utiliza los datos históricos para examinar y comparar el comportamiento de un segmento determinado de usuarios, que luego puede agruparse con otros de características similares. Mediante esta técnica, es posible obtener una gran cantidad de información sobre las necesidades de los consumidores o un conocimiento firme de un grupo objetivo más amplio. Análisis Conjoint: El análisis conjoint se utiliza en las encuestas para entender cómo valoran los individuos los distintos atributos de un producto o servicio, es uno de los métodos más eficaces para extraer las preferencias de los consumidores. Al momento de comprar, algunos clientes les puede importar más el precio, otros las características, etc. Sean cuales sean las preferencias de sus clientes, puedes encontrarlas con el análisis conjunto. De este modo, las empresas pueden definir estrategias de precios, opciones de empaquetado, paquetes de suscripción, etc. ¿Cómo se utiliza el análisis de datos? Marketing El análisis de datos se utiliza para identificar patrones de comportamiento en los clientes, identificado los gustos y las tendencias en los diferentes grupos de personas, para desarrollar las campañas publicitarias y lograra llegar a los clientes de manera más efectiva, tomado las decisiones correspondientes e informadas. Investigación de Mercado Se utiliza para analizar los patrones de compra de los clientes, identifica la tendencia del mercado, que es lo que quiere la gente en el momento, que es lo que es popular y en base a eso tomar decisiones sobre la creación e introducción de nuevos productos servicios. Recursos humanos Se utiliza para identificar las necesidades de formación y capacitación de los empleados, además de analizar el desempeño de los empleados y tomar decisiones para mejorar la productividad y la eficiencia de los empleados. Compañía de seguros Análisis de procedimientos Médicos Identificar clientes que compran pólizas Identificar clientes con riesgo de no pago Identificar comportamiento Fraudulento Áreas de Aplicación Bancos Identificar clientes leales Detectar fraude en tarjetas de crédito. Predecir clientes desertores. Predecir gasto en tarjeta de crédito según grupo cliente. Identificar correlaciones entre Indicadores financieros. Identificar reglas de mercado. Industria Farmacéutica ¿Cómo implementa el análisis de datos? Seleccionar las herramientas adecuadas Las empresas deben seleccionar las herramientas adecuadas que más se ajusten a sus requerimientos, teniendo en cuenta sus necesidades de información y presupuesto. Contratar personal capacitado Las empresas deben contratar personal capacitado que facilite el implementar una sólida cultura analítica para garantizar que el proceso se lleve a cabo de manera gradual y efectiva. Implementar medidas de seguridad Las empresas deben implementar medidas de seguridad para garantizar que los datos estén protegidos y sean confidenciales. Etapas del proceso de análisis de datos: Recolección, Limpieza, Exploración y Visualización 1. Recopilación de datos El análisis de datos parte recopilando los datos de las fuentes de almacenamiento que estén disponibles, para su posterior análisis. La recolección de datos es un método por el cual las empresas recopilan y miden información de diversas fuentes, a fin de obtener un panorama completo Este proceso busca reunir y medir información de diferentes fuentes para obtener una visualización completa y precisa acerca de un tema, zona o situación de interés. Para que sirve la recolección de datos Permite analizar datos cuantitativos o cualitativos de forma sencilla para comprender el contexto en que se desarrolla el objeto de estudio. Se pueden almacenar y clasificar los datos según las características de un público determinado, para que más adelante realice esfuerzos de marketing dirigidos especialmente a él (que se traduzcan en ventas). Ayuda a identificar oportunidades de negocio. Ofrece datos para que las empresas comprendan mejor los comportamientos de sus clientes al recopilar información sobre los sitios que visitan, las publicaciones con las que interactúan y las acciones que completan. 2. Limpieza de datos La limpieza de datos es vital para garantizar una alta integridad de los datos. Si toda la información con la que cuentas en tu organización es confiable, entonces puedes estar seguro de que las decisiones que tomes con base en ella serán las más certeras. Los datos de calidad pueden variar dependiendo de cuál sea su cualidad, entre las principales se encuentran: Exactitud: todos los datos deben ser precisos. Una forma de comprobar su exactitud es comparándolos con otras fuentes. Si esta fuente no existe o es inexacta, entonces la información que tienes también lo será. Coherencia: La coherencia de los datos te permite saber si la información de contacto que tienes de una persona u organización es la misma en diferentes bases de datos, tablas o aplicaciones que utilices. Validez: Todos los datos deben cumplir con reglas o restricciones definidas. De igual forma, cada información debe poder ser validada para comprobar si son correctos o no. Uniformidad: Es importante que todos los datos dentro de tus bases tengan los mismos valores o unidades. El proceso de limpieza de datos El proceso de limpieza de datos consiste en varios pasos para identificar y corregir errores. El primer paso es analizar los datos para identificar errores. Esto puede suponer el uso de herramientas de análisis cualitativo que usen reglas, patrones y límites para identificar valores no válidos. Eliminar o corregir errores. Identificación de campos esenciales para un análisis concreto y eliminación de datos irrelevantes. Eliminación de información duplicada. Datos faltantes: notificación y eliminación o atribución de datos faltantes. Errores estructurales: corrección de errores tipográficos y otras incoherencias, y elaboración de datos en función de un patrón o una convención común. La depuración de datos te ayuda a ahorrar muchas horas de trabajo de limpieza. Además, te asegura que los datos con los que cuentas sean confiables. Esto te da la seguridad de que cualquier información que obtengas de ellos será mucho más precisa y útil para tu empresa. ¿Por qué es importante la limpieza de datos? Al tomar decisiones en base al análisis de datos es fundamental que los datos utilizados sean relevantes, completos y precisos. Los datos limpios y precisos son esenciales sobre todo para la identificación de patrones, datos de mala calidad puede llevar predicciones erróneas. 3. Exploración de datos Es un método utilizado para analizar y sintetizar conjuntos de datos. El análisis exploratorio de datos se utiliza para analizar e investigar conjuntos de datos y resumir sus características principales, detectando patrones, anomalías, etc. Se utiliza para ver qué es lo que pueden revelar los datos ¿Por qué es importante el análisis exploratorio de datos? El objetivo principal del análisis exploratorio es ayudar a analizar los datos antes de hacer suposiciones. Puede ayudar a identificar errores obvios, así como a comprender mejor los patrones dentro de los datos, detectar valores atípicos o eventos anómalos y encontrar relaciones interesantes entre las variables. ¿Cómo hacer el Análisis Exploratorio de Datos? Como en la práctica los datos no son ideales, debemos organizarlos, entender su contenido, entender cuáles son las variables más relevantes y cómo se relacionan unas con otras, comenzar a ver algunos patrones, determinar qué hacer con los datos faltantes y con los datos atípicos, y finalmente extraer conclusiones acerca de todo este análisis. Y todo esto es precisamente el análisis exploratorio de datos, que es en resumen una forma de entender, visualizar y extraer información relevante del set de datos para poder decidir cuál será la ruta o técnica más adecuada para su posterior procesamiento. 4. Visualización de datos La visualización de datos es la presentación de datos en formato ilustrado o gráfico. Permite a los encargados de tomar decisiones ver los datos presentados de forma visual, de modo que puedan captar conceptos difíciles o identificar nuevos patrones. Con la visualización interactiva, usted puede llevar el concepto un paso adelante utilizando tecnología para profundizar en diagramas y gráficas para observar mayor detalle, cambiando de forma interactiva qué datos ve y cómo se procesan. La visualización de datos es el proceso de utilizar elementos visuales como gráficos o mapas para representar datos. De esta manera, se trasladan datos complejos, de alto volumen o numéricos a una representación visual más fácil de procesar. Las herramientas de visualización de datos mejoran y automatizan el proceso de comunicación visual para lograr precisión y detalle. Puede utilizar las representaciones visuales para extraer información práctica a partir de datos sin procesar. ¿Por qué es importante la visualización de datos? Nuestra cultura es visual, lo que incluye todo tipo de cosas, desde arte y publicidad hasta televisión y películas. La visualización de datos es otra forma de arte visual que capta nuestro interés y mantiene nuestros ojos en el mensaje. Cuando vemos un gráfico, vemos rápidamente las tendencias y los valores atípicos. Si podemos ver algo, lo interiorizamos rápidamente. Es contar historias con un propósito. Si alguna vez haz visto una gigantesca hoja de cálculo de datos y no te fue posible ver una tendencia, sabes cuán eficaz puede ser una visualización. Los diferentes tipos de visualizaciones Al hablar de visualización de datos se puede pensar inmediatamente en gráficos de barras o gráficos circulares simples. Si bien esto puede ser una parte integral de la visualización de datos y una línea base común para muchos gráficos de datos, hay toda una selección de métodos de visualización para presentar datos de manera eficaz e interesante Cuadros Tablas Gráficos Mapas Infografía Dashboards ¿Qué son las herramientas de visualización de datos? Las herramientas de visualización de datos permiten a los usuarios crear fácilmente gráficos e imágenes que les ayudan a comprender grandes cantidades de datos. Los gráficos, mapas y cuadros les permiten ver rápidamente tendencias, reconocer relaciones y descubrir valores atípicos en sus datos. El resultado es una toma de decisiones más informada, que puede aumentar la eficiencia, los ingresos y las ganancias. ¿Qué hay que tener en cuenta a la hora de seleccionar un software de visualización de datos? Hay varias herramientas de visualización de datos, gratuitas y de pago, y la selección de la mejor depende de sus necesidades Soporte de infraestructura: El software de visualización de datos debe integrarse con la infraestructura de TI y las bases de datos existentes. Seguridad: Las herramientas de visualización de datos pueden crear una vulnerabilidad adicional en su sistema. Por lo que deben tener fuertes características de seguridad que limiten el acceso a usuarios y roles no autorizados. Escalabilidad: Utilización de herramientas de visualización de macrodatos que puedan gestionar conjuntos de datos masivos con facilidad. Herramientas de visualización de datos La mayoría de las herramientas pueden visualizar datos en gráficos, cuadros y mapas. Las herramientas modernas hacen que estas visualizaciones sean interactivas y algunas ofrecen IA para ayudar en la creación de gráficos, identificar valores atípicos y sugerir nuevas imágenes. Power BI Tableau Big data ¿Qué es el dig data? Es un término que describe el gran volumen de datos de naturaleza muy distinta, procedentes de fuentes muy distintas que tras ser sometidos a análisis proporcionan información y aquí es donde toman relevancia las herramientas de Análisis de Datos. ¿Por qué el Big Data es tan importante? Entrega Información relevante para las organizaciones, tanto para la toma de decisiones a nivel económico como a nivel organizacional. Ante la presencia de un gran volumen de datos, resulta evidente la necesidad de contar con un software o herramienta adecuada que permita realizar los análisis de forma confíale. Para la realización del Análisis de Datos y facilitar la toma de decisiones existen herramientas analíticas y de medición de datos las cuales garantizan una correcta extracción de la información siempre y cuando los datos que se analicen provengan de fuentes confiables y sean de calidad (datos correctos, no duplicados, completos) y estén correctamente estructurados ¿Qué son las herramientas para el análisis de datos? Las herramientas para el análisis de datos son instrumentos de inteligencia de negocios capaces de proporcionar información y datos de valor para la organización. Elección de la herramienta de análisis de datos adecuada Es fundamental seleccionar una herramienta de análisis de datos que responda a las necesidades específicas de la organización. Factores para considerar Compatibilidad: Compatibilidad del software con los sistemas existentes dentro de la organización Facilidad de Uso: Curva de aprendizaje de la herramienta y facilidad de uso. Capacidad de datos: Cantidad de datos que la herramienta pueda soportar. Precio: Valor que la organización esta dispuesta a pagar según sus capacidades. Tipos de herramientas de análisis de datos Power BI Es la herramienta analítica de Microsoft. Creada en 2015. Actualmente es una de las herramientas mas populares a nivel de Análisis de Datos. Principales ventajas Permite crear cuadros interactivos y gráficos. Es Fácil de Usar. Cuenta con versión gratuita y versión de pago desde 10 dólares mensuales. Posee una gran gama de plantillas y diversas opciones de Visualización. Permite integrar aplicaciones. Proporciona informes y cuadros de mando en tiempo real. Presenta un excelente entorno grafico de extracción, transformación y carga de datos. Plataforma multidispositivo. Integración con la suite de Office 365. Análisis automático de información ofreciendo correlaciones, valores atípicos y agrupaciones de datos. Tableau Herramientas de análisis y visualización de datos. Creada en 2011. Ha sido considerado como uno de los líderes en visualización de datos. Principales ventajas de Tableau La esencia principal de Tableau es su tabla dinámica y el gráfico dinámico de Excel. Su diseño de interfaz es simple Es intuitivo y fácil de usar. Trabaja con múltiples fuentes de datos Manejo de grandes volúmenes de datos Flexibilidad y variedad de opciones Gobernanza y seguridad Integración y extensibilidad Zoho Analytics Herramienta de Análisis centrado en la inteligencia empresarial. Desarrollo de Informes Corporativos y análisis de datos a nivel macro y micro de una empresa. Permite acceder a métricas claves para un negocio y visualizar las tendencias que se mantienen en el tiempo. Permite observar información que en ocasiones pasa desapercibida. Permite la creación de dashboards personalizados Permite la generación de tablas como tablas dinámicas a estilo Excel. Cuenta con un asistente virtual de inteligencia artificial y procesamiento del lenguaje natural. Geckoboard Es una Herramienta de panel de control en vivo. Permite optimizar los datos de hojas de calculo, bases de datos y otras herramientas. Permite realizar presentaciones sencillas. Entrega métricas en tiempo real Cuenta con mas de 60 recursos y es facil de crear dashboards. Permite filtrar datos. Cuenta con una interfaz intuitiva. Qlik Plataforma de Análisis de Datos. Cuenta con una versión gratuita Ofrece descubrimiento de datos únicos mediante una búsqueda global. Se pueden importar datos a través de otras fuentes. Interfaz sencilla Adaptabilidad a distintos dispositivos. Dundas BI Herramienta de Inteligencia de Negocios. Permite a los usuarios conectarse a múltiples fuentes de datos en tiempo real. Se enfoca en la presentación de datos para las diferentes áreas de una empresa. Excelente organización y presentación en tablas, cuadros y gráficos de datos. Facilidad para crear tus propios informes. Buena experiencia de usuario en desktop, iPad y móviles. Cuenta con una área de soporte y apoyo para las microempresas. Cyfe Herramienta de análisis de daos comerciales a través de la conexión con diferentes fuentes. Enfocada en las estrategis de ventas online. Permite monitorizae todas las métricas de los canales digitales en un solo panel. Permite personalizar widgets e importar archivos en CSV. Es un “all in one app” ya que te permite extraer datos de distintas fuentes como Google o Salesforce para ver el comportamiento de tus ventas online. Cuenta con una versión gratuita por 14 días Grow Herramienta de análisis de datos que permite importar y transformar facilmente datos de múltiples fuentes para alimentar métricas y panales de control Permite crear métricas de manera intuitiva Permite filtrar, dividir y explorar diferentes tipos de gráficos Se enfoca en estrategia de ventas Puedes revisar en cuánto tiempo puedes acelerar el crecimiento de tu negocio. Permite visualizar el historial de datos para medir crecimiento Establece un temporizador para la frecuencia de actualización de datos y así manejar datos reales en tiempo real. Agrega un tablero ejecutivo para que tengas a la mano un resumen visual de los datos financieros, operativos y de ventas. Cuenta también con un panel de marketing que te permite rastrear las métricas claves de Google Analytics, Adwords, redes sociales, CRM, correo electrónico. Rapid Miner Programa destinado al análisis y minería de datos creado en 2006. Esta orientado a la investigación, educación, capacitación, creación rápida de prototipos y mantenimiento de aplicaciones empresariales. Destaca principalmente por su capacidad de ser un modelo de predicción en todas las fases del proyecto. Compatibilidad con otras herramientas de análisis de datos, como, por ejemplo, R y Python. Knime Herramienta de análisis de datos que busca brindar soluciones abiertas e impulsar la innovación. Identifica datos ocultos. Permite predecir posibles situaciones. Plataforma amigable y fácil de comprender. Gran capacidad escalamiento. Permite crear flujos de trabajo visuales. Es una de las herramientas de análisis mas dinámicas. Presenta una grafica de nodos, con colores. Stata Software de análisis de datos utilizado principalmente por investigaciones de Biomedicina, Sociología, Epidemiología, Economía y Ciencias Políticas. Cuenta con gran cantidad de estadísticas Permite crear documentos de manera dinámica Compatibilidad con distintas plataformas SPSS (Statistical Package for the Social Sciences) Programa estadístico informático que originalmente se usaba únicamente en las investigaciones de las ciencias sociales y en las ciencias aplicadas. Utilizado para generar y analizar grandes tablas y bases de datos. Posee una gran capacidad de almacenamiento. Hoja de cálculos para resolver operaciones aritméticas, algebraicas y trigonométricas. Es compatible con muchos de los programas para manejo de datos. Permite trasladar la atención desde las tareas mecánicas de cálculo a las tareas conceptuales: decisiones sobre el proceso, interpretación de resultados, análisis críticos. Orange Software de manejo de datos que permite generar interesantes análisis y visualización de información únicamente arrastrando “cajas” o cuadros. Ofrece la posibilidad de organizar y entender tus métricas como si estuvieras jugando. Puede realizar análisis simples y visualizarlos con histogramas, boxplot y mapas de calor También puedes realizar análisis avanzados de data, como árboles de decisión o clustering. Minitab No es un programa como tal, sino más bien es un paquete de distintos programas estadísticos Compatible con Excel Permite análisis de datos rápidos y eficaces. Gráficos y tablas dinámicas para visualizar y explorar datos. Análisis de varianza y regresión para predecir resultados y comparar grupos. Pruebas de hipótesis y análisis de correlación para evaluar la relación entre variables. Herramientas de Control de calidad, como graficos de control y análisis de capacidad. MatLab Sodtware papara procesar información muy cómodo, especialmente si se trata de analizar y visualizar datos de programación científica o Ingeniería. Programa amigable y sencillo de usar. Interfaz intuitiva. Orientado al público joven. Lenguaje de alto nivel para cálculos científicos y de ingeniería. Entorno de escritorio optimizado para la exploración iterativa, el diseño y la solución de problemas. Gráficas para visualizar datos y herramientas para crear diagramas personalizados. R Es una de las principales herramientas de análisis de datos que generalmente se conoce como un lenguaje diseñado por estadísticos es la programación en R. Su desarrollo se remonta a 1995 y es una de las herramientas más utilizadas para el análisis estadístico y la ciencia de datos. Puede realizar operaciones matemáticas complejas usando un solo comando. Mantiene una política de código abierto y se ejecuta en una variedad de plataformas. Cuenta con más de 10 mil paquetes y extensiones que se instalan automáticamente y que puedes explorar por categorías y realizar cualquier tipo de análisis estadístico RStudio es una de las mejores herramientas analíticas más populares hoy en día y se utiliza, principalmente, para el modelado de datos y estadísticas. Las capacidades de R para la limpieza de datos, reducción de datos y salida de informes de análisis de datos, hacen de esta herramienta un asistente analítico impresionante. Una de las ventajas de esta herramienta estadística es que es fácil de entender para aquellos que no tienen un alto nivel de habilidades de programación. Python Extremadamente accesible para codificar en comparación con otros lenguajes populares como Java Con una sintaxis fácil de usar y de aprender Software de código abierto Procesos de codificación sencillos. En el análisis de datos, Python se utiliza para el rastreo de datos, la limpieza, el modelado y la construcción de algoritmos de análisis basados en escenarios empresariales. Permite ejecutar el código en varios sistemas operativos sin hacer ningún cambio en él, por lo que no es necesario escribir un código completamente nuevo. SAS (Statistical Analysis System) La previsión automática, según las variables que introduzcas en el proceso de modelización, SAS selecciona automáticamente las variables para generar previsiones que te permiten descifrar lo que ocurre en tu negocio. Permite a los usuarios producir un gran número de previsiones y automatizar sus procesos Escalabilidad y modelización. Repositorio de modelos ilimitado. Interfaz gráfica de usuario fácil de usar. Consola de modelización de eventos. Análisis hipotético. Preparación de datos. WEKA Software multiplataforma, enfocado principalmente en la minería de datos y el aprendizaje automático. Interfaz intuitiva. Entre las principales virtudes de esta herramienta de análisis de datos está el hecho de que dispone de un gran conjunto de recursos integrados relacionados con acciones estándar de aprendizaje automático Regresión. Clasificación. Reglas de asociación. Selección de atributos. Clustering. GNU Octave Es un lenguaje de programación que se encuentra especialmente diseñado para que puedas solucionar tareas relacionadas con el álgebra computacional. A diferencia de Matlab, GNU Octave es libre y gratuito, aunque no cuenta con una interfaz gráfica. Funciones matemáticas integradas: relacionadas principalmente a temas como álgebra lineal o las ecuaciones diferenciales), las cuales pueden ser ampliadas con la incorporación de nuevas librerías. Paquete index: que cuenta con diversas extensiones que aumentan las funcionalidades que te puede ofrecer esta herramienta para análisis de datos. Klipfolio Plataforma cuya especialidad es la creación de diversos tableros en tiempo real, rápida y fácilmente. Permite comparar fácilmente los resultados, utilizando los objetivos (que pueden ser ajustados al instante). Tiene la capacidad de soportar más de 100 aplicaciones en la nube, siendo las más destacadas: Google Analytics, Facebook. SalesForce. Posee un tablero muy sencillo de configurar. Es accesible desde cualquier dispositivo Excel Herramienta para el procesamiento de datos Es ampliamente utilizado por los analistas de datos Es una herramienta de análisis de datos bastante versátil Posee una amplia gama de funcionalidades hasta la manipulación, el cálculo y la evaluación de datos cuantitativos, pasando por la construcción de complejas ecuaciones y el uso de tablas dinámicas. Unidad II: Minería de Datos y Aprendizajes automáticos Administración de información en la organización Época del Conocimiento, Comunicación y Tecnología. Datos e Información Correcta. Gran variedad de Fuentes. Información Útil. Acceso a internet. Avance de la Tecnología. Intercambio de Información Acceso de la Información cada vez más rápido Sabemos que una persona bien informada es una persona mejor preparada. Significa una ventaja competitiva en el mercado. Está demostrado que una buena recopilación, interpretación y buen manejo de información significa una buena comunicación, mejor rendimiento, mayor crecimiento y mayores ganancias; tanto económicas como de posicionamiento. Por el contrario, una mala información puede provocar grandes pérdidas económicas y de prestigio para las empresas u organizaciones. La información se vuelve un elemento fundamental dentro de la organización Ante esto surge la necesidad de realizar una evaluación sobre la información: cuales son fuentes, su relevancia, su uso, etc ¿Qué es la información? La información es un conjunto de datos que al ser procesados de manera ordenada crean un mensaje el cual es transmitido con el objetivo de modificar el conocimiento y la percepción del receptor y por lo tanto tiene una influencia al momento de tomar decisiones. La información para las empresas es vital, ya que juega un rol importante al momento de decidir, por tanto una buena información puede lograr ganancias para la empresa, debido a esto la información debe considerarse como un activo para la empresa. El valor de la información estará relacionado con la utilidad que represente para los responsables de la toma de decisiones para el cumplimiento de las metas de la organización. Un nuevo producto al mercado Comunicación v/s Información: Comunicación se basa en la retroalimentación, la Información tiene como fin aumentar el conocimiento y apoyar la toma de decisiones Comunicar es transferir información con cierta expectativa, mientras que informar es aumentar el conocimiento. Algunos de los objetivos de la información son: Transmitir toda la información necesaria para la toma de decisiones. Influir en la actitud de todo el personal de la empresa para que sus objetivos y actividades estén en armonía con los objetivos y operaciones de la empresa. Características de la información Exacta: La información exacta carece de errores. Podemos confiar en que es la información es real. Completa: La información completa contiene todos los datos importantes. Económica: La producción de la información debe ser relativamente económica. Los responsables de la toma de decisiones siempre deben evaluar el valor de la información con el costo de producirla. Flexible: La información flexible es útil para muchos propósitos. Debe ser capaz de servir a todos los individuos de la organización que tienes necesidades distintas con respecto a ella. Confiable: La información debe ser confiable y esto esta relacionado con los métodos de recopilación de datos y las fuentes de donde provienen nuestra información. No puede haber rumores. Pertinente: La información pertinente es la realmente importante para el responsable de la toma de decisiones. Que información es la que nos sirve e interesa. Simple La información debe ser simple, no excesivamente compleja. Por lo general no se precisa de información sofisticada y detallada. Un exceso de información puede provocar sobrecarga de información, si se tiene mucha información puede ser difícil identificar la que realmente es importante. Oportuna: La información oportuna es la que recibe justo cuando se le necesita. Verificable: La información debe ser verificable. Esto significa la posibilidad de comprobar que es correcta, quizá mediante la consulta de muchas fuentes al respecto. Accesible: La información debe ser de fácil acceso para los usuarios autorizados, quienes deben obtenerla en el formato adecuado y el momento correcto para satisfacer sus necesidades. Segura: La información debe estar protegida contra el acceso a ella de usuarios no autorizados. Fuentes de información Las Fuentes de información son aquellos elementos de los cuales se puede obtener información. En cada nivel de una organización, se suele requerir diferentes tipos de información, por ejemplo: Nivel superior: En el nivel medio superior (conformado por jefes, administradores, etc.) se podría requerir información necesaria para el diseño de estrategias comerciales. Nivel medio: En el nivel superior (conformado por directivos, gerentes, etc.) se podría requerir información necesaria para el diseño de estrategias que determinen el rumbo de la organización. Nivel Operativo: En el nivel operativo (conformado por operarios, vendedores, etc.) se podría requerir información necesaria para la ejecución de tareas. Para obtener esta información se accede a diferentes Fuentes: Internas y Externas Fuentes Internas: Son las fuentes que se encuentran dentro de la organización. Por ejemplo: las bases de datos internas que se tengan sobre los clientes, información financiera, Inventarios, registro de gastos y costos, personal, etc. Fuentes Externas: Son las fuentes que se encuentran fuera de la organización. Por ejemplo: Internet (páginas web de organismos gubernamentales, páginas web de la competencia, etc.), oficinas de gobierno, locales de la competencia, proveedores, distribuidores, clientes, diarios, revistas, etc. Canales de información Para la transmisión de información se pueden utilizar diferentes canales, se puede entender como canal de información a cualquier medio utilizado para transmitir información Ejemplos de canales de información puede ser intranet, internet, los boletines informativos, libros, revistas, periódicos, radio, etcétera. Flujo de la información Un flujo de información abarca desde la generación hasta la utilización de la información En toda empresa suelen coexistir tres tipos básicos de flujos de información. 1. Información ambiental o externa Obtención de información del entorno con el fin de determinar estrategias según las necesidades del medio. Se obtiene información del entorno para saber que tecnologías existen y aumentar la habilidad tecnológica de la organización. Las organizaciones necesitan información de dos entornos: entorno inmediato y entorno remoto, para obtener esta información existen fuentes informales de información (no se registran en ninguna parte y se basan en relaciones personales) y fuentes formales (registradas en papel, medio electrónico o en cualquier tipo de soporte físico). Entorno inmediato: Constituido por aquellos elementos con los que la empresa debe tratar a diario: clientes, proveedores, distribuidores, competidores, fuentes de financiación y reguladores. Entorno remoto: es aquel no ve a diario pero debe estar pendiene para identificar cambio o tendencias que signifique un cambios de estrategias de la organización, por ejemplo situación económica, tendencias sociales, clima político, etc. 2. Información Interna La organización a través de su funcionamiento genera información interna. Cada organización genera 2 grandes tipo de información interna Información Operacional: que resulta del funcionamiento rutinario de la organización (listas de clientes, catálogos de productos, listados del inventario en almacén, registros contables, datos numéricos de control de la maquinaria), la cual suele ser formal, y fácilmente registrable. Información por Asimilación: la organización une la información interna y externa y genera nueva información y esta es utilizada por los miembros los cuales a través de sus capacidades creativas genera más información (diseño de productos, mejora de procesos, etc). La información y a tona de decisiones La organización tiene objetivos y para llevarlos a cabo es necesario una serie de acciones. La organización debe convertir la información en acción. Detrás de cada acción existe una decisión, que está basada en un rigurosos análisis de la información adecuada. La utilidad de la información depende de la necesidad de dicha información, de que sea oportuna y su adecuado su contenido. El coste de la información dependerá del grado de exactitud y del tiempo que estemos dispuestos a esperar. El contar con la información adecuada, de calidad y a tiempo supondrá obtener buenos resultados. Por otro lado, no disponer de la información puede significar no obtener los resultados esperados y por lo tanto no lograra los objetivos propuestos. Obtener la información para la toma de decisiones en poco tiempo puede suponer un alto costo, mientras que una información que tarda en llegar tendrá un coto más bajo. Auditoria de la información ¿Cómo saber si la información obtenida es la adecuada? Exceso de información Exceso de fuentes de información. Dificultad para identificar información verídica. ¿Qué es la Auditoria? Proceso que estudia, descube, identifica y evalúa algo. Por ejemplo: la auditoria contable que examina los registros contables. La auditoría de la información la analiza y evalúa. Las definiciones de auditoría parten de unas premisas básicas: Entender la información como un recurso, un activo de la organización. En tanto que recurso, la información tiene que ser gestionada. La gestión de la información se halla estrechamente vinculada a los objetivos, la misión y la estrategia de la organización. Una auditoria de información consiste en identificar y evaluar los recursos de información para determinar si son los adecuados que ayuden a cumplir con los objetivos. La auditoria de la información tiene tres componentes principales: La identificación de la información que la organización necesita para cumplir sus objetivos. La comparación de esas necesidades con la información que la organización utiliza, para identificar necesidades no satisfechas y si los recursos actuales son los adecuados. Definir una estrategia sobre la información que debe circular por la organización, y de qué modo debe circular. La auditoría de la información propone hacer lo siguiente: Diagnóstico del uso de la información dentro de la organización. Identificación y muestreo de los recursos de información disponibles. Descubrimiento de qué información es esencial, por qué y para quién. Uso y comparación de la información. Utilidad de la auditoría de la información: La auditoría de la información evalúa las necesidades actuales de información, los usos, efectividad y eficiencia de su uso y la distribución de la información. Identifica falta de información, inconsistencia, duplicidad, ect. Establece las necesidades de información que tiene la organización. Determina los recursos para hacer accesible la información. Determina las personas que utilizan los diferentes tipos de información y si son adecuados. Determina las formas en que se utiliza la informaron y si estas son las adecuada. Algunas de las preguntas a las que una auditoría de la información debe dar respuesta son: ¿Qué uso hacen las organizaciones de la información?, ¿Qué recursos de información tienen?, ¿Resultan adecuados para los objetivos de la organización?, ¿Cómo se distribuye la información?, ¿Para qué se utiliza?, ¿Quién la gestiona y controla?, ¿Cómo establecemos su valor y costo? La auditoría de la información es aplicable a cualquier tipo de organización, pública o privada, cualquier área o sector económico. Se identifican las siguientes fases: Planificación: desarrollar de forma clara los objetivos, saber qué queremos conseguir, conocer la organización e identificar a las personas claves en la organización (a nivel funcional). Conocer la envergadura del proyecto y los recursos (envergadura física, de información, humanos, financieros y físico de localización de recursos). Escoger la metodología: colección de datos, análisis de datos, evaluación de datos, presentación de finalidades y recomendaciones y plan de acción para la implementación y recomendaciones. Desarrollar un plan estratégico y de comunicación: antes, durante y después de la auditoria. Alistar la gestión del soportes, desarrollar un plan de negocio, encontrar un forma de fomentar o promover. Colección de datos: Desarrollar una base de datos de recursos de información. Preparación para la colección de datos, cuestionario, entrevistas en grupo e individuales. ¿Qué es y cómo llevarla a cabo? La administración de datos es el proceso de recopilación, almacenamiento, protección y uso de los datos de una organización. Aunque las organizaciones disponen hoy de varias fuentes de datos, tienen que analizarlos e integrarlos para obtener información para la planificación estratégica. La administración de datos incluye todas las políticas, herramientas y procedimientos que mejoran la usabilidad de los datos dentro de los límites de las leyes y reglamentos. La administración de datos es un enfoque basado en principios para administrar los datos durante su ciclo de vida, desde la adquisición, durante el uso y hasta la eliminación. Todas las organizaciones necesitan administración de datos. Los gerentes ejecutivos necesitan datos exactos y oportunos para tomar decisiones estratégicas en su organización. Los profesionales en marketing y ventas necesitan datos confiables para comprender lo que quieren los clientes., etc. La administración de datos consta de todas las tareas que realizas para asegurarte de que los datos sean seguros, privados y exactos, y de que estén disponibles y se puedan usar. Incluye las medidas que deben tomar las personas, los procesos que deben seguir y la tecnología que los respalda durante el ciclo de vida de los datos. Con la administración de datos, se establecen estándares internos (políticas de datos) que se aplican a la recopilación, el almacenamiento, el procesamiento y la eliminación de los datos. Determina quién tiene acceso a qué tipo de datos. La administración de datos debe cumplir con los estándares externos que establecen las asociaciones del sector, las agencias gubernamentales y otras partes interesadas. La administración de datos tiene como objetivo garantizar la coherencia, la calidad y la seguridad de los conjuntos de datos para que puedan ser utilizados. Para todas las organizaciones los datos son un recurso valioso. Pueden utilizarse para tomar mejores decisiones, mejorar las campañas de marketing, reducir los costos y optimizar los procesos. Para hacer un buen uso de los datos, hay que organizarlos adecuadamente. De lo contrario, tendremos datos incoherentes, mala calidad de datos o datos inadecuados. ¿Para qué sirve la administración de datos? La administración de datos permite eliminar la duplicación de datos y normalizar su formato. Los datos proceden de diferentes fuentes y pueden ser de distintos tipos. Tampoco se recoge de la misma manera en cada sistema. Esto crea silos de datos, con información separada entre los distintos departamentos de la organización. La administración de datos ayuda a romper estos silos. Sin la gestión de los datos, el análisis es poco fiable o imposible. Es imprescindible garantizar la calidad de los datos. La administración también sirve para sentar las bases del análisis de datos. Una estrategia de administración de información bien ejecutada puede aportar muchas ventajas a una empresa frente a sus competidores. Puede mejorar la eficacia operativa y la toma de decisiones. Administrando adecuadamente tus datos, las organizaciones también pueden ser más ágiles, detectar las tendencias del mercado y aprovechar más rápidamente las nuevas oportunidades. Además, la administración de los datos ayuda a evitar problemas de fuga de datos, privacidad o cumplimiento de la normativa, potencialmente costosos y que dañan la reputación. ¿Por qué es importante la administración de datos? Los datos se consideran un recurso valioso de las organizaciones modernas. Con acceso a grandes volúmenes y diferentes tipos de datos, las organizaciones invierten mucho en la infraestructura de administración y almacenamiento de datos. Beneficios Aumento de los ingresos y las ganancias: El análisis de datos otorga una visión completa de la organización permite optimizar operaciones y recursos y por ende reducir costos. Reducción de la incoherencia de los datos: Permite una mejor calidad de los datos y crean una visión centralizada para mejorar la colaboración entre los departamentos. Cumplir con las regulaciones: Permite crear una administración de datos transparente y confidencial. Toma mejores decisiones en el momento oportuno: Permite el acceso a al información en el momento adecuado. Mejora los controles de costos: Los datos ayudan a administrar los recursos con más eficacia Optimiza el cumplimiento de las normativas: Permite establecer practicas de administración de datos y evita el no cumplimiento de las normas. Aumenta la confianza de los clientes y los proveedores: El cumplimiento de las normas genera confianza en los clientes. Administra los riesgos con mayor facilidad: Identificación a tiempo de los riesgos para evitar futuros problemas. Permite que más miembros del personal accedan a más datos: Una administración adecuada permite que todo el personal de la organización pueda acceder a la información que le corresponda. Calidad de los datos: Una administración adecuada permite garantizar en los datos: exactitud, integridad, coherencia, puntualidad, validez y unicidad. La administración de datos es necesaria para garantizar que los datos son seguros y están protegidos, son privados y se pueden usar, y que cumplen con las políticas de datos internas y externas. ¿Cuáles son las áreas de enfoque de la administración de datos? Administración de la calidad: Se espera que los datos sean fiables. Las administradoras de la calidad de datos miden y mejoran la calidad de los datos según los estándares de calidad que miden los siguiente: ¿Falta información clave? (por ejemplo, el cliente omite la información de contacto clave) ¿Los datos cumplen con las reglas de verificación de datos? (por ejemplo, un número de teléfono debe tener 10 dígitos) ¿Con qué frecuencia aparecen los mismos datos en el sistema? (por ejemplo, entradas de datos duplicadas del mismo cliente) ¿Los datos son precisos? (por ejemplo, el cliente introduce una dirección de correo electrónico incorrecta) ¿La calidad de los datos es uniforme en todo el sistema (por ejemplo, la fecha de nacimiento tiene el formato dd/mm/aaaa en un conjunto de datos, pero el formato mm/dd/aaaa en otro conjunto de datos) Distribución y coherencia de los datos: Permite presentar una vista consolidada de la información. Los mecanismos de distribución de datos tienen impacto en la coherencia de datos, cuando se cambia un valor de datos, debe ser modificado en todas las fuentes de datos. Administración de macrodatos: Los macrodatos son los grandes volúmenes de datos que una organización recopila rápidamente, por ejemplo noticias en video de las redes sociales. Un sistema de macrodatos almacena datos como: Datos estructurados. Datos no estructurados, como documentos, imágenes y vídeos. Datos semiestructurados que combinan los dos tipos. Las herramientas de administración de macrodatos tienen que procesar y preparar los datos para el análisis, suelen realizar las siguientes funciones: integración de datos, almacenamiento de datos y análisis de datos. ¿Cuáles son las áreas de enfoque de la administración de datos? Arquitectura de datos: La arquitectura de datos describe los activos de datos de una organización y proporciona un esquema para crear y administrar el flujo de datos. Modelado de datos: El modelado de datos es el proceso de creación de modelos de datos conceptuales y lógicos que visualizan los flujos de trabajo y las relaciones entre los diferentes tipos de datos. Gobernanza de datos: La gobernanza de datos corresponde a las políticas y los procedimientos que una organización implementa para administrar la seguridad, integridad y utilidad de los datos. Define la estrategia de administración de datos para el cumplimiento regulatorio, la protección de los datos y determina quién puede acceder a qué datos. ¿Cuáles son algunas prácticas recomendadas en materia de administración de datos? Colaboración en equipo: Los equipos deben colaborar para garantizar que se cumplan los requisitos de datos de una organización. Todo el procesamiento y el análisis de datos deben priorizar los requisitos de la organización. De lo contrario, los datos recopilados se quedarán sin usar y se desperdiciarán recursos en proyectos de administración de datos mal planificados. Automatización: Automatización en las tareas de procesamiento y preparación de datos. Introducción a la minería de datos y su relación con el análisis de datos ¿Qué es la minería de datos? La minería de datos es una técnica asistida por computadora que se utiliza en los análisis para procesar y explorar grandes conjuntos de datos. Gracias a las herramientas y métodos de minería de datos, las organizaciones pueden descubrir patrones y relaciones ocultas en sus datos. La minería de datos transforma datos en bruto en conocimiento, que es utilizado para resolver problemas y tomar decisiones. La minería de datos es una rama de los análisis de datos o una estrategia de análisis que se utiliza para encontrar patrones ocultos o previamente desconocidos en los datos. ¿Por qué es importante la minería de datos? La minería de datos constituye un elemento de gran importancia para cualquier análisis. Las organizaciones pueden utilizar esa extracción de información para aumentar la confianza de sus clientes. El proceso de minería de datos puede detectar relaciones y patrones y datos esenciales para la organización identificando la información valiosa. Permite conocer a los clientes, generando perfiles de tendencias, preferencias, comportamientos, etc para el desarrollo de campañas de marketing más efectivas y personalizadas. Áreas de Uso de Minería de Datos Telecomunicaciones, medios y tecnología: Utilizan minería de datos para mejorar el servicio de atención al cliente mediante la búsqueda de patrones en su comportamiento. Banca y seguros: Los servicios financieros pueden utilizar aplicaciones de minería de datos para resolver problemas complejos de fraude, cumplimiento, gestión de riesgos y deserción de clientes. Educación: Los proveedores de educación pueden utilizar minería de datos para evaluar a los estudiantes, personalizar las lecciones y establecer el avance y las necesidades de los alumnos. Fabricación: Los servicios de fabricación pueden utilizar de minería de datos para realizar un análisis de la eficacia general de los equipos, los niveles de servicio, la calidad de los productos y la eficiencia de la cadena de suministro. Venta minorista: Las empresas de venta minorista disponen de grandes bases de datos de clientes con datos sin procesar sobre el comportamiento de compra de los clientes. La minería de datos permite procesar estos datos para extraer información relevante que sirva para la s campañas de marketing. ¿Cuáles son las seis fases del proceso de minería de datos? 1. Comprensión del negocio: El científico de datos comienza por identificar los objetivos de la organización y con esta información definir los objetivos de la minería de datos e identificar los recursos necesarios para el descubrimiento de conocimientos. 2. Comprensión de los datos: Es el análisis preliminar de los datos. Recopilan datos de diversos orígenes y elaboran un informe de descripción de datos, que incluye los tipos de datos, la cantidad y los requisitos para su procesamiento. Se hace la exploración y verificación de los datos y se evalúa la calidad. 3. Preparación de los datos: Se dedica gran parte del tiempo en esta fase, ya que los software de minería de datos necesitan datos de alta calidad. Se necesitan: Limpiar los datos, datos faltantes, errores, integración, formato, etc 4. Modelado de datos: Se introducen los datos en el software de minería de datos y se estudian y evalúan la calidad de los resultados, se puede elegir entre muchas técnicas y herramientas de minería de datos. 5. Evaluación: Se miden los modelos con los objetivos de la organización, se presentan y se evalúan y se modifican según sea necesario. 6. Implementación: Se aplica el modelo, se enseña las funciones del modelo y se realiza un seguimiento continuo. ¿Qué técnicas de minería de datos existen? Las técnicas de minería de datos se basan en varios campos de aprendizaje como el análisis estadístico y las matemáticas. Minería de reglas de asociación: Es el proceso de encontrar relaciones entre dos conjuntos de datos diferentes y aparentemente no relacionados. Por ejemplo, cuando los clientes compran un artículo, con frecuencia también compran un segundo artículo relacionado. Clasificación: Es una técnica de minería de datos que entrena algoritmo de aprendizaje automático para clasificar los datos en distintas categorías. Agrupación en clústeres: Consiste en agrupar varios puntos de datos en función de sus similitudes identifiando patrones. Análisis de secuencias y trayectorias: El software de minería de datos también puede buscar patrones en los que un conjunto particular de eventos o valores conduce a otros posteriores. Es capaz de reconocer alguna variación en los datos que se produce a intervalos regulares. Por ejemplo, una empresa podría utilizar el análisis de trayectorias para descubrir que las ventas de ciertos productos se disparan justo antes de los días festivos. Minería de procesos: Es una rama de la minería de datos cuyo objetivo es detectar, supervisar y mejorar los procesos empresariales. Extrae conocimientos de los registros de eventos que se encuentran en los sistemas de información. Ayuda a las organizaciones a ver y comprender lo que ocurre en estos procesos día a día. Minería de textos: Consiste en utilizar un software de minería de datos para leer y comprender un texto, en recursos escritos, como páginas web, libros, correos electrónicos, reseñas y artículos. Por ejemplo leer automáticamente los comentarios realizados en videos en línea y clasificar las opiniones del público como positivas o negativas. Minería predictiva: Ayuda a predecir tendencias. Ayuda a estudiar el impacto que tienen las decisiones en el futuro de la organización y a elegir las opciones más eficaces. Asociación: Vincular dos eventos o actividades aparentemente no relacionados. Una historia es la correlación entre las ventas de cerveza y pañales. Las tiendas colocan la cerveza y los pañales cerca y aumentan las ventas de cerveza como resultado. Regresión: Predice un número basado en patrones históricos proyectados en el futuro. La regresión sirve para ubicar relaciones y calcular probabilidades con base en datos. Esto significa que puede utilizarse para predecir valores numéricos; por ejemplo, el flujo de clientes potenciales en una plataforma. Desarrollo de productos: Se diseñan, fabrican o distribuyen productos físicos pueden identificar oportunidades para orientar mejor sus productos mediante el análisis de patrones de compra junto con datos económicos y demográficos. Fabricación: Los fabricantes pueden realizar un seguimiento de las tendencias de calidad, los datos de reparación, las tasas de producción y los datos de rendimiento del producto desde el campo para identificar las preocupaciones de producción. Sectores de servicios: en los sectores de servicios, los usuarios pueden encontrar oportunidades similares de mejora de productos haciendo referencia cruzada a las opiniones de los clientes con servicios, canales, datos de rendimiento de pares, región, precios, demografía, datos económicos y más. Técnicas de agrupamiento: Se identifica regularidad en los datos y se asocian de manera sencilla para llevar a cabo un proceso de agrupamiento que englobe todos los resultados con el mismo comportamiento, valor o relevancia. Técnicas de clasificación: Permite proyectar cómo puede verse en el futuro cierta información y hacer predicciones, recopila diversos atributos en categorías relevantes para tu empresa. Por ejemplo, ayuda a categorizar a tus clientes más leales y a aquellos que apenas están conociendo tus productos o servicios. Técnicas de detección de anomalías: Es capaz de detectar valores atípicos a través del rastreo o clasificación de datos. Técnicas prescriptivas de minería de datos Técnicas de automatización: Establecen reglas o comandos dependiendo de los resultados del análisis de la información. Tal es el caso de los arboles de decisión, que son modelos predictivos y de aprendizaje automático que generan respuestas a ciertos problemas. Técnicas de optimización: Generan simulaciones para la toma de decisión frente al resultado de una analítica de los datos, obtienen una mejor respuesta basada en casos anteriores. Diferencia entre minería de datos y análisis de datos El análisis de datos hace referencia al amplio conjunto de prácticas centradas en identificar información útil, evaluarla y proporcionar respuestas específicas. La minería de datos es un tipo de análisis de datos que se centra en profundizar en grandes conjuntos combinados de datos para descubrir patrones, tendencias y relaciones que pueden llevar a información estratégica y predicciones. Diferencias entre la minería de datos y la recolección de datos La minería de datos y la recolección pueden ser procesos complementarios, si se realizan correctamente. La minería se dedica al análisis de grandes conjuntos de datos para derivar tendencias, mientras que la recolección consiste en extraer datos de diversas fuentes para luego construir el análisis. ¿Cómo evitar problemas con la minería de datos? Garantizar la protección de datos y la privacidad es la clave Al igual que cualquier proceso que involucra datos confidenciales, tu principal preocupación debe ser corroborar que todos los datos que estás recopilando y utilizando se hayan proporcionado con el consentimiento explícito y en pleno cumplimiento de las leyes de privacidad aplicables. Esto incluye proteger los datos en todas las etapas del proceso (recopilación, almacenamiento, análisis y eliminación). Las organizaciones deben establecer reglas internas para especificar para qué se pueden usar los datos y cómo deben analizarse e implementarse, además de garantizar que la información obtenida no infrinja las políticas de privacidad. Como regla general, ser transparente, honesto y ético con los datos debe ser tu máxima prioridad. Ejemplos de minería de datos 1. Comercio electrónico: El comercio electrónico es una de las areas que mayor provecho ha obtenido de la minería de datos. Claros ejemplos de esto son las grandes compañías de minoristas como Amazon, Mercado Libre o Alibaba, que han aprovechado los recursos del big data para capitalizar las visitas de los consumidores a sus sitios. 2. Redes sociales: Las redes sociales son el lugar donde más datos se generan día con día. La minería de datos permite analizar esta información de forma automatizada para generar experiencias únicas de navegación y dirigen la atención de los visitantes hacia ciertos tópicos. Esta es la forma en que plataformas como YouTube o TikTok saben qué contenidos les interesan a los usuarios. 3. Gestión de clientes: Se puede utilizar la minería de datos para mejorar las experiencias de compra de sus clientes. Para ello solo basta disponer de una base de datos en donde esté integrada la información de relevancia de sus consumidores. Cuanto más grande sea la cartera de clientes, más información podrán obtener a través de las técnicas de minería de datos. 4. Medicina: La medicina se ha nutrido en los últimos años de estos avances tecnológicos, permitiendo el análisis de casos, enfermedades, tratamientos y agentes patológicos de manera mucho más integral, completa y exacta. Por otro lado, el análisis debases de datos clínicos puede mejorar el servicio de atención hospitalaria, detectar irregularidades y hacer más certero el proceso de diagnóstico y tratamiento de pacientes. 5. Control financiero: Las instituciones bancarias y financieras utilizan la minería de datos para mejorar sus servicios y elevar los índices de seguridad en sus operaciones. Por ejemplo, un banco es capaz de rastrear la actividad financiera de cualquier cliente y definir si es un buen candidato a recibir un crédito hipotecario o una tarjeta de crédito.

Use Quizgecko on...
Browser
Browser