Document Details

Itan

Uploaded by Itan

Universidad Internacional de La Rioja

Tags

estadística computacional R programming statistical analysis data analysis

Summary

Este documento presenta un resumen de estadística computacional, incluyendo los principios básicos, los ámbitos de aplicación y la presentación del software R. Se centra en la necesidad de métodos computacionales para apoyar nuevos retos tecnológicos. También se incluyen ejemplos prácticos y notas para estudiantes.

Full Transcript

Estadística computacional [2.1] ¿Cómo estudiar este tema? [2.2] Principios básicos [2.3] Ámbitos de aplicación [2.4] Técnicas básicas de programación TEMA 2 [2.5] Presentación del software R Análisis e Interpretación de Datos Esquema TEMA 2 – Esquema © Universidad Internacional de La Rioja (UNIR) An...

Estadística computacional [2.1] ¿Cómo estudiar este tema? [2.2] Principios básicos [2.3] Ámbitos de aplicación [2.4] Técnicas básicas de programación TEMA 2 [2.5] Presentación del software R Análisis e Interpretación de Datos Esquema TEMA 2 – Esquema © Universidad Internacional de La Rioja (UNIR) Análisis e Interpretación de Datos Ideas clave 2.1. ¿Cómo estudiar este tema? Para estudiar este tema lee las Ideas clave que encontrarás a continuación. En este tema se introduce el área de estadística computacional. Se presenta una visión general del estado en esta ciencia emergente, tras la convergencia de áreas ya consolidadas como las matemáticas, estadística e informática. Tras presentar los principios básicos que definen la estadística computacional, se comparte una panorámica sobre las áreas donde se está aplicando esta nueva herramienta técnica, incluso podría decirse, áreas técnicas nuevas que se consolidan apoyadas en estrategias de lo que se conoce como estadística computacional. Algunas áreas son de reciente incorporación incluso al argot técnico, como inteligencia artificial, minería de datos y Machine Learning. A continuación, se introduce el lenguaje de programación estadística R y se presentan sus elementos básicos para un uso a nivel principiante. Estos elementos no pretenden de ninguna manera ser un manual de uso para iniciarse, siquiera, en el software, algo imposible de abarcar en solo un apartado de este tema. Lo que sí se pretende es que sea un aliciente para motivaros a iniciar los desarrollos computacionales con R y proveeros con las pautas sobre cómo enfrentar, por un lado, la formulación de un problema estadístico en términos de un algoritmo computacional y, por otro, ser capaz de escribir este algoritmo en el lenguaje R. Los objetivos que intentamos alcanzar con este tema son: » Introducir formalmente el área tecnológica de estadística computacional. » Entender y ser capaz de pensar en términos de la aplicación de los métodos de la estadística computacional a problemas técnicos que podemos tener hoy en día, haciendo énfasis en los problemas derivados del tratamiento de entornos Big Data. » Presentar el software estadístico R. » Motivar y proveer de herramientas para la programación con R. La idea central que queremos recalcar es la necesidad que tenemos como profesionales de ser capaces de controlar el uso de métodos computacionales para resolver TEMA 2 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Análisis e Interpretación de Datos problemas estadísticos si pretendemos superar retos que en estos momentos conciernen a los científicos de datos. Este conocimiento, la estadística computacional, puede ser entendida como el puente entre ciencias clásicas (matemáticas, estadística) y campos científicos aun en sus inicios (inteligencia artificial, bioinformática, ciberseguridad, medicina personalizada, machine learning). Los avances que podamos lograr en estas últimas áreas mencionadas serán dependientes en gran medida del rigor y alcance con que podamos abordar la estadística computacional. 2.2. Principios básicos La estadística computacional se consolida como Ciencia que se sustenta en la implementación computacional de conceptos, reglas y fórmulas, derivadas de análisis matemáticos y estadísticos utilizados para describir la solución a un problema (ver Figura 1). De arriba hacia abajo, vemos las bases tecnológicas que fundamentan los desarrollos en estadística computacional y conducen a las aplicaciones tangibles hoy día. Campos como el Big Data podrían dan soporte a nuevos retos tecnológicos incluso aun por definir. Por otro parte, análisis estadísticos se refiere a la ciencia de recopilar, discutir, visualizar y analizar datos. Datos que pueden constituir una muestra finita o una porción de un espacio muestral infinito. Esta recopilación, discusión, visualización y análisis de datos se hace, esencial y complementariamente, basándose en métodos matemáticos. TEMA 2 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Análisis e Interpretación de Datos Hoy en día, nos encontramos ante la necesidad/reto de analizar problemas que derivan del comportamiento de sistemas «grandes» (con muchos datos) incluso muchas interacciones ocultas entre estos datos, que generan información (nuevos datos) y que, en esencia, es lo que subyace al problema central que motiva el desarrollo de la estadística computacional: la necesidad de entender sistemas Big Data en un entorno intrínsecamente complejo. Por tanto, los principios fundacionales de la estadística computacional subyacen en el conocimiento y control de tres áreas técnicas: » Programación: nos centraremos en desarrollar, programar, aplicaciones en el software estadístico R. Con este contenido se pretenden dar pautas para el trabajo en la solución e implementación en R (es decir, implementación a nivel de principiante) de problemas matemáticos, estadísticos y de programación. Presentaremos ejemplos prácticos que sirvan de guía en esta iniciación e incluso, y muy importante, atendiendo a lo que comentaremos más adelante como una de las reglas básicas de programación, presentaremos problemas y soluciones numéricas sencillas que deben servir de plantilla para la solución de problemas más complejos. Esta reutilización de código, concepto propio de la programación numérica y que sin definición estricta avanzamos, debe permitir al analista de datos poder modificar y ajustar ejemplos a sus necesidades derivadas del análisis de casos reales o modelos más complejos. » Análisis numérico: durante la asignatura, veremos y motivaremos al alumno a enunciar problemas que conducen a soluciones en el marco de la estadística computacional. Estos problemas, pueden derivar de situaciones ya anunciadas dentro del entorno Big Data y los sistemas complejos. Estas situaciones, a su vez, constituyen la última etapa en el mapeo al análisis numérico de situaciones reales en áreas incluso emergentes hoy en día, como pueden ser la biología, la medicina, ciberseguridad, etc. Frecuentemente, estos problemas no tienen solución analítica o el resultado exacto, —debido al elevado número de datos, requiere mucho tiempo para su evaluación—. En este sentido, se hace imprescindible el uso técnicas numéricas para aproximar el resultado. Distinción aparte merece el hecho de que los softwares estadísticos, por ejemplo, R, pueden ayudar en el cómputo de datos, en su arreglo y en su proceso de visualización. Aspectos que también trabajaremos en este curso. TEMA 2 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Análisis e Interpretación de Datos En la siguiente figura se puede ver la propuesta de solución a un problema en el ámbito de análisis de datos para sistemas complejos que implica el uso de estadística computacional. La solución, de manera global, se describe con tres pasos fundamentales: » Modelado del problema. Propuesta de solución numérica. Implementación numérica. Estadística clásica: en este contexto presentaremos los métodos estadísticos básicos utilizados para describir y analizar datos univariados, temas propios de estadística descriptiva e inferencial de datos univariados, y se irán incorporando a los temas en la medida que se desarrolle el curso. También retomaremos análisis propios de combinatoria y teoría de probabilidades, básicos para progresar en tratamientos estadísticos. Para análisis en sistemas de muchas variables utilizaremos métodos de regresión lineal y multivariable. Los modelos de regresión son extremadamente importantes. Por ejemplo, la regresión lineal, herramienta simple pero poderosa para investigar las dependencias lineales y basada en supuestos estrictos de distribución a los modelos de regresión no paramétricos imprescindibles en el análisis de entornos Big Data. TEMA 2 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Análisis e Interpretación de Datos Con estos elementos podemos decir que vamos a trabajar con la conjunción de fuerzas que ofrecen los elementos de análisis matemático, estadística y programación, encaminados a resolver problemas de una alta dimensionalidad (es decir, número de datos y complejidad), o sea, estamos en la línea correcta para trabajar en el área de estadística computacional. 2.3. Ámbitos de aplicación Áreas de aplicación para la estadística computacional… Parodiando mensajes propios del mundo de la programación, podríamos añadir: running. ¿Qué queremos decir con esto? Estamos ante un campo nuevo, con aplicaciones con tendencia a resolver y simplificar problemas numéricos; por ejemplo, hacer funciones similares a calculadoras programables. Pero la estadística computacional, como hemos enunciado, es más que esto, lleva a plantear soluciones a problemas hasta ahora irresolubles y, por tanto, a generar nuevos problemas. ¿En qué áreas estamos viendo este impacto hoy en día? Véase la Figura 1 que resume el actual contexto de trabajo y entremos en más detalle en los siguientes párrafos. » Estadística computacional en Biología, bioestadística computacional: es un área que une ramas ya consolidadas como bioinformática, genómica y biotecnología. Todas estas áreas tomadas como ejemplo muestran hoy en día un nicho de actividad importante para los científicos de datos. Son áreas que lucen por los prometedores avances que usan (y generan) grandes volúmenes y diversos tipos de datos. Por tanto, exigen el desarrollo de metodologías y herramientas eficientes de estadística computacional integradas con conocimiento biológico y algoritmos computacionales, o sea bioestadística computacional. » Big Data como base en el desarrollo de la medicina, es decir, informática o ingeniería de datos para biomedicina, medicina personalizada: estas son algunas de las etiquetas que hoy en día se utilizan para sintetizar áreas emergentes de desarrollo. Tratan fundamentalmente del potencial que subyace en la utilización de «muchos datos» para lograr avances en estudios médicos. Por ejemplo, podemos TEMA 2 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Análisis e Interpretación de Datos citar los estudios derivados de análisis de genoma humano para la predicción de comportamientos futuros de los individuos. Esto implica análisis de muestras de genotipos, comparación con datos de otros individuos (cuanto más, mejor). Todo esto es una aplicación más del análisis de datos e incluso lo que se conoce como machine learning, aplicado a problemas médicos. » Estadística computacional para facilitar trabajos de Ciberseguridad. En estos momentos el tráfico de datos en el entorno virtual es una realidad y necesidad creciente. Este comportamiento genera acciones derivadas dell uso que puedan tener estos datos, por un lado, la buena intención de sacar provecho de estos para fines legítimos u otras intenciones más oscuras encaminadas a utilizar estos datos para generar problemas de ámbito técnico, malware, o incluso para desestabilizar determinados entornos, fakenews. En cualquier caso, el objetivo es claro, controlar el tráfico de datos y poder proveerlo de seguridad. Para esto es necesario ser capaces de registrar, codificar, las transferencias que ocurren en red. Estos son procesos matemáticos que incluyen análisis dinámicos, contenidos avanzados para este curso, pero que en general ahora necesitamos entender como series de números que evolucionan en el tiempo. La posibilidad de desarrollar métodos seguros en este ámbito requiere de la participación de los estadísticos computacionales además de otros perfiles técnicos. Con el panorama antes expuesto queremos dejar patente la necesidad de trabajar en el ámbito de estadística computacional, basándonos en el hecho de que es un campo reciente y, por tanto, abierto a aportaciones y oportunidades desde el punto de vista de contribuciones de desarrollo, además de que en estos momentos ya se ha consolidado como solución a muchos problemas existentes. 2.4. Técnicas básicas de programación A continuación, queremos sintetizar lo que consideramos serán buenas prácticas en el ámbito de la programación de soluciones a problemas estadísticos. Conocidas como «buenas prácticas», son extensibles a cualquier lenguaje de programación y en particular nos centraremos en ponerlas en práctica en los códigos que se desarrollen con R: TEMA 2 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Análisis e Interpretación de Datos » Prestar atención a la sintaxis de operaciones, que se conoce como «expresividad» del lenguaje, lo que implica usar variables, denominaciones, etiquetas, cuadros de texto que ayuden a seguir el código sin necesidad de ser especialista en desarrollo informático. Por ejemplo, si una variable guarda valores asociados a las notas de unos alumnos, lo más oportuno es denominarla «notas» o análogo. En caso de que los códigos sean extensos, o incluso como praxis general, se recomienda introducir al principio de los códigos cuadros de texto indicando qué significa cada variable utilizada. » Seccionar el programa, esto se hace con la intención de facilitar el proceso de validación de código. Por ejemplo, si es un cálculo que como input utiliza las funciones f_1,f_2,f_3, debemos dejar indicado en el código dónde se calculan cada una de estas funciones para poder estructurar, así, el proceso de verificación de código. » Facilitar lo que se conoce como «modularidad», similar a lo anterior, pero con más implicaciones. Se trata de dividir el programa tanto como sea posible en «módulos». Con estos módulos se gana en el proceso de validación de código, pero también se potencia un aspecto relevante en el ámbito de desarrollo computacional, la posibilidad de «reutilizar» código. Un ejemplo es el hecho de que necesitemos generar alguna función como parte de la solución a nuestro problema. Es recomendable, en este caso, salvarla como función independiente, incluso si se trata de un diseño propio, y poder invocarla en futuras realizaciones. Con esto sentamos unas bases para poder comenzar a programar a nivel principiante. Bases abiertas a su desarrollo y que, de forma general, constituyen una guía para perfilar buenas prácticas en la elaboración de software, particularmente software estadístico en el contexto que trabajamos. TEMA 2 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Análisis e Interpretación de Datos 2.5. Presentación del software «R» R es un programa muy útil para el análisis, representación y visualización de datos. Es abierto (open source), gratuito y se puede descargar de Internet. Accede a la página de descarga a través del aula virtual o desde la siguiente dirección: https://www.r-project.org/ Aquí se pueden encontrar los ejecutables para los distintos sistemas operativos, pero, además, como corresponde a su definición también podemos tener acceso al código fuente (esto permite algunos estudios avanzados de implementación estadística prácticamente al alcance de cualquier usuario). Para este curso recomendamos inicialmente bajar los ejecutables para el sistema operativo que prefiera el alumno. A modo de resumen presentamos algunas de las características de R que lo hacen ser el software de elección para conducir este curso y que, de hecho, justifican la tendencia al alza en su uso en el gremio de los científicos de datos. » Contiene implementaciones para el cálculo de «todas» las herramientas estadísticas. Aquellas que no se encuentran, dada su especificidad o novedad, suelen ser añadidas por usuarios y agregadas como librerías de libre acceso. » Permite el acceso a otros programas de cálculo matemático. Acceso entendido como compartición de librerías. Algunos programas que se pueden hibridizar con R son: C,C++, Fortran. » Es una potente herramienta de cálculo numérico que se basa en potenciar la programación orientada a objetos que, a su vez, le concede alta eficiencia para trabajar con distintos formatos de lectura/importación de datos externos. Con estos elementos recomendamos proceder a la instalación de R y empezar a utilizarlo. Daremos algunas pautas que pueden servir de guía, pero como norma general recomendamos consultar manuales más extensos o ayudas online para poder gestionar los problemas de implementación que surjan durante el trabajo. TEMA 2 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Análisis e Interpretación de Datos Estructuras básicas: bases de datos, operadores, funciones y librerías El objetivo fundamental de un software diseñado para estadísticas es ser capaz de leer datos, manipularlos, operar con ellos y guardarlos adecuadamente. Todas estas funcionalidades las desarrolla R. En general R es muy versátil, en cuanto a que puede trabajar con distintos tipos de datos y cambiar de un tipo a otro según convenga. Para la lectura de datos, veremos cómo podemos leer datos de ficheros externos y, por comodidad en este ejemplo, guardarlos en una tabla. Primero, crearemos un fichero.txt (es el tipo más genérico de extensión que nos «conecta» con cualquier otra extensión de datos que trabajemos), que, por ejemplo, represente una lista finita de «edad» de un grupo de personas: 10,20,30,10,40,80 y encabezaremos una columna con el nombre: edad. Guardamos el fichero como edad.txt en nuestro directorio de trabajo, por ejemplo, PRÁCTICAS. A continuación, abrimos la consola de R y vamos al directorio de trabajo PRACTICAS. Para esto usamos el comando: >setwd(“c:/PRACTICAS/”) Desde aquí ya podemos cargar el fichero edad.txt y guardarlo en una variable: >TablaEdadedad4+5 9 Y así, en esta línea, las operaciones algebraicas ya conocidas. Para calcular algunas funciones tipo exponenciales, se pueden introducir directamente por pantalla, pues son de las que el programa carga por defecto. En línea con el desarrollo del código, se han implementado funciones más complicadas, incluso algunos estadísticos específicos para determinados contextos. Todo esto lleva a que sea necesario, antes de escribir el código, investigar las librerías que contienen las funciones que necesitamos y dar al programa la orden de cargarlas antes de interpretar nuestro código. Veamos un ejemplo. En estadística suele ser usual el proceso de codificación de variables durante una recogida de datos. Por ejemplo, preguntar por «práctica de deporte» y tener respuesta «sí» o «no». Para trabajar, puede ser útil transformar estas variables a numéricas, ejemplo «1» y «0» respectivamente. Este proceso se designa con el término anglosajón recoding. ¿Por qué es útil pensar en un término anglosajón? Porque con los programas que solemos trabajar hoy en día, los diseños de código suelen corresponder a estructuras anglosajonas y porque la manera de proceder para el investigador ante la duda de cómo introducir una funcionalidad, la opción inicial suele ser la búsqueda de bibliografía. En este caso, la búsqueda o respuesta a la pregunta: ¿existe alguna función que haga lo que necesito? Si buscamos sobre «R software recoding», inmediatamente nos dirigirá al uso de la función recode con ejemplos como el que mostramos a continuación. Supongamos que declaramos una lista de datos sobre práctica deportiva: >deportistas library(car) >recode(deportistas,”´si´=1;else=0”) Esta es la rutina de trabajo: fijar el problema que necesitamos resolver, buscar qué hay ya implementado en el software que nos puede ayudar a escribir el algoritmo de solución (generalmente esto se refiera buscar funciones implementadas que estén implícitas en la solución al problema). Finalmente, como estrategia de programación para principiantes se recomienda acceder a ejemplos y mapearlos a el caso particular que se esté tratando. Representación de datos: variables categóricas y variables numéricas El análisis estadístico necesita manipular datos. Datos que, por su origen, pueden tener distinta forma o lo que en R denominamos «clase». Trabajaremos con dos clases de estadísticos: categóricos o nominales y numéricos o cuantitativos. Mostraremos a modo de ejemplo cómo obtener parámetros descriptivos para cada uno de estos tipos de variables. Supongamos que tenemos una variable categórica que guarda información sobre alumnos «aprobados» y «suspensos»: >notaUnirsummary (notaUnir) Length Class 30 Mode character carácter TEMA 2 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Análisis e Interpretación de Datos De manera análoga, con la función summary, podemos obtener los principales parámetros descriptivos para una variable numérica. Supongamos ahora que este es el caso de la nueva variable notaUnir, > nota summary(nota) Min. 1st Qu. 3.000 3.000 Median 8.000 Mean 3rd Qu. Max. 6.333 8.000 8.000 Nótese que esta función provee de algunos estadísticos, pero no de todos, como es de esperar. El cálculo de aquellos que no se devuelven debe hacerse con funciones específicas que, como ya se comentó, hay que investigar para llegar a su forma a partir de la documentación del programa. En casos más específicos o de interés técnico en los que puedan surgir situaciones en las que no tengamos implementadas las funciones necesarias, se desarrollará el algoritmo para «definir una nueva función», en caso de que necesitemos utilizarla de manera recurrente o dividir el problema, de forma tal que nos lleve a trabajar sobre funciones conocidas. Tabulación de variables En apartados anteriores hemos trabajado ya con tablas simples de una columna. A continuación, discutiremos aspectos más generales relacionados con las potencialidades que ofrece R en este contexto para el almacenamiento de datos. Por medio de R podemos manipular diferentes formatos de ficheros de bases de datos, por ejemplo:.csv,.txt, ,dat,.xls,.sav. Para importar estos ficheros se usarán comandos tipo read y read.table y comandos write y write.table para guardarlos, una vez que hayan sido modificados. Con las tablas se puede operar como con los vectores a nivel algebraico. Existen librerías especializadas para la edición de tablas, colocación de etiquetas, títulos y otros aspectos estilísticos. A nivel de programación es necesario invocar esta librería al comenzar al escribir el script para poder usar las funciones que nos interesan y se comentan en este punto. TEMA 2 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Análisis e Interpretación de Datos Como ejemplo para este curso recomendamos la librería expss y el uso de la función apply_labels. Gráficas básicas Existen diversas maneras de representar datos gráficamente. En este curso nos centraremos en los histogramas, diagramas de sectores y barras acumuladas. A la hora de hacer un gráfico es imprescindible, desde el primer momento, poder acceder a las funciones para su correcto etiquetado, denominar ejes, regiones gráficas o lo que se necesite en este sentido. Un descuido en estos aspectos puede llevar a la incomprensión del gráfico. Te recomendamos escribir un script para cada uno de los gráficos planteados, suponiendo que seguimos trabajando sobre la variable «nota» que contiene una lista resumida con información sobre resultados académicos: >barplot(nota) >pie(nota) >hist(nota) Al introducir estas instrucciones aparece un diagrama de barras, un diagrama de sectores y un histograma. Sin embargo, hay imprecisiones importantes en cuanto al estilo e incluso contenidos. Para esto se deben introducir parámetros asociados al etiquetado y estructura de los datos para cada caso. A continuación, en los temas siguientes se mostrarán ejemplos para trabajar con las estructuras introducidas en este tema. Perspectivas Como hemos intentado mostrar, R se puede usar en cualquier problema estadístico y para trabajar con cualquier tipología de datos. En este curso nos limitamos a mostrar el uso de R para la realización de los análisis estadísticos que alcanzamos a estudiar a nivel principiante. Esto incluye análisis descriptivo de datos y algunos mínimos sobre visualización. A nivel superior, se puede indicar que R es útil, además, para realizar operaciones entre bases de datos de manera análoga a la forma en que trabajan algunos softwares funcionales que se ocupan del tema de la lógica relacional. TEMA 2 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Análisis e Interpretación de Datos Con R podemos incluso desarrollar modelos de aprendizaje automático y modelado matemático avanzado, altamente demandados en temas de inteligencia artificial y machine learning. Características del lenguaje R: flexible, reproducible, código abierto e interfaces controlables a través de línea de comandos. » El hecho de ser flexible, como hemos venido comentando, está relacionado con la capacidad que tiene para ofrecer una solución numérica a cualquier problema estadístico que necesitemos. Su amplio número de funciones implementadas deben satisfacer las demandas a nivel de principiante. En términos de investigación computacional, se puede necesitar desarrollar nuevas funciones y esto es posible con la estructura de código que tenemos disponible. » Código reproducible. Como anunciamos en el apartado de «buenas prácticas», si escribimos un código claro (legible) podemos reutilizar el código para distintas bases de datos. » El hecho de ser un código abierto permite siempre identificar errores o introducir mejoras en los procesos de desarrollo ya implementados. Es importante destacar que esto es un esfuerzo comunitario, como otros códigos abiertos, y en este sentido todas las aportaciones son bienvenidas. » El poder trabajar con líneas de comandos da un poder superior al usuario que no se limita a «activar funcionalidades», sino que puede mejorarlas y entrar a perfilar su codificación en función de sus especificidades. Como limitaciones al trabajo con R podemos señalar que el método de trabajo no suele ser intuitivo y se presenta como un acto de investigación en cuanto al desarrollo. El usuario encuentra un espacio vacío al comenzar un script y a partir de ahí, como hemos indicado, el trabajo se centra en identificar ¿qué necesito?, buscar referencias previas de estudios en R y, finalmente, con esta información, explorar en la documentación propia del programa detalles más finos, como pueden ser las sintaxis de las funciones a utilizar. TEMA 2 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Análisis e Interpretación de Datos A nivel de hardware, R posee algunas limitaciones de memoria. De momento encontramos dos limitaciones fundamentales que pueden afectar el trabajo en entornos Big Data: » Acceso a la memoria operativa: debido a que R trabaja en la memoria operativa, si por algo perdemos el cálculo, aquello que no hayamos guardado es susceptible de perderse. Por tanto, en cálculos extensos es recomendable ir guardando en el disco periódicamente. » Trabajo con extensas bases de datos: como comentamos anteriormente, R tiene limitaciones de trabajo con algunas funciones que colapsan si las bases de datos superan determinadas dimensiones. Para resolver esto se usan paquetes auxiliares que en esencia se ocupan de dividir estas bases de datos tanto como se necesario y utilizar conectores para operar de forma segura con ellas. En general, este el es panorama de R en el entorno de estadística computacional. Consideramos que la principal motivación para adentrarse en este contexto de desarrollo es la posibilidad de no ser un usuario de un código oscuro, sino ser capaz de usar y crear, incluso, aportaciones a un campo emergente como es el el de la estadística computacional que hemos presentado en este tema. Estadística computacional: inicio a la programación con R En este vídeo vamos a introducir el concepto de estadística computacional y la programación con R como medio para llevarla a la práctica. Accede al vídeo a través del aula virtual TEMA 2 – Ideas clave © Universidad Internacional de La Rioja (UNIR) Análisis e Interpretación de Datos Lo + recomendado No dejes de leer… Sobre la relación entre Estadística, Informática y Big Data Ferrero, R. y López, J. L. (s.f.). La estadística en la era del Big Data. Data science [Blog]. Recomendamos, especialmente, la lectura del apartado «El Universo del Big Data en Expansión», donde se muestra con datos cuantitativos la necesidad tangible hoy en día de desarrollar métodos computacionales para abordar problemas estadísticos. Accede al artículo desde el aula virtual o a través de la siguiente dirección web: https://www.maximaformacion.es/blog-dat/la-estadistica-en-la-era-del-big-data/ TEMA 2 – Lo + recomendado © Universidad Internacional de La Rioja (UNIR) Análisis e Interpretación de Datos + Información A fondo Ejemplo de aplicación del análisis estadístico con métodos computacionales y usando software R a un problema real Recomendamos la revisión global a este trabajo: Basic principles in Biostatistics: likelihood and statistical thinking. Ejemplo práctico que muestra la elección de un problema real, desarrollo de un modelo estadístico, elección de un software de cómputo y cálculos numéricos para dar solución al problema. Este trabajo es una guía, incluso una plantilla, de lo que debe ser el trabajo del analista de datos y puede servir incluso para mostrar posibles líneas de trabajo en las actividades que se propondrán durante el curso. Accede al artículo desde el aula virtual o a través de la siguiente dirección web: https://borishejblum.science/html/m2phdsbasics/biostatistics_basics_mlepracticals#1_motivational_example Bibliografía Hey, T., Tansley, S. y Tolle, K. (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research [Web]. Disponible en: https://www.microsoft.com/enus/research/publication/fourth-paradigm-data-intensive-scientific-discovery/ R Development Core Team (ed.). R manuals. Cran [Web]. Disponible en: https://cran.rproject.org/manuals.html TEMA 2 – + Información © Universidad Internacional de La Rioja (UNIR) Análisis e Interpretación de Datos Test 1. R soporta datos de tipo numérico en sus bases de datos: A. Verdadero. B. Falso. C. Solo si se introducen como tipo.txt. D. Ninguna de las propuestas es correcta. 2. R soporta datos de tipo categórico en sus bases de datos: A. Verdadero. B. Falso. C. Solo si van acompañados de algún valor numérico. D. Ninguna de las propuestas es correcta. 3. Histogram() es la etiqueta para desarrollar una función que elabore histogramas en un algoritmo desarrollado con R: A. Incorrecto. B. Correcto. C. Falta colocar las etiquetas para completar el histograma. D. Ninguna de las propuestas es correcta. 4. En estos momentos, R es un software que ofrece soporte ilimitado a la solución de problemas estadísticos en el entorno Big Data. A. Sí, pero con limitaciones. B. Nos impone la necesidad de trabajar para evitar problemas de asignación de memoria. C. Posibilita el uso de funciones de código abierto para optimizar los recursos de memoria. D. Todas las respuestas anteriores son correctas. 5. ¿Por qué puede ser relevante la irrupción del código R en temas de ciberseguridad? A. Facilita el tratamiento de muchos datos. B. Prima la lógica de los programas y la capacidad creativa del desarrollador a los mecanismos de control internos. C. Posibilidad de paralelización de procesos al tener las estructuras modularizadas. D. Todas las propuestas anteriores son correctas. TEMA 2 – Test © Universidad Internacional de La Rioja (UNIR) Análisis e Interpretación de Datos 6. Uno de los objetivos básicos de la programación es la capacidad de desarrollar código que sea reutilizable: A. Verdadero, pero no aplicable al contexto estadístico donde cada código debe limitarse a un problema específico. B. Verdadero, extensible al área de la estadística donde se pretenden crear códigos generalistas que puedan ser utilizados sobre distintos escenarios. C. Falso, siempre se debe empezar el código de cero al implementar un problema. D. Ninguna de las anteriores. 7. Sobre el uso de la programación por módulos en R: A. Facilita la reutilización de código. B. Permite detectar errores (bugs) en un proceso de validación de código. C. Hace el código más expresivo. D. Todas las anteriores son correctas. 8. R no permite compartir librerías con otros lenguajes: A. Verdadero, asociado a la seguridad propia del lenguaje. B. Verdadero, en la línea de garantizar un uso matemáticamente correcto de los datos. C. Falso, las librerías se pueden compartir con otros lenguajes de programación. D. Ninguna de las anteriores. 9. ¿Puede R trabajar con varios tipos de ficheros de datos? A. Sí, siempre que sean almacenables como.txt. B. Sí, puede trabajar con varios tipos de ficheros, ejemplo.txt, ,csv. 10. ¿Puede un solo código R tratar simultáneamente variables categóricas y numéricas? A. Sí, es algo estándar. B. No, una u otra, nunca simultáneamente. Puede dar errores en el proceso de compilación. C. No, deben transformase a uno u otro tipo y elegir un tipo para cada código. D. Ninguna de las anteriores es correcta. TEMA 2 – Test © Universidad Internacional de La Rioja (UNIR)

Use Quizgecko on...
Browser
Browser