quiz image

Analisis de Datos

Itan avatar
Itan
·
·
Download

Start Quiz

Study Flashcards

100 Questions

La estadística ha sido definida como:

Las respuestas B y C son correctas.

¿De qué clase son cada una de las siguientes variables?

Tipo de madera (pino, cedro, roble). = Nominal Grosor de la pintura (en milímetros). = Continua Meses del año (Enero, Febrero…). = Ordinal Número de hijos. = Discreta

Con la estadística manejamos:

Las respuestas A y B son correctas.

Hoy en día en España los censos…

Ya no existen como tal.

Decimos que una muestra es representativa cuando:

Posee una diversidad muy parecida a la de la población.

Decimos que los estudios experimentales:

Son junto con los observacionales los dos grandes tipos de estudios estadísticos.

Un pictograma representa la información:

En el área del dibujo.

Referente a la infraestructura requerida para llevar a cabo análisis de datos en Big Data:

Todo lo anterior es falso.

La aplicación de la estadística en Big Data:

La información es, a veces, demasiado compleja.

La estadística:

Es una disciplina clásica.

R soporta datos de tipo numérico en sus bases de datos:

Verdadero.

R soporta datos de tipo categórico en sus bases de datos:

Verdadero.

Histogram() es la etiqueta para desarrollar una función que elabore histogramas en un algoritmo desarrollado con R:

Incorrecto

En estos momentos, R es un software que ofrece soporte ilimitado a la solución de problemas estadísticos en el entorno Big Data.

Todas las respuestas anteriores son correctas.

¿Por qué puede ser relevante la irrupción del código R en temas de ciberseguridad?

Todas las propuestas anteriores son correctas.

Uno de los objetivos básicos de la programación es la capacidad de desarrollar código que sea reutilizable:

Verdadero, extensible al área de la estadística donde se pretenden crear códigos generalistas que puedan ser utilizados sobre distintos escenarios.

Sobre el uso de la programación por módulos en R:

Todas las anteriores son correctas.

R no permite compartir librerías con otros lenguajes:

Falso, las librerías se pueden compartir con otros lenguajes de programación.

¿Puede R trabajar con varios tipos de ficheros de datos?

Sí, puede trabajar con varios tipos de ficheros, ejemplo .txt, ,csv.

¿Puede un solo código R tratar simultáneamente variables categóricas y numéricas?

Sí, es algo estándar.

¿Cuántos cuartiles hay en una distribución de datos?

3

¿Qué cuantiles equivalen a la mediana?

Las respuestas A y C son correctas.

La mediana…

Es el valor central pero solo si el conjunto de datos es impar.

La media…

Las respuestas A y C son correctas.

La medida estadística que menos se ve afectada por los valores atípicos es:

La mediana.

En la fórmula de la mediana para datos agrupados: ¿Qué representan las letras y símbolos? $Me = {L_{i - 1}} + \frac{{\frac{N}{2} - {N_{i - 1}}}}{{{n_i}}} \times {a_i}$

Las repuestas A y B son correctas.

La varianza…:

Las repuestas A y C son correctas.

El diagrama de cajas se construye con:

Cinco valores: La mediana, el cuartil 1, el cuartil 3, el mínimo y el máximo.

Una medida estadística que nos permite comparar entre diferentes poblaciones es:

Las respuestas A y C son correctas.

En cuanto a la asimetría…

Las respuestas A y C son correctas.

Las frecuencias marginales son:

Aquellas que hacen referencia a una sola variable marginando a la otra.

La covarianza del mismo modo que la varianza…

Su magnitud no nos dice mucho sobre si covarían entre sí mucho o poco las dos variables.

Un diagrama de dispersión nos permite ver:

Las tres anteriores son correctas.

La causalidad entre variables…

No tiene por qué deducirse de la asociación que exista entre ellas.

Cuando existe un asociación aproximadamente lineal entre variables que hemos modelado con una regresión lineal…

A y C son correctas.

Si el coeficiente de correlación es nulo:

Puede estar existiendo otro tipo de relación entre las variables.

El Método de los Mínimos Cuadrados sirve para…

Hallar la ecuación de la recta que minimiza las desviaciones respecto a las observaciones.

El coeficiente de determinación…

A y C son correctas.

Los modelos lineales se emplean más en estadística porque…

Suponen una aproximación matemática sencilla a relaciones entre variables que pueden ser un tanto más complejas.

Un scatterplot es:

Un gráfico que muestra la relación entre dos variables cuantitativas.

Si tenemos un variable aleatoria X que se distribuye como una Bi(10;0,5):

Su varianza es 2.5

En una distribución normal a mayor sigma:

Las respuestas B y C son correctas.

Si los tres primeros lanzamientos de una moneda han resultado cara, la probabilidad de que obtengamos cara en el cuarto lanzamiento es:

$ 1/2 $

Dos eventos se dice que son independientes cuando:

El hecho de que ocurra uno no afecta a la probabilidad de que ocurra el otro.

$ F\left( {{x_i}} \right) $ es

$ 1 - P\left( {X > {x_i}} \right) $

Si tiramos dos dados y sumamos sus puntuaciones. La probabilidad de obtener un 6,7 o un 8 es:

0.44.

La V(X+Y) es igual a:

Las respuestas A y C son correctas.

En una distribución binomial el parámetro «q» es:

Las respuestas A y B son correctas.

La distribución normal está caracteriza por dos parámetros que son:

La media y la desviación típica.

Si $ X\sim N\left( {5,2} \right)\ $ entonces la variable tipificada Z la obtenemos como…

$ \frac{{X - 5}}{2} $

Para poder hablar propiamente de distribución muestral de un determinado estadístico…

Las respuestas B y C son correctas.

El arco circunflejo lo empleamos en estadística inferencial para…

Las respuestas B y C son correctas.

$ \hat p $ es...

El estimador de la proporción poblacional.

¿Por qué hay tantas variables en la naturaleza que se distribuyen normalmente?

Porque según el TCL la suma de muchos efectos aleatorios independientes se comporta normalmente.

La desviación típica de la media muestral es:

$ \frac{\sigma }{{\sqrt[{}]{n}}} $

Si multiplicamos por cuatro el tamaño de una muestra $ {\sigma _{\bar x}} $:

Se reduce a la mitad.

El error estándar es…

Las respuestas B y C son correctas.

Señala la frase correcta.

Todo estimador es una variable aleatoria función de la muestra.

¿Cuál es un estimador insesgado de la media poblacional?

Las respuestas A y B son correctas.

¿En qué se diferencian los dos tipos principales de estimación?

Un tipo de estimación da intervalos posibles para el parámetro mientras que la otra solo da un valor.

¿Qué fórmula es la correcta para hallar el IC de una media poblacional conocida su varianza?

Formula D

¿Qué es o a qué es igual «E»?

Al margen de error.

Si hemos calculado el IC para p y resulta: 0,325

0.025

Al IC 188cm<µ<209cm que marca con un 95% de confianza la estatura media de un equipo de la NBA lo interpretamos como…

Las respuestas B y C son correctas.

Cuando σ no es conocida, en el cálculo de los valores críticos para construir los IC empleamos:

La T-Student.

La T-Student es…

Las respuestas A y C son correctas.

¿Qué es una muestra piloto?

Una muestra que se recoge antes de hacer un estudio para tantear las características de la población.

¿En un IC que porcentaje de las veces éste no contendrá al parámetro?

α×100% de las veces.

¿Qué es un valor crítico en términos de inferencia?

Es el valor de una distribución que acumula cierta probabilidad.

Empleamos intervalos de confianza entre otras razones porque…

Las respuestas A y B son correctas.

¿Para qué sirve un contraste de hipótesis?

Para contrastar si una afirmación sobre una población parece cierta o no en base a los datos.

Generalmente el orden que seguimos en un contraste de hipótesis es…

Establecer primero la H0 para que quede delimitada aproximadamente la H1.

¿Cuántos diferentes planteamientos tenemos para la H1?

Las respuestas B y C son correctas.

¿Con que tipo de frases interpretamos un contraste de hipótesis?

«… no logramos encontrar evidencias estadísticamente significativas…»

¿Quién tiene que caer en la región crítica para que rechacemos la H0?

El estadístico de contraste que estemos empleando.

¿Qué es 1-β?

La potencia del contraste.

La P(rechazar Ho | siendo Ho verdadera) es equivalente a:

α

La regla del p valor para decidir un contraste de hipótesis es:

$\text{Si } p\text{-valor} > \alpha \to \text{Aceptamos } H_0 \text{ mientras que si } p\text{-valor} \le \alpha \text{ rechazamos.}$

¿Cómo decidimos un contraste de hipótesis a través de un IC?

Si µ0 pertenece al IC construido para µ se acepta, de lo contrario rechazamos H0.

Cuando en un contraste de hipótesis desconocemos la varianza de la población de la que provienen los datos empleamos…

La distribución T-Student como estadístico de contraste.

El modelo de regresión lineal se supone...

No heterocedástico

¿Qué es lo que se contrasta en un modelo de regresión lineal?

Si la pendiente es nula o no.

¿Con que Test o pruebas podemos constrastar el modelo de regresión?

A y C son correctas.

R2 equivale a:

B y D son correctas.

Si el IC para β1 contiene al 0 esto querrá decir que: D B y C son correctas.

La regresión no es significativa.

¿Qué es alfa en el modelo de regresión?

La constante.

En el ejemplo visto en el capítulo sobre las películas:

A y B son correctas.

Si al graficar los errores estos presentar una forma de embudo:

Indicaría una falta de homocedasticidad.

Los errores del modelo conviene que B sean casi todos elevados.

Que se alternen lo mejor posible los positivos y los negativos sin grandes saltos ni patrones.

El modelo de regresión lineal consta de tres parámetros.

Alfa, beta y sigma.

¿Para qué sirve el análisis de componentes principales? ¿Para qué sirve el análisis de componentes principales?

Para reducir la dimensión de los datos.

Los vectores de componentes principales:

Se obtienen agregando los valores de las variables del modelo.

¿Cuándo es una variable representativa del vector de componentes?

A y B son ciertas.

Qué componentes son las que representan el ruido en una imagen?

las cercanas al último PC.

Para detectar cambios en un modelo de datos…

Necesitamos distintos modelos de datos hechos en distintos tiempos o bajo distintas circunstancias.

¿Qué sucede si reducimos el número de componentes principales a utilizar en nuestro modelo reducido?

A y B son ciertas.

¿Cómo calculamos el modelo de datos reducido a partir del vector de componentes?

Generamos el valor agregado asociado a cada individuo multiplicando cada valor del vector de componentes por la variable asociada y sumando el resultado.

Si nos atenemos al número de variables a representar, ¿qué gráfica de dispersión es más fácil de entender e interpretar?:

Una con 2 dimensiones.

¿Qué función de R hemos utilizado para poder calcular el vector de análisis de componentes?

prcomp

¿Si tenemos un modelo de datos con 5 variables, ¿cuántos vectores de componente principal generará el algoritmo?

5

Test your knowledge on different types of variables and key statistical concepts with this quiz. Questions cover topics such as types of variables, handling statistical data, representativeness of samples, and experimental studies.

Make Your Own Quizzes and Flashcards

Convert your notes into interactive study material.

Get started for free

More Quizzes Like This

Use Quizgecko on...
Browser
Browser