Statistiques et Analyse de Données

Podcast

Play an AI-generated podcast conversation about this lesson

Download our mobile app to listen on the go

Get App

Questions and Answers

Quelle est la catégorie professionnelle ayant le pourcentage le plus élevé dans l'échantillon?

Employé (correct)
Technicien
Cadre
Ouvrier qualifié

Quel est le pourcentage des personnes ayant une qualification 'Technicien'?

8.0%
10.2%
4.3% (correct)
13.0%

Quelle méthode est suggérée pour obtenir un diagramme en barres à partir d'une variable qualitative?

Utiliser la fonction hist
Utiliser directement la variable dans la fonction barplot
Utiliser les valeurs en pourcentage directement
Calculer le tri à plat de la variable puis utiliser barplot (correct)

Quelle fonction peut être utilisée pour passer d'un tableau en effectifs à un tableau en pourcentages?

lprop (C) Signup and view all the answers

Quel est le nombre total d'observations dans l'échantillon?

2000 (D) Signup and view all the answers

Quelle fonction permet d'afficher les premières valeurs d'une variable ?

head (C) Signup and view all the answers

Quel type de variable est l'âge ?

Quantitative (B) Signup and view all the answers

Que renvoie la fonction range(d$age) dans un tableau de données ?

Les valeurs minimales et maximales (D) Signup and view all the answers

Comment créer une nouvelle variable contenant la durée en minutes à partir de heures.tv ?

d$minutes.tv <- d$heures.tv * 60 (B) Signup and view all the answers

Quel indicateur de centralité est le plus connu pour caractériser une variable quantitative ?

Moyenne (B) Signup and view all the answers

Quel est l'objectif principal d'analyser une variable quantitative ?

Décrire où se répartissent ses valeurs (C) Signup and view all the answers

Quelle fonction permet de calculer la valeur maximale d'une variable ?

max (C) Signup and view all the answers

Pourquoi est-il important d'analyser les valeurs extrêmes dans une variable quantitative ?

Elles permettent de comprendre la distribution (C) Signup and view all the answers

Quel problème peut survenir en ayant trop peu de classes dans un histogramme ?

Les variations peuvent être masquées. (A) Signup and view all the answers

Quel argument permet de changer la couleur des barres dans un histogramme ?

col (D) Signup and view all the answers

Quelle fonction graphique de base de R est mentionnée pour la création d'histogrammes ?

hist (B) Signup and view all the answers

Quel est l'effet d'un nombre excessif de classes dans un histogramme ?

Il masque les grandes tendances. (D) Signup and view all the answers

Comment peut-on modifier le titre d'un histogramme dans R ?

Avec l'argument 'main'. (C) Signup and view all the answers

Quelle caractéristique définit une variable qualitative ?

Elle prend un nombre limité de modalités. (C) Signup and view all the answers

Quel est l'objectif principal de modifier les étiquettes des axes dans un histogramme ?

Clarifier l'information présentée. (B) Signup and view all the answers

Quel aspect de ggplot2 est souligné comme une amélioration par rapport à la fonction hist ?

La personnalisation de graphiques complexes. (A) Signup and view all the answers

Quelle est la profession avec la plus haute proportion d'hommes selon les pourcentages ligne?

Ouvrier spécialisé (D) Signup and view all the answers

Dans quel cas est-il recommandé de calculer les pourcentages colonne?

Lorsque la variable indépendante est en ligne. (A) Signup and view all the answers

Quel pourcentage de femmes est associé à la catégorie 'Employé'?

54.6% (A) Signup and view all the answers

Comment se définit la variable dépendante dans un tableau croisé?

C'est la variable expliquée par la variable indépendante. (A) Signup and view all the answers

Quel pourcentage d'hommes sont des 'Cadres' selon les pourcentages colonne?

19.6% (B) Signup and view all the answers

Quelle profession a la plus faible représentation féminine selon les pourcentages ligne?

Ouvrier qualifié (C) Signup and view all the answers

Quel est le pourcentage total de femmes dans toutes les catégories?

55.2% (B) Signup and view all the answers

Dans une analyse bivariée, quel aspect des lignes et colonnes est souligné?

On peut inverser les lignes et colonnes sans changer l’interprétation. (B) Signup and view all the answers

Quelle interprétation est correcte si un résidu est inférieur à -2 ?

Il y a une sous-représentation de cette case. (A) Signup and view all the answers

Que signifie un résidu compris entre -2 et 2 ?

Il n’y a pas d'écart à l'indépendance significatif. (C) Signup and view all the answers

Quel est le rôle de la fonction chisq.residuals dans l'analyse ?

Elle calcule les résidus d'un tableau de contingence. (C) Signup and view all the answers

Quelle visualisation peut être utilisée pour représenter graphiquement un tableau croisé ?

Mosaicplot. (A) Signup and view all the answers

Qu'implique un résidu supérieur à 2 pour une case donnée ?

Il y a une sur-représentation de cette case. (A) Signup and view all the answers

Comment peut-on améliorer la représentation graphique d’un tableau croisé avec mosaicplot ?

En colorant les cases selon les résidus. (B) Signup and view all the answers

Quelle commande permet de colorer les cases d'un mosaicplot selon les résidus ?

mosaicplot(tab, shade = TRUE) (C) Signup and view all the answers

Quelle interprétation est fausse concernant le résidu d'un tableau croisé ?

Un résidu entre -2 et 2 est significatif. (D) Signup and view all the answers

Quel est l'objectif principal du test du t de Student?

Tester si les moyennes de deux sous-populations sont différentes. (A) Signup and view all the answers

Quelle commande R est utilisée pour réaliser un test t?

t.test() (C) Signup and view all the answers

Que signifie un p-value très petit dans le contexte d'un test t?

L'hypothèse nulle d'égalité des moyennes peut être rejetée. (A) Signup and view all the answers

Quel est l'un des résultats fournis par un test t?

Un intervalle de confiance pour la différence entre les moyennes. (C) Signup and view all the answers

Pourquoi est-il important de vérifier la normalité des distributions avant d'appliquer le test t?

Le test t suppose que les deux groupements sont normalement distribués. (C) Signup and view all the answers

Quel graphique permet d'observer visuellement la normalité des données?

Histogramme (D) Signup and view all the answers

Quel facteur a été mentionné comme affectant la distribution des âges dans le groupe des sportifs?

L'âge maximum de 18 ans imposé par l'enquête. (D) Signup and view all the answers

Quel est un des résultats clés du test t en termes de groupes?

Il existe une différence significative entre les âges moyens des groupes. (B) Signup and view all the answers

Quelle est la valeur optimale de k source utilisée pour le clustering K-Means?

4 (A) Signup and view all the answers

Quel est le nombre d'États affectés au troisième cluster?

13 (A) Signup and view all the answers

Quelle fonction est utilisée pour visualiser les clusters créés par le clustering K-Means?

fviz_cluster() (B) Signup and view all the answers

Quelle moyenne est estimée pour le nombre de viols pour 100 000 citoyens dans le premier groupe?

12 (B) Signup and view all the answers

Quelle méthode est utilisée pour évaluer les moyennes des variables dans chaque cluster?

aggregate() (C) Signup and view all the answers

Quel est l'objectif principal de la Classification ascendante Hiérarchique (CAH) ?

Créer des clusters d'observations homogènes. (A) Signup and view all the answers

Quelle métrique peut être utilisée pour calculer la dissimilarité dans une CAH ?

La distance euclidienne. (B) Signup and view all the answers

Quelle méthode est associée à la fusion des observations dans la CAH ?

Fusion des deux observations les plus similaires. (D) Signup and view all the answers

Quelle approche permet de déterminer la proximité entre deux clusters ?

Regroupement à liaison unique. (C) Signup and view all the answers

Quel est le résultat final d'un processus de CAH ?

Un dendrogramme. (B) Signup and view all the answers

Comment est calculée la dissimilarité totale pour un ensemble de données avec n observations ?

n(n - 1)/2 dissemblances. (B) Signup and view all the answers

Quelle méthode de regroupement calcule la distance maximale entre deux clusters ?

Regroupement complet des liens. (C) Signup and view all the answers

Quels packages doivent être chargés pour effectuer la CAH dans R ?

clusters et factoextra. (A) Signup and view all the answers

Quelle est la première étape de la préparation des données pour le clustering hiérarchique?

Charger le jeu de données USArrests (C) Signup and view all the answers

Pourquoi est-il nécessaire de mettre à l’échelle chaque variable de l’ensemble de données?

Pour assurer que chaque variable a le même poids (B) Signup and view all the answers

Quelle fonction est utilisée pour effectuer un clustering hiérarchique dans R?

agnes() (D) Signup and view all the answers

Quel coefficient indique la force des clusters dans l'analyse de clustering?

Coefficient d’agglomération (A) Signup and view all the answers

Quelle méthode est proposée pour le clustering hiérarchique final en raison de son coefficient d’agglomération élevé?

Méthode de Ward (B) Signup and view all the answers

Pour quel objectif utilise-t-on la statistique d’écart dans l’analyse de clusters?

Pour évaluer la variation totale intra-cluster (C) Signup and view all the answers

Qu'indiquent les feuilles au bas du dendrogramme dans le clustering hiérarchique?

Elles représentent des observations individuelles (D) Signup and view all the answers

Quel est le résultat de l'utilisation d'une méthode de clustering incorrecte?

Des clusters inappropriés et non significatifs (A) Signup and view all the answers

Quelle méthode est utilisée pour déterminer la proximité entre une observation et un centroïde dans le clustering?

Distance euclidienne (C) Signup and view all the answers

Pourquoi est-il recommandé d'utiliser plusieurs configurations initiales dans l'algorithme k-moyennes?

Pour éviter la convergence vers un minimum local (A) Signup and view all the answers

Quelle est l'utilité de la fonction fviz_nbclust() dans le processus k-moyennes?

Pour déterminer le nombre optimal de clusters (A) Signup and view all the answers

Quel aspect recherche-t-on dans le graphique représentant le nombre de clusters par rapport à la somme des carrés?

Une stabilisation après un certain point (D) Signup and view all the answers

Quelle est la première étape pour préparer les données avant d'appliquer k-moyennes?

Supprimer les valeurs manquantes (A) Signup and view all the answers

En utilisant k-moyennes, quel paramètre représente le nombre de clusters souhaités?

centres (C) Signup and view all the answers

Qu'est-ce que la statistique d'écart mesure dans le contexte des k-moyennes?

La variation totale intra-cluster (B) Signup and view all the answers

Quel package R est mentionné pour la réalisation du clustering k-moyennes?

factoextra (B) Signup and view all the answers

Quel est le principal objectif de la méthode k-means ?

Créer des groupes où les observations à l'intérieur sont similaires (B) Signup and view all the answers

Quelle étape vient après avoir choisi une valeur pour K dans la méthode k-means ?

Attribuer au hasard chaque observation à un cluster (B) Signup and view all the answers

Quelle fonction peut être utilisée pour découper un dendrogramme en clusters ?

cutree() (A) Signup and view all the answers

Quel est le nombre moyen de meurtres pour 100 000 citoyens dans les États du groupe 1 ?

14,67 (A) Signup and view all the answers

Comment peut-on obtenir la moyenne des variables dans chaque cluster ?

En utilisant la fonction aggregate() (A) Signup and view all the answers

Quelle valeur de k a été choisie pour regrouper les observations ?

4 (D) Signup and view all the answers

Quel est le pourcentage moyen de résidents vivant dans une zone urbaine parmi les États du groupe 1 ?

54,28 % (C) Signup and view all the answers

Quelle est la première étape dans la procédure k-means après avoir défini K ?

Attribuer chaque observation à un cluster par défaut (A) Signup and view all the answers

Quel paramètre est utilisé pour contrôler la complexité de l'arbre de classification dans le processus de construction ?

cp (C) Signup and view all the answers

Quelle méthode est utilisée pour élaguer l'arbre de classification afin de réduire l'erreur de test ?

validation croisée (A) Signup and view all the answers

Quelle information est affichée dans le nœud terminal de l'arbre élagué ?

le nombre de passagers décédés et survivants (C) Signup and view all the answers

Comment la probabilité de survie d'un passager est-elle calculée selon l'exemple donné ?

en prenant le rapport entre survivants et décédés dans un groupe donné (B) Signup and view all the answers

Quel est le résultat de l'utilisation d'une valeur petite pour cp lors de la construction de l'arbre ?

un arbre de classification plus complexe (A) Signup and view all the answers

Quel est le taux total d'erreur de classification pour ce modèle ?

2,7 % (C) Signup and view all the answers

Que mesure la spécificité dans le contexte d'un modèle de prédiction ?

Le taux de vrais négatifs (A) Signup and view all the answers

Quel est l'AUC (aire sous la courbe) pour le modèle dans la description ?

0,9131 (D) Signup and view all the answers

Dans un arbre de décision, que fait une variable prédictive ?

Elle prédit une valeur pour la variable de réponse (D) Signup and view all the answers

Quel type d'arbre est construit si la variable de réponse est continue ?

Arbre de régression (D) Signup and view all the answers

Quel pourcentage indique que le modèle prédit bien si l’erreur de classification est de 2,7 % ?

97,3 % (A) Signup and view all the answers

Quel concept est illustré par un modèle ayant un AUC de 0,9131 ?

Un bon modèle de prédiction (A) Signup and view all the answers

Quel algorithme est utilisé pour construire des arbres de décision et de régression ?

CART (D) Signup and view all the answers

Quelle fonction est utilisée pour ajuster un modèle de régression logistique dans R ?

glm() (B) Signup and view all the answers

Quelle variable prédictive a la plus faible valeur p dans l'analyse du modèle de régression logistique ?

Solde (A) Signup and view all the answers

Quel seuil de probabilité a été identifié comme optimal pour prédire le défaut de paiement ?

0,5451712 (C) Signup and view all the answers

Quelle probabilité de défaut de paiement est associée à un individu avec un solde de 1 400 $, un revenu de 2 000 $ et un statut d'étudiant 'Oui' ?

0,0273 (B) Signup and view all the answers

En quoi consiste la fonction optimalCutoff() dans l'analyse du modèle ?

Trouver le seuil de probabilité optimal (A) Signup and view all the answers

Quel effet a une augmentation d'une unité du solde sur le logarithme des chances de défaut ?

0,005988 (D) Signup and view all the answers

Quelle variable prédictive n'est pas considérée comme importante dans le modèle de régression logistique ?

Revenu (D) Signup and view all the answers

Quel critère est utilisé pour prédire qu'un individu sera en défaut de paiement dans l'ensemble de données de test ?

Probabilité de défaut supérieure à 0,5 (D) Signup and view all the answers

Quel est l'effet de choisir une petite valeur pour le paramètre de complexité cp lors de la création d'un arbre de régression ?

L'arbre sera plus grand et comportera plus de fractionnements. (A) Signup and view all the answers

Comment est déterminée la valeur optimale pour cp lors de l'élagage de l'arbre ?

En consultant la valeur d'erreur xerror la plus faible. (D) Signup and view all the answers

Quel rôle joue la fonction predict() dans le contexte de l'arbre de régression ?

Elle prédit la valeur en fonction des variables d'entrée. (C) Signup and view all the answers

Quel ensemble de données est utilisé pour construire l'arbre de classification lié aux passagers du Titanic ?

Le dataset ptitanic. (B) Signup and view all the answers

Que représente le nombre de nœuds terminaux dans un arbre de régression après élagage ?

Le salaire moyen prévu pour chaque groupe. (D) Signup and view all the answers

Quel paramètre l'arbre de régression utilise-t-il pour déterminer le niveau de complexité ?

Le paramètre de complexité cp. (B) Signup and view all the answers

Quelle fonction est utilisée pour afficher les résultats du modèle d'arbre de régression après sa création ?

printcp() (B) Signup and view all the answers

Lors de la prédiction du salaire d'un joueur, quelle variable est prise en compte ?

Les coups de circuit moyens. (D) Signup and view all the answers

Quel est l'objectif principal de la régression logistique ?

Classer les observations en catégories binaires. (C) Signup and view all the answers

Quelle formule permet de calculer la probabilité d'une observation dans une régression logistique ?

p(X) = e^(β0 + β1X1 + β2X2 + … + βpXp) / (1 + e^(β0 + β1X1 + β2X2 + … + βpXp)) (C) Signup and view all the answers

Comment une observation est-elle classée dans la régression logistique ?

En utilisant un seuil de probabilité fixé. (A) Signup and view all the answers

Quel type de variable est utilisé dans la régression logistique pour prédire si une personne fait défaut ?

Variable qualitative binaire. (C) Signup and view all the answers

Quelles variables prédictives sont utilisées pour construire le modèle de régression logistique dans l'exemple donné ?

statut d'étudiant, solde bancaire, et revenu. (C) Signup and view all the answers

Quelle méthode est employée pour ajuster un modèle de régression logistique ?

Estimation du maximum de vraisemblance. (C) Signup and view all the answers

Quelle étape suit le chargement des données dans la construction d'un modèle de régression logistique ?

Créer des échantillons d’entraînement et de test. (A) Signup and view all the answers

Quel est le groupe ciblé par le modèle de régression logistique dans l'exemple ?

Tous les individus dans le jeu de données. (A) Signup and view all the answers

Flashcards

head()

Fonction permettant d'afficher les premières valeurs d'un vecteur. Le nombre de valeurs à afficher est spécifié en deuxième argument.

tail()

Fonction permettant d'afficher les dernières valeurs d'un vecteur. Le nombre de valeurs à afficher est spécifié en deuxième argument.