Analyse de données PDF

Formation complémentaire: méthodologie de recherche Analyse de données Oumayma BANOUAR L2IS,FSTG,UCAM [email protected] L’apprentissage automatique et...

Formation complémentaire: méthodologie de recherche Analyse de données Oumayma BANOUAR L2IS,FSTG,UCAM [email protected] L’apprentissage automatique et les données ? Les algorithmes de l’apprentissage automatique sont basés sur des données. On parle aussi d’échantillons (samples), d’observations, ou d’exemples. Deux grandes familles de jeux de données peuvent être utilisées :  les données étiquetées : chaque observation xn est fournie avec une étiquette (label) yn ;  les données non-étiquetées : comme le nom l’indique, aucune étiquette n’est fournie. END-TO-END projects workflow 1.Collecte de Données : Acquisition de données pertinentes pour l'entraînement et l'évaluation du modèle. 2.Exploration et Prétraitement des Données : Analyse exploratoire des données pour comprendre leur structure et leur qualité, suivi du nettoyage, de la normalisation et de la transformation des données en un format approprié pour l'entraînement du modèle. 3.Choix du Modèle et Entraînement : Sélection d'un algorithme de machine learning approprié et entraînement du modèle sur les données d'entraînement. 4.Évaluation et Validation du Modèle : Évaluation de la performance du modèle sur des données de validation ou de test pour estimer sa précision et son efficacité. 5.Optimisation et Réglage du Modèle : Ajustement des hyperparamètres et des paramètres du modèle pour améliorer sa performance. 6.Déploiement et Maintenance du Modèle : Intégration du modèle dans un environnement de production pour effectuer des prédictions en temps réel, suivi de la maintenance continue pour assurer sa performance et son efficacité à long terme. Collecte et préparation des données Activités de nettoyage, de transformation, d’augmentation /réduction et d’échantillonnage des données. Identification des attributs des données les plus pertinents. Visualisation des données Tests et interprétation Collecte des données Le processus de collecte des données est une étape cruciale dans la réalisation de recherches ou d'analyses. Il consiste à rassembler des informations pertinentes et nécessaires pour répondre à des questions spécifiques ou pour atteindre des objectifs prédéfinis. Voici les principales étapes du processus de collecte des données : 1. Définition des Objectifs Avant de commencer la collecte de données, il est essentiel de définir clairement les objectifs de la recherche ou de l'analyse. Cela inclut la définition des questions de recherche, des hypothèses et des variables à étudier. Collecte des données 2. Sélection de la Méthode de Collecte Enquêtes et questionnaires : Utilisés pour recueillir des informations auprès d'un grand nombre de personnes. Entretiens : Permettent de collecter des données qualitatives détaillées à travers des interactions directes. Observations : Impliquent la collecte de données en observant les comportements ou les événements. Sources secondaires : Utilisation de données déjà existantes comme des rapports, des articles scientifiques, des bases de données, etc. Expériences : Impliquent la manipulation de variables pour observer les effets sur d'autres variables. Collecte des données 3. Conception des Instruments de Collecte Les instruments de collecte doivent être soigneusement conçus pour garantir la pertinence et la fiabilité des données. Par exemple : Questionnaires : Doivent comporter des questions claires et non biaisées. Guides d’entretien : Doivent inclure des questions ouvertes pour obtenir des réponses détaillées. Fiches d’observation : Doivent préciser ce qui doit être observé et comment enregistrer les observations. 4. Échantillonnage Il est souvent impossible de collecter des données auprès de l’ensemble de la population cible. Un échantillon représentatif doit donc être sélectionné. Les techniques d'échantillonnage peuvent être probabilistes (aléatoires) ou non probabilistes (de commodité, par quotas, etc.). 5. Collecte des Données C’est la phase où les données sont réellement recueillies à l’aide des instruments et méthodes choisis. Cette étape nécessite une organisation rigoureuse pour s'assurer que les données sont collectées de manière cohérente et précise. Préparation des données 1.Exploration des données : 1. Cette étape implique l'analyse initiale des données disponibles pour en comprendre la structure, les caractéristiques et les tendances. Cela peut inclure des statistiques descriptives telles que la moyenne, la médiane, l'écart-type, etc. 2. L'exploration des données peut également impliquer la visualisation des données à l'aide de graphiques, de diagrammes et de tableaux de bord interactifs pour identifier des schémas, des anomalies ou des relations entre les variables. 2.Nettoyage des données : 1. Le nettoyage des données consiste à identifier et à corriger les erreurs, les valeurs manquantes et les incohérences dans l'ensemble de données. Cela peut impliquer la suppression des valeurs aberrantes, l'imputation des valeurs manquantes, la normalisation des données, etc. 2. Les techniques de nettoyage des données peuvent varier en fonction du type de données et des problèmes spécifiques rencontrés dans l'ensemble de données. Préparation des données 3.Transformation des données : 1. La transformation des données implique souvent la conversion des données brutes en un format plus approprié pour l'entraînement des modèles. Cela peut inclure la conversion des données catégorielles en données numériques, l'encodage des variables catégorielles, la création de nouvelles caractéristiques à partir des caractéristiques existantes, etc. 2. Cette étape peut également impliquer la réduction de la dimensionnalité des données à l'aide de techniques telles que l'analyse en composantes principales (PCA) ou d'autres méthodes de sélection ou d'extraction de caractéristiques. 3. Cette étape peut également impliquer l’augmentation des données pour augmenter la taille et la diversité (équilibrage) de l'ensemble de données d'entraînement. 4.Préparation des données pour l'entraînement : les données sont préparées dans un format adapté à l'entraînement des modèles. Cela implique généralement de diviser l'ensemble de données en ensembles de données d'entraînement et de test, et éventuellement de normaliser ou de mettre à l'échelle les données en fonction des besoins spécifiques du modèle. Préparation des données Qu’est ce qu’une donnée manquante? Les algorithmes de Machine Learning prennent les données d’entrée (input Data) sous forme matricielle, chaque ligne est une observation, et chaque colonne représente une caractéristique (feature) de l’individu (son salaire, appartenance politique etc…). On dit qu’une observation (ligne de la matrice de données) comporte une donnée manquante s’il existe une feature pour laquelle sa valeur n’est pas renseignée. Evidemment, on peut avoir plusieurs données manquantes pour une même observation. Préparation des données Les différents patterns d’absence de données Les données manquantes sont un problème qui se manifeste non seulement en Data Science mais également en modélisation statistique. Toutefois, la préoccupation reste la même. A savoir, comment traiter ces données manquantes de façon à remplir les données non renseignées et ce, sans altérer significativement le jeu de données initial. La difficulté pour traiter les données manquantes réside dans les hypothèses que nous nous faisant à l’égard des patterns d’absence de données. ========== >Trois patterns de données manquantes Préparation des données Les différents patterns d’absence de données Les données Missing Completely At Random (MCAR) Quand la valeur d’une variable explicative (feature) X est manquante, on dit que cette feature est MCAR (Missing Completly At Random) si et seulement si la probabilité que la valeur soit manquante est indépendant des valeurs prises par les autres variables explicatives de l’observation, qu’elles soient manquantes ou non. Exemple: Prénom et Sexe vs Prénom et salaire Préparation des données Les différents patterns d’absence de données Missing At Random (MAR) On dit que les données manquantes d’une feature X sont Missing At Random (MAR) si et seulement si, la probabilité qu’une valeur X soit manquante est corrélée à l’existence de variables explicatives dont les valeurs sont renseignées. Par contre cette probabilité n’est pas corrélée à l’absence de valeurs de variables explicatives. Préparation des données Les différents patterns d’absence de données Not Missing At Random (NMAR) La probabilité qu’une valeur d’une variable explicative soit manquante ou pas, ne dépend que d’elle même et n’est corrélée avec aucune des valeurs des autres variables explicatives. En d’autre terme, il existe un pattern qui motive l’absence d’une valeur. A titre d’exemple, imaginons qu’on fait un sondage sur une population et qu’on demande leur salaire mensuelle. On pourra remarquer que plus le montant du salaire augmente, plus cette information est absente. On peut supposer que les gens les plus fortunés ne souhaitent pas divulguer le montant de leurs revenus. Les données NMAR sont les plus délicates à traiter car l’absence d’une donnée est motivée par une cause que nous avons interêt à comprendre pour mieux traiter ces données absentes. On dit qu’il s’agit d’un pattern d’absence de données non ignorable. Préparation des données Les différents patterns d’absence de données Quand une hypothèse MCAR ou MAR est remplie, on dit que le pattern d’absence de données est ignorable. En d’autre mots, il n’y a pas besoin de modéliser le comportement régissant l’absence de données pour une feature X car il est aléatoire. Par ailleurs, quand les données ne sont ni MCAR ni MAR on dit que le pattern d’absence de données n’est pas ignorable. Ainsi, il faut modéliser le comportement d’absence de données pour mieux traiter ces données manquantes. Par ailleurs, modéliser un comportement d’absence de données requiert une compréhension profonde du sens métier des données qu’on manipule. En réalité, savoir le pattern d’absence de données se fait avant tout par hypothèse. Il n’existe pas de règle universelle pour dire si une donnée manquante est une MCAR, MAR ou NMAR. Il est toujours important d’observer et comprendre le jeu de données pour décider quelle approche à utiliser pour traiter ces données manquantes. Préparation des données Méthodes pour traiter les données manquantes Traiter les données manquantes revient à “réparer” le jeu de données pour qu’il puisse être utilisable par les algorithmes de Machine Learning. La réparation d’un jeu de données peut prendre plusieurs formes : Comme supprimer les donner manquantes ou les remplacer par des valeurs artificielles (on parle d’imputation). Préparation des données Méthodes pour traiter les données manquantes Suppression des observations (Complete case Analysis) Il s’agit de la technique la plus simple et courante. Elle consiste à supprimer les observations (les lignes) qui contiennent au moins une feature manquante. C’est le comportement par défaut. Le problème de cette technique est qu’on peut être amené à supprimer un grand nombre d’observations. En effet, imaginons qu’on manipule un jeu de données de 1000 observations, et chaque observation est définie par 20 caractéristiques (features). Si chaque feature de notre jeu de données comporte 5% de valeurs manquantes, on devra supprimer 640 observations pour que notre jeu de données ne contiennent aucune valeur manquante. Ainsi notre jeu de données après traitement avec cette méthode ne comportera que 360 observations ! Préparation des données Méthodes pour traiter les données manquantes Imputation de données L’imputation de données manquante réfère au fait qu’on remplace les valeurs manquantes dans le jeu de données par des valeurs artificielles. Idéalement, ces remplacements ne doivent pas conduire à une altération sensible de la distribution et la composition du jeu de données. Imputation par règle Si on connait le sens métier de la donnée manquante et la règle métier la régissant, on peut faire une imputation par règle. Il s’agit tout simplement d’appliquer un algorithme définissant les règles métier pour mettre telle ou telle valeur en fonction des paramètres de l’algorithme. Par exemple, si on a une variable âge et une autre représentant le fait qu’un individu soit majeur ou non (valeur vrai ou faux), on peut appliquer un algorithme qui remplira la variable majeur par vrai ou faux en fonction de l’âge (si l’âge est plus grand que 18 alors il/elle est majeur(e) sinon on mets faux). Préparation des données Méthodes pour traiter les données manquantes Imputation par moyenne ou mode Une autre façon intuitive d’imputer les valeurs manquantes d’une feature numérique est d’utiliser par la moyenne des observations. Pour les données qualitatives, on peut remplacer les valeurs manquantes de chaque feature par le mode de cette variable explicative. Toutefois, l’imputation par moyenne est sujette à des limitations et il faut l’utiliser avec précaution. En effet, cette méthode peut sensiblement modifier le jeu de données. Ceci est principalement à cause de la moyenne qui est très sensible aux valeurs aberrantes. Imputation par régression Supposons qu’on estime un modèle de régression avec plusieurs variables explicatives. L’une d’entre elles, la variable X, comporte des valeurs manquantes. Dans ce cas on peut sélectionner les autres variables explicatives (autre que X) et calculer un modèle prédictif avec comme variable à prédire X. Ensuite on applique ce modèle pour estimer les différentes valeurs manquantes de X. Modèles machine learning non supervisé Clustering Kmeans K-Means est un algorithme de clustering largement utilisé en apprentissage automatique non supervisé. Son objectif est de regrouper un ensemble de données en un certain nombre de groupes (clusters) de sorte que les points au sein d'un même cluster soient similaires les uns aux autres, tandis que les points dans des clusters différents sont distincts Modèles machine learning non supervisé Clustering Kmeans Entrée: - Nombre de clusters k - Données d'entrée à clusteriser Étape 1: Initialisation des centroïdes Choisir aléatoirement k points comme centres de clusters initiaux Étape 2: Assignation des points aux clusters Tant que les critères d'arrêt ne sont pas satisfaits : Pour chaque point dans les données : Calculer la distance entre le point et chaque centroïde Assigner le point au cluster dont le centroïde est le plus proche Étape 3: Mise à jour des centroïdes Pour chaque cluster : Calculer le nouveau centroïde comme la moyenne des points attribués à ce cluster Modèles machine learning non supervisé Clustering Kmeans Étape 4: Répéter les étapes 2 et 3 jusqu'à convergence (aucun changement dans les affectations de cluster ou un nombre maximal d'itérations est atteint) Sortie: - Affectations de cluster pour chaque point - Centroïdes finaux pour chaque cluster Il existe plusieurs variantes de K-Means: K-Means++ pour une initialisation plus robuste des centroïdes, ce qui impacte la convergence de l’algorithme. Mini-Batch K-Means pour gérer des ensembles de données volumineux de manière plus efficace. Préparation des données Données non équilibrées Le déséquilibre de classes peut entraîner des modèles de classification biaisés qui prédisent généralement la classe majoritaire, ignorant ainsi la classe minoritaire. Préparation des données Oversampling Vs Undersampling L'oversampling est une technique de prétraitement des données utilisée en apprentissage automatique pour traiter les problèmes de déséquilibre de classes dans les ensembles de données. Cette technique est particulièrement utile dans les tâches de classification où une classe est sous-représentée par rapport aux autres classes. Réplication aléatoire (Random Oversampling) : Cette méthode consiste à répliquer aléatoirement des échantillons de la classe minoritaire jusqu'à ce que le nombre d'échantillons de cette classe atteigne un niveau souhaité. Cela peut conduire à un surapprentissage si la classe minoritaire est trop représentée. Synthèse de minorités (SMOTE - Synthetic Minority Over-sampling Technique) : Cette méthode consiste à générer de nouveaux échantillons synthétiques pour la classe minoritaire en interpolant linéairement les échantillons existants. SMOTE tente de créer des échantillons qui sont des combinaisons linéaires des échantillons minoritaires existants, ce qui peut aider à éviter le surapprentissage. Préparation des données Oversampling Vs Undersampling L'undersampling est une technique de prétraitement des données utilisée en apprentissage automatique pour traiter les problèmes de déséquilibre de classes dans les ensembles de données. Contrairement à l'oversampling qui augmente artificiellement le nombre d'échantillons de la classe minoritaire, l'undersampling consiste à réduire le nombre d'échantillons de la classe majoritaire afin d'équilibrer les classes. L'undersampling est souvent utilisé lorsque l'oversampling n'est pas réalisable en raison de contraintes de ressources. Sous-échantillonnage aléatoire (Random Undersampling) : Cette méthode consiste à supprimer aléatoirement des échantillons de la classe majoritaire jusqu'à ce que le nombre d'échantillons de cette classe atteigne un niveau souhaité. Cela peut conduire à une perte d'informations si des échantillons importants sont supprimés. Analyse des données Exploration des données et visualisation L’exploration des données univariée correspond à deux niveaux: 1. Les métriques statistiques et de qualité 2. La visualisation de la data 3. Détection des facteurs les plus contribuant dans la data. Mesures statistiques: moyenne, médiane et quantiles Mesures de qualité: variance, écart-type, écart interquartile Validation et évaluation du modèle Test fractionné: Dans un test fractionné, l'ensemble de données est divisé en deux parties, l'une est l' ensemble d'entraînement et l'autre est l'ensemble de données de test. Une fois les données divisées, l'algorithme utilisera l'ensemble d'entraînement et un modèle est créé. La précision d'un modèle est testée à l'aide de l'ensemble de données de test. Le rapport de division de l'ensemble de données en formation et en test peut être décidé en fonction de la taille de l'ensemble de données. C'est rapide et efficace lorsque l'ensemble de données est de grande taille ou que l'ensemble de données est cher. Cela peut produire des résultats différents sur la façon dont l'ensemble de données est divisé en ensemble de données de formation et de test. Si l'ensemble de données est divisé en 80 % comme ensemble d'entraînement et 20 % comme ensemble de tests, 60 % comme ensemble d'entraînement et 40 %, les deux généreront des résultats différents. Nous pouvons opter pour plusieurs tests fractionnés, où l'ensemble de données est divisé en différents ratios et le résultat est trouvé et comparé pour son exactitude. Validation et évaluation du modèle Validation croisée (K-fold validation) Division des données : Tout d'abord, les données sont divisées en k ensembles (ou plis) de taille égale (ou presque). Typiquement, k est choisi entre 5 et 10, mais cela peut varier en fonction de la taille du jeu de données. Boucle de validation : Ensuite, le modèle est entraîné k fois. À chaque itération, un pli est retenu comme ensemble de test et les k-1 plis restants sont utilisés comme ensemble d'apprentissage. Évaluation du modèle : Le modèle est entraîné sur l'ensemble d'apprentissage et évalué sur l'ensemble de test retenu. Les métriques d'évaluation, telles que l'exactitude, la précision, le rappel, le score F1, etc., sont calculées pour chaque itération. Moyenne des performances : Les performances du modèle sont moyennées sur les k itérations pour obtenir une estimation finale de ses performances. Cela permet d'obtenir une évaluation plus fiable du modèle, en tenant compte de la variabilité des données. -précision(ou valeur prédictive positive) est la proportion des items pertinents parmi l'ensemble des Validation et évaluation du modèle items proposés ; -rappel(ou sensibilité) est la proportion des items pertinents proposés parmi l'ensemble des items pertinents. La précision = mesure de l'exactitude ou de la qualité, Le rappel = une mesure de l'exhaustivité ou de la quantité. Validation et évaluation du modèle Cas d’une classification binaire La courbe ROC (Receiver Operating Characteristic) est une courbe graphique qui illustre la performance d'un modèle de classification binaire à différents seuils de classification. Elle est largement utilisée en apprentissage automatique pour évaluer la performance des modèles de classification et pour sélectionner le seuil optimal de classification. Courbe ROC : La courbe ROC est tracée en reliant les points (FPR, TPR) pour différents seuils de classification. Chaque point de la courbe ROC correspond à un seuil de classification spécifique. Plus la courbe ROC est proche du coin supérieur gauche (0,1) de l'axe, meilleure est la performance du modèle. Analyse des données Analyse par régression - Détecter la variable cible - Détecter les variables explicatives - Calculer la corrélation - Normaliser les données - Appliquer la régression (multiple/ logistique) - Sélectionner les variables les plus impactant en fonction des coefficients - Valider le modèle (mesures en fonction de la régression) https://github.com/epimed/eoc-ai-session-1/blob/main/notebook/exo_2_solution.ipynb https://www.kaggle.com/code/adityakapoor06/house-pricing-regression Modèles machine learning supervisé Régression logistique La régression logistique est une technique utilisée pour effectuer une classification binaire, c'est-à-dire pour prédire des variables de classe qui peuvent prendre deux valeurs distinctes, telles que "oui" ou "non", "vrai" ou "faux", "positif" ou "négatif". Bien que le mot "régression" soit utilisé, il est important de noter que la régression logistique est utilisée pour la classification, pas pour la régression. X représente la matrice des caractéristiques de l'ensemble d'entraînement (chaque ligne correspond à une observation, chaque colonne à une caractéristique). y représente le vecteur des étiquettes de classe correspondant à l'ensemble d'entraînement. β représente les coefficients du modèle (poids). taux_apprentissage est le taux d'apprentissage utilisé dans la mise à jour des coefficients β pendant la descente de gradient. nombre_iterations est le nombre d'itérations de la descente de gradient. Modèles machine learning supervisé Régression logistique sigmoid est une fonction d'activation qui transforme la sortie d'une combinaison linéaire des caractéristiques en une valeur Fonction sigmoid(z) entre 0 et 1, représentant une probabilité. retourner 1 / (1 + exp(-z)) Fonction entraîner_regression_logistique(X, y, taux_apprentissage, nombre_iterations) initialiser les coefficients β avec des valeurs aléatoires ou à zéro Pour chaque itération de 1 à nombre_iterations Pour chaque observation x_i, y_i dans l'ensemble d'entraînement (X, y) Calculer la prédiction y_pred = sigmoid(β * x_i) Calculer l'erreur entre la prédiction et la vérité terrain : erreur = y_pred - y_i Mettre à jour les coefficients β en utilisant la descente de gradient : Pour chaque coefficient j de β β_j = β_j - taux_apprentissage * erreur * x_i[j] Retourner les coefficients β appris Fonction prédire_regression_logistique(X, β) Pour chaque observation x_i dans l'ensemble de données X Calculer la prédiction y_pred = sigmoid(β * x_i) Classer l'observation selon la valeur de y_pred (par exemple, si y_pred > 0.5, prédire la classe 1, sinon prédire la classe 0) Retourner les prédictions Modèles machine learning supervisé Régression logistique entraîner_regression_logistique utilise la descente de gradient pour ajuster les coefficients β afin de minimiser l'erreur entre Fonction sigmoid(z) les prédictions du modèle et les étiquettes réelles. retourner 1 / (1 + exp(-z)) Fonction entraîner_regression_logistique(X, y, taux_apprentissage, nombre_iterations) initialiser les coefficients β avec des valeurs aléatoires ou à zéro Pour chaque itération de 1 à nombre_iterations Pour chaque observation x_i, y_i dans l'ensemble d'entraînement (X, y) Calculer la prédiction y_pred = sigmoid(β * x_i) Calculer l'erreur entre la prédiction et la vérité terrain : erreur = y_pred - y_i Mettre à jour les coefficients β en utilisant la descente de gradient : Pour chaque coefficient j de β β_j = β_j - taux_apprentissage * erreur * x_i[j] Retourner les coefficients β appris Fonction prédire_regression_logistique(X, β) Pour chaque observation x_i dans l'ensemble de données X Calculer la prédiction y_pred = sigmoid(β * x_i) Classer l'observation selon la valeur de y_pred (par exemple, si y_pred > 0.5, prédire la classe 1, sinon prédire la classe 0) Retourner les prédictions Modèles machine learning supervisé Régression logistique prédire_regression_logistiqueutilise les coefficients β appris Fonction sigmoid(z) pour prédire les classes des nouvelles observations à partir de retourner 1 / (1 + exp(-z)) leurs caractéristiques. Fonction entraîner_regression_logistique(X, y, taux_apprentissage, nombre_iterations) initialiser les coefficients β avec des valeurs aléatoires ou à zéro Pour chaque itération de 1 à nombre_iterations Pour chaque observation x_i, y_i dans l'ensemble d'entraînement (X, y) Calculer la prédiction y_pred = sigmoid(β * x_i) Calculer l'erreur entre la prédiction et la vérité terrain : erreur = y_pred - y_i Mettre à jour les coefficients β en utilisant la descente de gradient : Pour chaque coefficient j de β β_j = β_j - taux_apprentissage * erreur * x_i[j] Retourner les coefficients β appris Fonction prédire_regression_logistique(X, β) Pour chaque observation x_i dans l'ensemble de données X Calculer la prédiction y_pred = sigmoid(β * x_i) Classer l'observation selon la valeur de y_pred (par exemple, si y_pred > 0.5, prédire la classe 1, sinon prédire la classe 0) Retourner les prédictions Préparation des données Réduction de dimensionnalité en utilisant l’analyse fonctionnelle Préparation des données Réduction de dimensionnalité en utilisant l’analyse fonctionnelle: ACP Analyse en composantes principales Préparation des données Réduction de dimensionnalité en utilisant l’analyse fonctionnelle: ACP Analyse en composantes principales https://fermin.perso.math.cnrs.fr/Files/ACP-decatlon_new.html Choix des tests statistiques 12-6-2024 B. Admou Laboratoire d’immunologie & Centre de recherche clinique FMPM et CHU de Marrakech Tests statistiques question de recherche A Chaque question de recherche correspond un ou des tests. Est-ce que on veut faire une description. Est-ce que on cherche une relation ou association entre variables Est-ce qu'on cherche à comparer les échantillons ou les variables Est-ce qu'on veut faire une prédiction. Variables à étudier Groupes sanguins Profession Etat matrimonial Stade d'une maladie Données indépendantes ou appariées ? Données indépendantes : les observations sont indépendantes à l'intérieur de chaque échantillon et d'un échantillon à l'autre Ex: - Résultats scolaires filles et garçons, - Dosage d'un produit chez 2 groupes de patients ayant reçu une molécule ou un placebo Données appariées : les mêmes individus sont soumis à 2 mesures successives d'une même variable. Ex: - Notes de copies soumises à une double correction, - dosage d’un produit avant et après un traitement chez les mêmes individus Tests statistiques les plus couramment utilisés Tests paramétriques Tests non paramétriques Khi 2 Test Wilcoxon Test t de Student Test Mann-whitney Coefficient de corrélation/ analyse de régression (Pearson) Test de Mcnemar Test ANOVA Test de Kruskal-wallis Test de corrélation de Spearman les données analysées suivent une distribution généralement Ne nécessitent pas l’estimation de paramètres normale et reposent sur l’estimation des moyennes et des ou des hypothèses basés sur les propriétés de variances pour faire des inférences sur la population générale. distribution. Stratégie globale pour le choix des tests statistiques Quelques règles simples dans le choix des tests statistiques Tester la liaison entre une variable quantitative et une variable qualitative à deux (2) modalités Test de Student (alternative : test de Man-Withney). Pour une variable qualitative avec plus de deux modalités, Test ANOVA (alternative: test de Kruskal et Wallis. Les tests de Student et ANOVA requièrent certaines conditions sur la distribution de probabilité des données : Test paramétrique : normalité de la distribution. Tests non paramétrique : aucune condition sur la distribution Tests paramétriques Test de Student Test de Khi-carre Test de Fisher Anova Coefficient de corrélation : Test de Pearson le risque ⍺ du test est déterminé en calculant la Condition d’utilisation : moyenne et l’écart-type de Il faut vérifier certaines hypothèses concernant les échantillons de données : l’échantillon, permettant de même distribution (normalité) entre les deux groupes d’échantillons donnés connaître la loi de distribution de l’échantillon. § Les tests paramétriques sont plus puissants § p-value calculée par un test paramétrique est généralement < p-value calculée par un équivalent non-paramétrique exécuté sur les mêmes données. Test de Student L’un des tests statistiques le plus utilisé pour comparer les moyennes de deux groupes indépendants ou appariés. Le test de Student suppose que les données suivent une distribution normale et qu’il y’a égalité de variance entre les deux groupes. Test de Fisher Comparaison des moyennes et variances Ex. Comparer deux méthodes de dosage répétées à partir d’un même échantillon n fois avec la méthode A n fois avec la méthode B 1) Tester l’hypothèse : “les valeurs moyennes obtenues par les deux méthodes sont égales”. les méthodes sont-elles exactes ? 2) Comparer les variances des échantillons traités avec les deux méthodes. les deux méthodes ont-elles la même précision ? Test ANOVA Analyse de la variance à un facteur Comparaison des moyennes sur des groupes indépendants Ex. Un éditeur veut choisir entre trois couvertures possibles pour une revue. Il fait noter chaque couverture par un groupe de 5 individus indépendants, et obtient les notes suivantes : Tests non paramétriques Types de tests : Test Wilcoxon Test Mann-whitney Test de Mcnemar Test de Kruskal-wallis Vérifier que la médiane d’une population est différente Test de corrélation de Spearman d’une valeur théorique. Ex. Dimensions de 14 pièces d’un immeuble : Condition d’utilisation Dans 11/14 cas: le résultat est inférieur à la médiane o Hypothèse statistique ne peut être vérifiée théorique o hypothèses statistiques ou alors elles ne sont pas vérifiables, o Ne nécessitent pas l’estimation de paramètres (moyennes, variances) ou des hypothèses basés sur les propriétés de distribution. Exemples d’utilisation : comparaison du rythme cardiaque chez une population avant et après administration d’un médicament Comparaison des salaires hommes/femmes de mêmes âges (appariés) pour le même poste. Les tests non-paramétriques sont plus robustes que les tests paramétriques. Peuvent être utilisés dans un plus grand nombre de situations. Tests non paramétriques Permettent de comparer des caractères quantitatifs. Mann-Whitney Wilcoxon, Kruskall-Wallis Echantillons considérés indépendants : le test de Mann et Whitney pour 2 échantillons, Le test de Kruskal et Wallis pour un nombre quelconque d'échantillons. Lorsque on a deux échantillons appariés (non indépendants), on applique le test de Wilcoxon. Modèle de test non paramétrique Test Wilcoxon Question de recherche : Le rythme cardiaque est-il plus faible après qu’avant le don du sang ? Objectif: ex. d’application du test stats.wilcoxon (df.avant_don_du_sang, Comparer le rythme cardiaque avant et après un don de sang (groupe df.apres_don_du_sang, alternative='greater’) de 8 personnes sélectionnés de façon aléatoire dans une population). Hypothèse nulle H0 : « le rythme cardiaque est le même avant et après le don du sang » Hypothèse alternative H1 : « le rythme cardiaque est plus faible après le don du sang». p-value : 0.049 : hypothèse nulle non acceptée le rythme cardiaque est plus faible après qu'avant le don du sang Tests de normalité d’une distribution Test de Kolmogorov-Smirnov Ex. Variable numérique X obtenue sur un échantillon de taille n Question: la distribution de X dans la population suit-elle une loi normale ? Le Test de Kolmogorov-Smirnov permet de vérifier la normalité de distribution et choisir entre un test paramétrique et non paramétrique Test de Dixon Pour utiliser le test de Dixon, on calcule le rapport : b = L’étendue globale des mesures (ici 14.1) a = La distance entre la pièce suspectée d’être une valeur aberrante et son plus proche voisin (ici 8.6) Le rapport est calculé en % : On compare ensuite ce rapport au tableau de Dixon : Si la valeur < au rapport maximum proposé par le tableau : valeur non aberrante. Dans ce cas : rapport de 62% pour 5 pièces < à 72%. le point n’est donc pas une valeur aberrante. Exercices Exemple de Formulation de l’objectif de Test paramétrique problématique de Variables à mesurer Test non paramétrique l’étude recherche Comparer le taux de pollution Test t de Student Test de Wilcoxon Taux de pollution dans la Moyenne observée vs. mesuré à une norme connue pour 1 échantillon pour 2 échantillons ville de Marrakech moyenne théorique Ou entre différents sites appariés Evaluation des notes des Evaluer les notes des étudiants Comparer 2 moyennes T- Student sur 2 élèves d’une école entre deux classes indépendantes Test de Mann-Whitney échantillons indépdants Comparer le rendement des Rendement des employés Comparer plusieurs Test de Kruskal-Wallis employés selon des approches de Test ANOVA dans une compagnie moyennes indépendantes motivation différentes Impact d’un traitement anti- Comparer le taux de créatininémie diabétique oral (ADO) sur la avant et après l'application du Comparer 2 moyennes Test t- Student sur 2 Test de Wilcoxon fonction rénale traitement ADO chez une dépendantes observées échantillons appariés population diabétique Evaluation de la variation Etudier la dispersion naturelle de la Test de Fisher NA naturelle de la taille de 2 Comparer des variances taille de 2 variétés d'un fruit variétés d'un fruit Le poids change-t-il avec la Etudier l’influence de la Corrélation Corrélation Tester l'association entre 2 concentration d’un oligo- concentration d’un oligo-aliment de Pearson de Spearman variables quantitatives aliment ? sur le poids Merci pour votre attention Ethique en recherche scientifique 14-6-2024 B. Admou Laboratoire d’immunologie & Centre de recherche clinique FMPM et CHU de Marrakech Concept fondamental de l’éthique en recherche L'éthique de la recherche regroupe l'ensemble des principes et directives qui structurent et orientent la façon de : concevoir mener gérer utiliser diffuser des recherches portant sur des êtres sensibles : êtres humains et animaux. Pourquoi de l’éthique ? La recherche vise : à comprendre des situations réelles à trouver des traitements eﬃcaces et à améliorer la vie des individus La recherche se doit donc : de protéger les droits des personnes qui y participent de s’assurer que la recherche est exacte et honnête d’être équitable et respectueuse de toutes les personnes impliquées Les 3 piliers d’une science responsable Déontologie Ethique de Intégrité la scientifique recherche Terminologie Éthique : c’est l’art qui régit la conduite humaine en tenant compte des valeurs en jeu. Déontologie : Ensemble des devoirs, des obligations et des responsabilités qui incombent à une personne lors de l'exercice de ses fonctions Intégrité scientifique: Ensemble des règles et des valeurs qui doivent régir les activités de recherche pour en garantir le caractère honnête et rigoureux Recherche intègre et responsable Un chercheur doit faire en sorte qu'au cours de toute expérience, veiller à conduire une recherche intègre et responsable qui puisse apporter une contribution originale à son propre épanouissement et au développement de l’humanité Importance de la précision dans la recherche La précision est un aspect fondamental de la recherche La précision fait référence au degré : de fiabilité de validité et d’absence de préjugés ou d’erreurs des informations recueillies. L’exactitude de la recherche : garantit la fiabilité et la crédibilité des résultats Permet leur utilisation dans la prise des décisions aide les individus, les organisations, les établissements et les décideurs à prendre de meilleures décisions fondées sur des faits et non sur des hypothèses ou des suppositions. L’inexactitude peut conduire à : des conclusions erronées, avec un risque de décisions malavisées un gaspillage de ressources et des opportunités perdues une atteinte à la crédibilité des chercheurs et de leurs travaux, avec des conséquences importantes sur leur carrière. Recherche : éthique vs. non éthique O. Le Gall. L’actualité Chimique. 2022 Les inconduites (misconducts) Erreurs honnêtes Pratiques discutables en recherche Fraude Qualité d'auteur : Méconnaissances des auteurs cadeaux (ajoutés) ou fantômes (oubliés), méthodologies ordre des auteurs, non-respect des critères du statut d'auteur (ICMJE), Absence de recherche auteurs aux mains sales,... documentaire « Tortures » des données : changement des critères de jugement, choix sélectif des données, Méthodes « faibles » ou omission de données, manipulation d'images, embellissements, spins, Fabrication de données inappropriées études animales trompeuses, recyclage de données,... tests statistiques Falsification de données Échantillon insuffisant bricolés (p-hacking et hakinging Hypothesing After Results),... Plagiat Erreurs statistiques Manipulation des revues : segmentation des publications (salami), doubles publications, art de la citation (biais, distorsions, erreurs, Non respect de la science citations coercitives), revues d'auto-promotion, complaisance, ouverte manipulation du FI (cartels de rédacteurs), soumission de manuscrits à des revues prédatrices Principes FAIR, partage des Liens d'intérêts (non déclarés) : financiers et non-financiers, fausses données déclarations, absence de contrôle,... Non-respect des Financement : biais d'allocation de ressources (convenances sociales), non-publication de recherches financées, dépenses hors projet,... réglementations Médias : embellissements, communiqués de presse trompeurs,... Loi bioéthique, CNDP,... Ce n'est pas exhaustif : inventivité des chercheurs ! Non intentionnel Inten%onnalité ?! intentionnel L’éthique de la publication : une responsabilité collective Avez-vous contribué de manière significative à cet article ? Adapté de M-W. Perry et M-B. Mittelmark. IUHPE – Promotion & Education 2008 Bioéthique Bioéthique vient de « bio », qui veut dire « vivant », et d'« éthique », qui signiﬁe « ce qui est bon et utile pour l'homme ». La bioéthique s'intéresse aux activités médicales et de recherche qui utilisent des éléments du corps humain. Par exemple : la greﬀe d'organes, de tissus (cornées, peau...), de moelle osseuse l'assistance médicale à la procréation, qui fait appel aux dons d'ovules et de sperme les recherches ayant comme objet l'embryon et les cellules embryonnaires; le dépistage de maladies faisant appel aux gènes. Nouveaux territoires de la bioéthique E. Hirsch et F. Hirsch. Les nouveaux territoires de la bioéthique. Traité de bioéthique IV. Edition érès. 2028 Objectifs de la loi de Bioéthique Répondre le mieux possible aux questions soulevées par le progrès scientifique et technique, au regard des valeurs de la société Garantir le respect de la dignité humaine et la protection des personnes vulnérables contre toute forme d'exploitation Répondre à des questionnements légitimes : o Que doit-on autoriser ? o Que doit-on interdire, et pourquoi ? o Jusqu'où sommes-nous prêts à aller pour satisfaire telle ou telle demande particulière ? o sur quels grands principes devons-nous collectivement nous mettre d'accord ? Bioéthiques et bio-banques Z. Messaoudi et al. Bioéthique. L’existence des contraintes légales et réglementaires des biobanques Medecine sciences: M/S · 2020 Bio-banques et Système de Management Qualité (SMQ) Harmonisation des protocoles encadrée par des procédures opérationnelles standard (standard operating procedures, SOP) à toutes les étapes de la chaîne pré-analytique. La bioéthique ne concerne pas que les humains Cf. règles éthiques propres aux animaux et plantes Conclusion Merci pour votre a-en/on Règles de la rédaction d’article 14-6-2024 B. Admou Laboratoire d’immunologie & Centre de recherche clinique FMPM et CHU de Marrakech Introduction La rédaction d’un manuscrit est une étape importante et culminante de tout processus de recherche Elle doit être normative et menée de façon soigneuse Les règles de la rédaction portent sur les différentes séquences du manuscrit, depuis le titre jusqu’aux références bibliographiques, y compris les annexes Toute faille inhérente aux bonnes pratiques de rédaction risque de porter préjudice à l’ensemble du travail de recherche accompli, quelque soit son ampleur Titre de l'étude ü Il résume le problème qu'on se propose d'étudier ü Il doit être clair, précis (thème, population, temps, lieu) suffisamment court, explicatif et suffisamment informatif permettant sa compréhension sans recours au texte intégral du projet d'étude ü Tout en veillant à ne pas être trop long, un bon titre doit contenir quatre items : Pour mémoriser, retenir "OPLT": 1. O = Objet 2. P = Personne 3. L = Lieu 4. T = Temps Ex. [Caractéristiques épidémiologiques] = O [des malades souffrant d'asthme] = P [au niveau de la ville de Marrakech ] = L [en 2024 ] = T Section introduction Annoncer l'objet de la recherche Faire un bref rappel des données antérieures Circonscrire le sujet de l'étude en décrivant la situation actuelle Terminer par l'exposition du manque de connaissances ou du vide existant qui montre un intérêt à la recherche qui va être menée pour apporter des nouvelles informations dès la fin de l'introduction, le lecteur doit être capable de préciser la nature de la question posée par les auteurs et pourquoi il faut y apporter une réponse L’objectif (s) doit doit être formulé de façon claire et précise, en utilisant un verbe d’action, type: étudier, déterminer, décrire, évaluer, comparer , … Partie méthodologique Présenter et expliciter vos choix de méthode d’investigation Décrire ce que vous avez fait Rubriques typiques (sous-chapitres): – Participants: Dire comment vous avez contacté les participants, indiquer le taux de réponse, les statistiques démographiques, etc. (Vous pouvez éventuellement tester des diﬀérences entre groupes) – Procédure: Décrire de façon détaillée comment l'étude s'est déroulée – Préparation des données: Codage, calculs, explications de la retranscription… – Explicitation de la méthodologie d'analyse: dire ce que vous avez fait et comment… – Procédure d’analyse : analyse statistique, comparative et autre …. - Évitez : - les éléments n’ayant pas de lien direct avec l’objectif de l’étude - des résultats, sauf s’il s’agit de résultats de validation de la méthode sur un échantillon préalable Les résultats C’est un chapitre organisé les résultats décrits doivent répondre à l’hypothèse énoncée dans l’introduction : ils sont donc originaux Hiérarchiser les résultats en répondant à l’hypothèse de recherche en 1er Puis exposez les résultats qui soutiennent le résultat principal Présenter les résultats qualitatifs ou quantitatifs obtenus avec des statistiques de façon détaillée Formaliser les résultats au moyen de figures, de tableaux… Dire si les hypothèses ont été soutenues ou validées Ne pas commenter ou interpréter les résultats Discussion des résultats Principe de l’entonnoir inversé A. Conceptualisation B. Discussion des résultats H. Ben Saad. Rédaction Médicale Scientifique en Pratique: Tunisie Médicale 2019 Discussion (suite) Comporte plusieurs parties typiques : Rappel des principaux résultats Retour sur les questions de recherche et sur la littérature Parler des résultats (réflexivité) : auto-critique, choses à améliorer pour une étude future Implications pour des recherches futures ou par la pratique (ceci peut aussi être rappelé dans la conclusion en tant que perspective) MeDez toujours en valeur vos résultats par rapport à ceux des autres, et non l’inverse (La bibliographie u/lisée dans la discussion sert à me8re en valeur vos arguments) Exposez vos résultats d’abord avant de faire référence à ceux des autres. Exemple : ‘’Nous avons montré A’’, nos résultats sont soutenus par ceux de X (ref) ‘’Nous avons obtenu A, résultat qui est conﬁrmé par l’étude de Y (ref) Et pas : ‘’ l’auteur (ref) a montré B’’, ce qui sou/ent nos résultats ‘’ Z (ref)) rapporte B’’, ce qui est conﬁrmé par nos résultats. Evoquer les limites de l’étude en fin de discussion Conclusion C’est une Section courte Revenir sur le (s) point fort: le résultat majeur et son apport original dans le champ scientifique de l’étude Les données de notre étude ont montré que... … Si besoin quelques valeurs chiffrées remarquables, synthèse de l’interprétation scientifique et de l’apport original de la recherche effectuée Ne terminez jamais sur les travaux des autres, et jamais de référence biblio (cela met en doute la validité du travail présenté et risque d’en diminuer la portée) Evitez des formules de type : il se pourrait que… Il serait possible de… Il pourrait être suggéré… Éventuellement… Evitez au maximum de suggérer des études à plus grande échelle Cela sous-entend qu’elles doivent être conduites pour vérifier ce que vous avez fait Evitez de terminer par ‘’Nous sommes en train d'étudier… Le reviewer risque de vous dire : Plutôt attendons les résultats …. Implications remarquables pour la recherche, pour des bénéficiaires, qu’elles soient théoriques, pratiques, larges ou spécifiques Perspectives : ouverture vers des axes de recherche future induits par les résultats présentés, Résumé Le résumé est un élément clef pour tous lecteurs, accessible aux différents moteurs de recherche et bases de données Il comprend le titre de l’article et des mots clefs En lisant le résumé, lecteur va décider de lire ou non l’article intégral. Il résume avec exactitude l’ensemble du contenu de l’article Il est toujours rédigé après l’article, sinon risque de ne pas être fidèle au contenu Le lecteur doit comprendre le résumé sans se reporter à l’article Il doit donc être rédigé avec soin Son style doit être concis et simple, et compréhensible par un lectorat large Annexes ou fichiers supplémentaires Exemples de documents à mettre en annexes : Informations techniques détaillées Canevas de questions, questionnaires, statistiques détaillées et/ou d'importance secondaire Retranscriptions, description de scénarios, procédure de recherche détaillée, Tableaux et ﬁgures supplémentaires qui illustrent les analyses principales et/ou secondaires… Bibliographie Reflète la qualité de la recherche biblio faite au moment de la conceptualisation et la discussion des résultats Permet aux lecteurs de retrouver les sources documentaires utilisées Importance des citations récentes et d’actualité Des citations même anciennes peuvent être pertinentes lorsqu’il s’agit de référents dans le domaine Suivre les normes proposées par le journal de soumission Les normes et formats sont proposées par les logiciels de gestion des références bibliographiques (Zotero, EndNote, Mendely,…) Quelques consignes générales Dans un article original, l’objectif, les sections Matériel et Méthodes et Résultats sont toujours formulées dans un temps passé (pour la discussion, le passé est préférable mais non obligatoire) Rester simple et clair Eviter les phrases trop longues Eviter les abréviations et codes trop récurrents (sauf abréviations conventionnelles) Attention au plagiat (paraphrasing) : faire appel à des logiciels spéciﬁques. Ex. iThenthicate Relire plusieurs fois: N'hésitez pas à restructurer et à reformuler si nécessaire Faire lire par des : o collègues o séniors o spécialistes de linguistique (syntaxe, orthographe, ponctuation) Merci pour votre attention

Analyse de données PDF

Document Details

Tags

Related

Summary

Full Transcript