Bases de Phylogénie - Document de cours PDF

Summary

Ce document de cours présente un aperçu de la phylogénie, une branche de la biologie qui étudie les relations évolutives entre les organismes. Il détaille les théories de la classification, y compris le créationnisme, le fixisme et le darwinisme. Le document met l'accent sur les concepts fondamentaux et les méthodes utilisées pour reconstruire les arbres phylogénétiques.

Full Transcript

TIBIO Mylène Hugoni [Bases de phylogénie] TD 5 et 7 novembre article à travailler pour le TD en binôme, prendre des notes (cc noté) - 1 cc TD - 1 cc TP - 1 exam terminal I. **Introduction** 1. **Histoire de la classification du vivant** Le besoin de classer les entités dans des group...

TIBIO Mylène Hugoni [Bases de phylogénie] TD 5 et 7 novembre article à travailler pour le TD en binôme, prendre des notes (cc noté) - 1 cc TD - 1 cc TP - 1 exam terminal I. **Introduction** 1. **Histoire de la classification du vivant** Le besoin de classer les entités dans des groupes est très vieux Taxonomie : science du classement des organismes, dont les règles définissent la nomenclature Classification classique ou classification de Linné : - Prise en compte des similitudes et différences morphologiques - Ses travaux sont la base du système moderne de la nomenclature binomiale (*Homo sapiens*) / base de classification - Hiérarchisation des classifications  du plus général au plus localisé : Exemple : Domaine Règne Embranchement Classe Ordre Famille Genre Espèce : *Homo sapiens* 2. **Les théories de l'évolution** CREATIONNISME et le FIXISME : dieu a créé l'univers et chacune espèce, en l'état TRANSFORMISME : notion d'évolution qui apparait au 18 -ème siècle *Buffon* : hiérarchie entre les animaux et que l'homme sera placé au sommet de la création, homme est l'espèce la plus évoluée des animaux *Lamarck* : suppose que les organismes se transforment en s'adaptant à leur environnement (augmentation de température...) acquisition d'un caractère (poils due à la baisse de température...) et ces caractères vont être héréditaires, l'espèce s'adapte au fur et à mesure de l'évolution de l'environnement. Ex : augmentation de la longueur du cou chez les girafes *Cuvier* : supposer qu'il y a des cataclysmes dans la terre à répétition et que ces cataclysmes vont engendrer des disparitions d'espèces ainsi que des apparitions DARWINISME : les organismes vivants sont en perpétuelle évolution, grâce notamment au phénomène de sélection naturelle qui fait qu'au sein d'une même espèce ce sont les individus les plus adaptés, le plus d'avantages dans leurs milieux qui se reproduiront d'avantage que les autres (+Wallas). Ex : Les girafes les plus petites disparaissent peu à peu, pas de reproduction pour favoriser les girafes à grand cou LES CONCEPTS PLUS MODERNES : théorie **neutre** s'opposant à la théorie **sélectionniste** I Paradoxe entre la sélection (disparition de certains caractères) et le polymorphisme génétique (variabilité : Forme différente que peut prendre un même gène si on choisit un caractère A alors B est supprimé par exemple on sélectionne un caractère selon une condition) I Théorie neutraliste : la plupart des mutations restent neutres, se fixent au hasard (seules les mutations très défavorisantes ou létales pour l'individu sont éliminées) et le milieu n'a pas de rôle sélectif. *Kimura* Théorie sélectionniste : la plupart des nouveau allèles apparus par mutations se fixent dans les populations parce qu'ils sont avantageux pour les porteurs dans le milieu où ils vivent (sélection darwinienne). *Darwin* Evolution **divergente** et **convergente** : Evolution convergente : correspond à des solutions qui sont trouvées de manière indépendante chez des organismes différents pour résoudre le même problème. Ex : différentes espèces mais développement du même système pour répondre à une contrainte (ailes pour voler) Evolution divergente : correspond au contraire à un processus de développement de deux espèces différentes à partir d'un même ancêtre commun. Ex : mammouth et éléphant ont eu un ancêtre commun 3. **Un lien indissociable entre évolution et taxonomie : PHYLOGENIE** *Ernst hackel* (1866) : 1 ère phylogénie du monde vivant, 3 règnes existants  plantes, protistes, animaux et **invente le terme phylogénie **: Phylogénie : étude des relations de parentes entre différents êtres vivants en vue de comprendre l'évolution des organismes vivants *Ernst hackel* (1879) autre façon de le représenter : homme tout en haut de la chaîne *Hubert Wittaker* (1969) : existence de 5 règnes plantes, champignons, animaux, protistes (eucaryotes unicellulaires) et monères (cellule procaryotes ancestrales) *Carl Woese* (1977) ; existence de 6 règnes plantes, champignons, animaux, protistes, eubactéries, Archeaebacteria *Carl Woese* (1990) : invente la phylogénie basée sur le 16S en moléculaire désormais existence de 3 domaines du vivants bactéries, archée, eucaryotes (maintenant uni et pluricellulaires) Aujourd'hui il serai possible qu'on ait seulement 2 règnes (bactéries, archée) et les eucaryotes seraient une branche des archées (TOUJOURS SE MEFIER A L'HEURE ACTUELLE !!) 4. **La phylogénie ** *Will Henning* (années 1950) : cladistique (systématique polygénétique) : classification taxonomique basée sur l'histoire évolutive Ex : La truite est plus proche de l'homme que du requin et le cœlacanthe est plus porche de l'homme que de la truite 5. **Pourquoi étudier la phylogénie ?** - Reconstruire l'histoire des espèces, comprendre l'origine de la vie et l'histoire évolutive d'un gène - Comprendre l'évolution des caractères (mise en place de plans d'organisation) et leur vitesse d'évolution : évolution et développement - Application à l'écologie : déplacement des espèces, relations hôtes-parasites, mesure de la biodiversité, gestion et conservation des écosystèmes - Application à l'épidémiologie : caractériser des dynamiques d'interactions durables (microbiologie, virologie...) - Evolution des gènes au sein de espèces (caractérisation des gènes d'adaptation) - Annotation des génomes : comprendre les mécanismes de l'évolution moléculaire 6. ![](media/image2.png)**Quelques bases de vocabulaire** A, B et C sont des taxons (= feuilles) ![](media/image3.png)A noter que sans racine il n'est pas possible de déterminer les relations de parenté entre les taxa !!! ![](media/image5.png)Si on n'a pas la racine, on ne pourra pas transposer à l'échelle des âges (passé : reconstruction et présent : observation) Les rotations autour des branches ne changent pas la **topologie** de l'arbre : même topologie donc même histoire évolutive **Groupe MONOPHYLETIQUE** (= clade) : groupe incluant un ancêtre et tous ses descendants **Groupe PARAPHYLETIQUE** : groupe n'incluant pas tous les descendants d'un ancêtre ![](media/image7.jpeg)**Groupe POLYPHYLETIQUE** : groupe d'organismes n'ayant pas d'ancêtre commun direct [Arbres racinés et non racinés : ] - La plupart des méthodes phylogéniques produisent des arbres non racinés. La raison est que les méthodes détectent des différences entre séquences, sans avoir le moyen de les orienter temporellement. - Méthode du **groupe externe** (= outgroup): inclure dans l'analyse un groupe de séquences dont on sait a priori qu'elles sont externes au groupe étudié la racine est sur la branche qui relie le groupe externe aux autres séquences (ex : pour les bactéries, prendre le 16S des archées trouver un compromis entre éloigné et trop éloigné car sinon perd tout son sens) - Faire l'hypothèse de **l'horloge moléculaire** : toutes les lignées sont supposées évoluer à la même vitesse depuis leur divergence la racine est au point de l'arbre équidistant de toutes ses feuilles. En revanche, on sait que tous les organismes n'évoluent pas à la même vitesse (ex : l'Homme et les cœlacanthes), si pas de contraintes alors pas besoin d'évolution car assez adapté - Avec un **paralogue **: voir après Arbre non raciné : on ne peut pas dater l'ancienneté Arbre raciné : ![](media/image9.png)(=arbre en étoiles) Exemple d'un article : étude des microsporidies Racinement par le centre (= en supposant l'horloge moléculaire): incorrect si fortes différences de vitesse entre lignées 7. **Besoins fondamentaux pour réaliser une phylogénie** [Les caractères :] Les organismes apparentés se ressemblent : ressemblances = homologies Ex : Le membre des Mammifères est une homologie, car on observe le **même plan d\'organisation** de la terminale du membre antérieur, respectivement chez : l'orang-outan, le chien, le cochon, les bovidés, le tapir et le cheval c'est un caractère, attribut observable ou l'on peur faire une **hypothèse d'homologie** Selon le groupe considéré, on pourra avoir des caractères **ancestraux dits primitifs** ou **dérivés dits secondaires**, l'espèce aura donc des caractères primitifs et des caractères qu'elle aura acquis au cours de l'évolution chaque organisme étant une **mosaïque** 1- Tous les caractères n'évoluent pas à la même vitesse ![](media/image11.png)2- Le partage de caractères dont l'état s'est transformé est signe d'une parenté étroite : **synapomorphie** (caractère est dit apomorphe : dérivé et informatif) 3- Les caractères restés à l'état ancestral ne témoignent pas d'une parenté étroite : **symplésiomorphie** (caractère est dit plésiomorphe : ancestral non informatif) Les caractères peuvent être : - Morphologiques - Comparaison de comportements, repartions géographiques - Discrets (présence/absence), fréquence de gènes, traits quantitatifs, sites de restriction RFLP, Microsatellites SNP, etc. - Moléculaires : les plus utilisés à l'heure actuelle (ADN, ARN, protéines) 8. **L'homologie** A ne pas confondre avec l'analogie !! **Analogie** : Des structures qui remplissent une même fonction mais qui sont apparues indépendamment. Ex : les ailes de chauvesouris et papillon mais pas d'ancêtre commun ailé **Homologie** : Des structures qui dérivent d'une même structure chez un ancêtre commun. Ex : organisation du membre antérieur des cochons et chevaux étaient présents chez l'ancêtre commun En bref : - Pour une reconstruction phylogénétique, il faut donc émettre des hypothèses d'homologie - Via la construction d'un arbre, on peut donc conclure à une homologie - Dans le cas des caractères moléculaires et notamment de l'étude des gènes : deux gènes seront dits homologues s'ils divergent à partir d'un gène ancestral commun - C'est une relation **VRAI ou FAUX** : on ne parle donc pas de pourcentage d'homologie, mais on dira que deux séquences sont homologues ou non et présentent un certain pourcentage d'identité ou de similitude ![](media/image13.jpeg) **Gènes ORTHOLOGUES** : gènes homologues (descendent d'un même gène ancestral) chez différentes espèces et ayant des fonctions analogues (= spéciation) **Gènes PARALOGUES** : gènes homologues qui sont le résultat d'une duplication génique à partir d'un ancêtre commun II. **Phylogénie moléculaire** 1. **Les apports du moléculaire dans la phylogénie** Comparaison entre approches ADN versus morphologie : - Pas d'ambiguïté sur l'état des caractères - Grand nombre de caractères peuvent être pris en compte pour chaque individu - Possibilité de mutations silencieuses - Arbre des gènes (concaténât de plusieurs gènes = collés bout à bout. Ex : gène 16S, 23S...) VS arbre des génomes (i.e. espèces) - Besoin de méthodes mathématiques pour restituer l'arbre le **moins faux possible** !! La phylogénie moléculaire repose sur un **alignement de qualité** Elle permet de choisir les sites qui seront analysés pour la phylogénie : besoin que les sites soient homologues (contiennent une information évolutive) **évolutivement informatives** On peut avoir des mutations : - Substitution (mismatch) - Insertion - Deletion **Alignement global** : on prend 2 séquences d'ADN qu'on aligne en globalité sur toutes leurs longeyrs et on va trouver le meilleur alignement sur toute la longueur (utilisé pour des séquences très similaires et de longueur équivalentes) Ex d'outils : ClustalW, Muscle, Max, T-Coffee, etc. ![](media/image15.png) **Alignement local** : chercher les régions/domaines les plus similaires entre deux séquences (permet de trouver des sous-séquences ayant des relations biologiques, plus adapté pour des séquences avec un faible degré de similarité ou des tailles différentes) Ex d'outils : eMOTIF, HMMER, etc. L'alignement de séquences requiert un temps de calcul et un espace mémoire exponentiel en fonction du nombre de séquences → Solution : utilisation de **méthodes heuristiques** : approximation de l'alignement optimal (Blast) Méthodes d'alignement global : - Approche progressive (ClustalW) - Raffinement itératif, consistance (Muscle, Max, T-Coffee) - Structurelle (STAMP) - Itéra.ve (HMMER) - Etc. **Un alignement doit être nettoyé** car peut contenir des séquences de longueur différentes, des grandes zones de gap, etc. : meilleure qualité (suppression des régions non informatives, mal conservées, etc.) Logiciel : Gblocks, Trimal, etc 2. **Quels marqueurs ?** **Choix du marqueur doit se faire en prenant en compte** : - Universalité - Structure conservée - Absence de transfert génétique - Taux d'évolution approprié - Absence de biais sélectif **Pour une phylogénie des espèces** : choix du marqueur moléculaire le plus approprié au groupe taxonomique considéré Exemples : - Bactéries : ADNr 16S - Eucaryotes : ADNr 18S, ac.ne, EF1, etc. - Arthropodes : cox1 - Plantes : ADNr 18S, rbcL (ribulose carboxylase) **→ Le choix dépend aussi du niveau taxonomique visé** 3. **Quelles bases de données ?** BDD bio-informatiques **généralistes** VS **spécialisées** : - Soucis de l'harmonisation du classement - Echange entre les bases : besoin d'un langage commun (difficile de communiquer en bases de données) - BDD génériques : EMBL / trEMBL, Genbank / GenPept, SwissProt, etc. - BDD spécialisées sur un organisme : Cyanobase, MGD (Mouse Genome Database), FlyBase (Drosophile), etc. - BDD spécialisées sur une thématique : PROSITE, eMOTIF, EDP (Eukaryo.c Promoter DB), etc. - BDD Métabolisme : KEGG, BRENDA, EcoCyc, etc. - BDD Régulation transcriptionnelle - BDD Interactions protéine-protéine - BDD structure 3D BDD Famille de gènes ou de protéines a. ![](media/image17.png)**BDD généralistes** Exhaustif : nucléique, protéique, structure 3D, etc. **Format d'une entrée dans une BDD nucléique** 1\. Description générale de la séquence 2\. « Features » associées à la séquence (= caractéristiques de la séquence) 3\. Séquence 4\. Fin de l'entrée : « // » Avantages : Consultable en une fois Inconvénients : - Hétérogénéité des séquences : ADN nucléaire, mt, ARNt, ARNr, génome... - Hétérogénéité de l'état des connaissances : séquençage va plus vite que la caractérisation biologique - Erreurs dans les séquences (technologie, méthodologie, etc.) - Biais d'échantillonnage (espèces, gènes, redondance, etc.) **ALORS → BDD Spécialisées** b. **BDD spécialisés** Un thème en particulier Avantages : données homogènes, facilité relative de mettre à jour, maintien intégrité, interface adaptée Inconvénients : tout n'existe pas III. **Les méthodes de reconstruction d'arbres phylogénétiques** 1. **Les méthodes de distances** Analyse de la **similitude entre deux taxa** : distance pour chaque couple de taxa Méthodes de reconstruction d\'arbre phylogénétique **sans racine** Ces méthodes sont rapides et donnent de bons résultats pour des **séquences ayant une forte similarité.** Pour des séquences alignées : Distance = nbre de nt différents/nbre de sites examinés (donne un % de différentes entre les séquences) 2 étapes : 1\. Calcul d'une matrice de distance entre chaque paire de taxa 2\. Calcul d'un arbre sur lequel les distances mesurées sont aussi proches que les distances de la matrice a. **UPGMA (Unweight Pair Group Method with Arithmetic mean)** Utilisé pour reconstruire un arbre si les séquences ne sont pas très divergentes. Utilise un algorithme de clusterisation séquentiel dans lequel les relations sont identifiées dans l\'ordre de leur similarité et la reconstruction de l\'arbre se fait pas à pas grâce à cet ordre Il y a d\'abord identification des deux séquences les plus proches et ce groupe est ensuite traité comme un tout, puis on recherche la séquence la plus proche et ainsi de suite jusqu\'à ce qu\'il n\'y ait plus que deux groupes. ![](media/image19.png) ![](media/image21.png) ![](media/image21.png) UPGMA produit un arbre **non raciné** et des longueurs de branches. Avantages : c'est une méthode **très rapide** Inconvénients : **Sensibilité à des taux de mutations** différents sur les différentes branches ![](media/image24.png) Méthode qui échoue si les taux d'évolution varient entre les lignées UPGMA n'aurait pas détecté l'origine évolutive des microsporidies parmi les champignons. UPGMA (mais NJ si ??) A l'heure actuelle, cette méthode ne revêt plus qu'un intérêt historique b. **NJ (Neighbor Joining)** Développée par Saitou et Nei (1987) pour tenter de corriger la méthode UPGMA et autoriser un taux de mutation différent sur les branches Construction d'une matrice qui donne un arbre en étoile, cette matrice est ensuite corrigée pour prendre en compte la divergence moyenne de chacune des séquences avec les autres L\'arbre est alors reconstruit en reliant les séquences les plus proches dans cette nouvelle matrice. Lorsque deux séquences sont liées, le nœud représentant leur ancêtre commun est ajouté à l\'arbre tandis que les deux feuilles sont enlevées. Ce processus convertit l\'ancêtre commun en un nœud terminal dans un arbre de taille réduite. - **Exemple difficile** Conclusion sur NJ : - NJ est une méthode rapide, même pour des 100 aines de séquences. - L'arbre NJ est une approximation de l'arbre d'évolution minimale (celui dont la longueur totale est minimale). - NJ produit des arbres non racinés, qui doivent être racinés par un groupe externe. - NJ trouve l'arbre vrai même si les taux varient entre lignées. Ainsi NJ est très performant si on l'applique sur des distances bien estimées. c. **Méthodes dérivées des méthodes de distance** Dans ces méthodes, l\'arbre sélectionné est celui présentant la somme des carrés des écarts entre les distances observées et les distances calculées la plus faible. Il existe, dans Phylip, deux programmes utilisant ces méthodes : - **FITCH** : la longueur des branches n\'est pas proportionnelle au temps écoulé et la racine n\'est pas localisée dans l\'arbre. - **KITSCH** : on fait l\'hypothèse que toutes les espèces sont contemporaines et qu\'il y a une horloge moléculaire. Cela signifie que les branches de l\'arbre ne peuvent pas avoir une longueur arbitraire mais sont proportionnelles au temps écoulé. Les arbres générés par cette méthode présentent une racine. d. **Les corrections** Si le temps de divergence entre deux séquences augmente, la probabilité d\'avoir une seconde mutation a un site augmente également. Ceci fait que le simple comptage des différences entre deux séquences n\'est pas le reflet exact de la réalité mais sous-estime le nombre d\'évènements mutationnels. On tente de corriger ce biais en faisant des hypothèses sur la façon dont les bases ou acides aminés se sont substitués à un locus donné : **les modèles d'évolution** ![](media/image26.png)Les modèles d'évolution des séquences : 2. **Les méthodes basées sur la parcimonie** Choix de l'arbre qui minimise le nombre de changements d'états de caractères (i.e. arbre le plus parcimonieux qui coûte le plus petit nombre d'événements évolutifs le long des branches) Basé sur Edwards et Cavalli-Sforza (1963) : « L'arbre évolutif à préférer est celui qui invoque la quantité minimum d'évolution » - Evaluation de tous les arbres et recherche de l'arbre le plus court (le minimum d'évolution) Recherche toutes les topologies possibles afin de trouver l\'arbre optimal (mimimum) et le temps nécessaire pour cette exploration croit rapidement avec le nombre de séquences : - Nombre d\'arbres enracinés possibles pour n OTUs : Nr = (2n - 3)! / (2exp(n-2))(n-2) - Nombre d\'arbres non enracinés possibles pour n OTUs : Nu = (2n -5)! / (2exp(n-3))(n-3) ![](media/image28.png) - **Exercice exemple : le plus parcimonieux** **Branch and Bound** : cette méthode est dérivée du maximum de parcimonie, elle garantit de trouver le meilleur arbre mais sans évaluer tous les arbres possibles. Elle permet de traiter un plus grand nombre de séquences mais reste limitée. **Recherche heuristique** : il y a un réarrangement des branches à chaque étape, cette méthode ne garantit pas de trouver l\'arbre optimal. **Arbre consensus** : comme la méthode du maximum de parcimonie peut conduire à trouver plusieurs arbres équivalents, on peut créer un arbre consensus (avec utilisation du bootstraping). Cet arbre consensus est construit à partir des nœuds les plus fréquemment rencontrés sur l\'ensemble des arbres possibles. Avantages : - Méthode basée sur les caractères : méthode cladistique plutôt que phénétique. - Méthode ne réduisant pas la séquence à un simple nombre. - Méthode essayant de donner une information sur les séquences ancestrales. - Méthode évaluant différents arbres. Inconvénients : - Méthode très lente par rapport aux méthodes basées sur les distances. - Méthode n\'utilisant pas toute l\'information disponible (seuls les sites informatifs sont pris en compte) - Méthode ne faisant pas de corrections pour les substitutions multiples - Méthode ne donnant aucune information sur la longueur des branches - Méthode connue pour être très sensible au biais des codons 3. **Les méthodes Maximum de vraisemblance (Likelihood)** Introduit par Neyman (1971) et surtout Felsenstein (1981), premier à avoir développé un algorithme efficace appmicable aux séquences nucléotidiques. Mais méthode **gourmande en temps de calcul** (long) mais comme elles sont robustes on fait avec et on les utilise Utilisation des probabilités de changement d'un nucléotide (ou aa) pour fournir une valeur globale de vraisemblance associée à un arbre de donné. Les probabilités sont incluses dans un modèle d'évolution **Choix de l'arbre dont la vraisemblance des données est maximale au vu du modèles d'évolution** Les séquences moléculaires sont le résultat d'une histoire évolutive que l'on peut essayer de reconstruire en intégrant plusieurs composantes : - Les relations de parenté entre les séquences représentées par la topologie t de l'arbre - La quantité d'évolution qui s'est écoulée entre chacune des lignes étudiées et qui est représentée par l'ensemble des longueurs des branches bi - Le processus qui gouverne l'évolution de ces séquences, le modèle évolutif considéré́ composé lui-même d'un certain nombre de paramètres θ Elles sont gourmandes en calculs multiparamétrique **Ces paramètres ne sont que très rarement connus on va donc devoir les estimer en fonction des données actuelles** On a un grand nombre de scénarios évolutifs possibles. Cependant certains d'entre eux sont plus susceptibles que d'autres de produire les séquences actuelles Le but des méthodes de maximum de vraisemblance est d'identifier ces scénarios, c'est-àdire de trouver les valeurs des paramètres qui maximisent la probabilité́ d'observer les séquences actuelles. Hypothèses : - Le processus de substitution suit un modèle probabiliste dont on connaît l'expression mathématique mais pas les valeurs numériques - Les sites évoluent indépendamment les uns les autres Les sites évoluent suivant le même processus : hypothèse d'uniformité (hypothèse pouvant être levée par l'inclusion d'une loi gamma). - Les taux de substitution ne changent pas au cours du temps le long d'une branche. Ils peuvent varier entre branches, c'est-à-dire, que l'évolution des séquences est indépendante d'une lignée à l'autre Deux applications du maximum de vraisemblance en phylogénie : - Estimer la vraisemblance d'un ensemble d'hypothèses. - Rechercher parmi les valeurs de paramètres possibles celui qui possède la vraisemblance la plus élevée. Comme on a vu que la topologie t faisait partie de ces paramètres, cela permet de rechercher l'arbre qui possède la plus forte vraisemblance étant donné la valeur des autres paramètres Principe : complexe 1. Considérant la topologie, un site et un ensemble de longueur de branches, on calcule la vraisemblance des paramètres (probabilité d'observer les états de caractères au site en fonction des paramètres 2. On fait le calcul pour tous les paramètres (topologie, longueur de branche, modèle évolutif) 3. On calcule toutes les longueurs de branche et les paramètres du modèle évolutif qui maximisent la vraisemblance : COMPLEXE 4. On calcule la vraisemblance pour toutes les topologies possibles 5. On retient la topologie qui a la plus grande vraisemblance le plus vraisemblable Avantages/Inconvénients : - Supérieure aux autres méthodes - Moins sensible au phénomène d'attraction des longues branches - Impossible d'évaluer tous les arbres : utilisation d'heuristiques, mais on n'est plus certain d'obtenir l'arbre le plus vraisemblable 4. **Les méthodes Bayésiennes** Principe : mesure la probabilité postérieure Trop gourmand en temps de calcul - Meilleure façon de développer un arbre RESUME : Plus se pencher vers le NJ en 1 ère intention pour la robustesse et après aller cherche plus loin : ML ou Bayésien ![Une image contenant texte, capture d'écran, Police, nombre Description générée automatiquement](media/image30.png) Problèmes rencontrés en phylogénie moléculaire : Problèmes liés à l'échantillonnage : - Echantillonnage taxonomique trop réduit - Séquences trop courtes : effets stochastiques Problèmes liés à la divergence des séquences : - Séquences pas assez variables - Séquences trop divergentes (pas trop éloigné et pas trop prêt des bactéries) - Séquences présentant des taux d'évolution hétérogènes (attraction des longues branches) - \% GC - Transferts de gènes - Recombinaisons IV. **Evaluer la robustesse des arbres** Quelle confiance peut-on avoir dans l'arbre reconstruit ? On associe un **estimateur de robustesse à chaque branche de l'arbre** : - Si l'arbre est **robuste** : sa variabilité sera faible et les regroupements observés devraient rester même si on perturbe un peu les données - Si l'arbre est **peu robuste** : grande variabilité et les regroupements observés sont instables en cas de perturbation des données 1. **Le bootstrap** Inventé par Bradley Efron en 1979 et introduite en phylogénie par Felsenstein en 1985 dans le package Phylip. Postulat que les caractères évoluent de manière indépendante Cette méthode peut être divisée en 3 étapes réalisées chacune au moins 100 fois : - Réalisation d\'un pseudo-alignement A\' à partir des séquences d\'origine en prenant arbitrairement n colonnes (avec remplacements) de l\'alignement d\'origine. - Estimation de l\'arbre obtenu : T\'. - Comparaison des arbres T et T\': pour chaque sous-arbre de T, on regarde s\'il est présent dans T'. On compte ensuite pour chaque sous-arbre le nombre de fois où il est présent dans les T\'. Cette fréquence avec laquelle on retrouve un sous-arbre est la valeur de bootstrap (plus elle est élevée plus la fiabilité de la branche est importante). Plus le bootstrap est proche de 100% : plus le **nœud est vrai** !! Ne pas confondre robustesse et véracité 2. **Delete-half-Jaccknifing (culture G)** Wu (1986) Ré-échantillonne la moitié des sites des séquences et élimine le reste. Cette méthode donne des résultats très similaire à ceux obtenus par bootstrap. 3. **Permutation (culture G)** Archie (1989) et Faith (1990, Faith et Cranston 1991) Basé sur la permutation des colonnes de la matrice. Cela produit des matrices ayant le même nombre de colonnes, les mêmes caractères mais qui n\'ont plus de structure taxonomique. Cette méthode est utilisée dans un but différent par rapport au bootstrap : elle teste l\'hypothèse qu\'il y a bien une taxonomie dans les données actuelles. TP organisation : **phylogénie moléculaire** CC : avant de partir envoyer un mail avec nos réponses sur un PDF à notre encadrant - Mylene.hugoni\@univ-lyon1.fr - Thomas.bacchetta\@univ-lyon1.fr - Adrien.vigneron\@insa-lyon.fr **Objectifs** : reconstruire une phylogénie vous permettant d'affilier des séquences environnementales issues d'un séquençage sanger qui vous seront fournies La question sera adressée au travers de différentes étapes, déclinées ci-dessous : - Visualisation des séquences - Alignement des séquences - Visualisation des alignements - Nettoyage des alignements - Choix du modèle d'évolution - Reconstruction d'arbres phylogénétiques - Interprétation des phylogénies produites **Visualisation des séquences :** Par séquençage de sanger (fichier de séquences et ouvrir avec un éditeur de texte) Traitement des données au **format *.fasta*** A quoi correspondent ces séquences ? Besoin de comparer à une base de données généralistes et/ou spécialistes + généraliste La méthode la plus rapide est une méthode heuristique, à vous de faire appel à celle que vous connaissez (NCBI) dire qu'une bactérie est avec cette séquence... Comment choisir vos séquences ? Certaines proches des vôtres D'autres du même phylum, pas nécessairement tres proches (prenez au biais d'échantillonnage) Pensez à un outgroup, 3 séquences de phylum différents ATTENTION : pièges !! au moment de l'alignement, un autre une fois que les phylogénies seront reconstruites, alors retour en arrière, enlever la séquence et refaire l'alignement **Alignement des séquences, visualisation et nettoyage des alignements :** Permet de comparer des séquences Nécessiter d'avoir un alignement de bonne qualité : filtrer les gaps e les positions trop polymorphes Analyse des statistiques de l'alignement : nombre de séquences, séquences dans gaps sans N, variables, informatives, composition en ases, taux de transition vs translation Avec un modèle évolutif approprié : **reconstruction de la phylogénie** - Logiciel : seaview Choix du modèle d'évolution (pas vu en cours) : Fréquence de chaque bases égales (0.25) égalité des taux transition/transversion Fréquence de chaque base égale (0.25) différence des taux de transition/transversion **Fréquence de chaque base inégale** différences des taux transition/transversion Reconstruction de l'arbre phylogénétique par méthode de **Distance** : - A l'aide de Seaview - Avec le modèle d'évolution que vous avez choisi (juste au-dessus) Reconstruction de l'arbre phylogénétique par méthode de **Maximum de vraisemblance** : En utilisant le web serveur IQ-TREE : dans un 1 er temps, le choix de **modèle de substitution** AIC : mesure de la qualité d'un modèle statistique Chaque modèle d'évolution étant intrinsèquement un modèle statistique, il est possible de les confronter aux données pour en inférer un score Modèle le plus adapté : score AIC le plus faible !  - S'il détermine un autre modèle que celui que l'on a sélectionner car il va tester tous les modèles on va retenir celui qui a l'AIC le plus faible Si vous choisissez une autre option comme pat exemple uun choix par les méthodes Bayésiennes (BIC), vos résultats peuvent être différents En utilisant le web serveur IQ-TREE : dans un 2^nd^ temps, **reconstruction avec le modèle le meilleur** Nous indique la fréquences des bases : - F = empirique - FQ = inégalité des fréquences de bases - FO = Maximisée pat la fréquence de maximum de vraisemblance - IQ-TREE inclue tous les modèles communs ADN de substitution A LA FIN : - Met 5 à 10 min pour être fait  - Indique fini - Télécharger l'arbre - Le visualiser Si vous téléchargez, vous aurez plusieurs fichiers : Vous pouvez visualiser ce.treefile avec Seaview par exemple Vous allez visualiser ce.treefile avec Itol permettant une annotation de cet arbre Annotation sous Itol (subtilité : sans compte la session dure 15 min) arbre qui va apparaitre, choix du type de représentation..., affichage des bootstraps..., coloration des branches - Exporter l'arbre et le mettre dans le rapport Rapport : - Captures d'écran des arbres, séquences...

Use Quizgecko on...
Browser
Browser