Bases de données en oncologie 2024 - CM11 PDF
Document Details
Uploaded by HighSpiritedSweetPea
Sorbonne University
2024
Stefano Caruso
Tags
Summary
Ce document présente les bases de données utilisées en oncologie, en se concentrant sur l'utilisation du séquençage pour analyser le génome du cancer. Il explique comment le volume de données biologiques, notamment les séquences, augmente de manière exponentielle et décrit des projets comme le Cancer Genome Atlas et l'International Cancer Genome Consortium.
Full Transcript
Stefano Caruso, PhD UE Bases moléculaires en oncologie 15 avril 2024 Le cancer est un processus évolutif Darwinien Génomique Génomique « somatique » des tumeurs constitutionnelle Lésion Carcinome...
Stefano Caruso, PhD UE Bases moléculaires en oncologie 15 avril 2024 Le cancer est un processus évolutif Darwinien Génomique Génomique « somatique » des tumeurs constitutionnelle Lésion Carcinome Cancer résistant Cellule normal prénéoplasique in situ Cancer au traitement >10-20 ans accumulation d’altérations génétiques somatiques par mutations aléatoires Age Carcinogène, inflammation chronique, stress oxydatif Traitement Facteurs influençant l’accumulation de mutations somatiques tumorales Sélection darwinienne des cellules cancéreuses avec des mutations drivers Stratton MR, et al. Nature 2009 Le cancer est un processus évolutif Darwinien Défis majeur: distinguer les mutations « driver » des mutations « passagères » ? Participe à l’expansion Mutations clonale « drivers » Cancer Mutations fonctionnelles 1-10 ou plus / Rôle directe dans tumeur l’oncogenèse Stochastique Mutations Sans conséquence « passagères » fonctionnelle 10-100 000 Pas de rôle dans ou plus/tumeur l’oncogenèse Stratton MR, et al. Nature 2009 Le cancer est un processus évolutif Darwinien Génomique Génomique « somatique » des tumeurs constitutionnelle Lésion Carcinome Cancer résistant Cellule normal prénéoplasique in situ Cancer au traitement >10-20 ans accumulation d’altérations génétiques somatiques par mutations aléatoires Age Carcinogène, inflammation chronique, stress oxydatif Traitement Facteurs influençant l’accumulation de mutations somatiques tumorales Sélection darwinienne des cellules cancéreuses avec des mutations drivers Stratton MR, et al. Nature 2009 Le cancer est un processus évolutif Darwinien Génomique Génomique « somatique » des tumeurs constitutionnelle Lésion Carcinome Cancer résistant Cellule normal prénéoplasique in situ Cancer au traitement >10-20 ans mutations/variants germinales accumulation d’altérations génétiques somatiques par mutations aléatoires Prédisposition/susceptibilité constitutionnelle aux cancers Age Carcinogène, inflammation chronique, stress oxydatif Traitement Facteurs influençant l’accumulation de mutations somatiques tumorales Sélection darwinienne des cellules cancéreuses avec des mutations drivers Stratton MR, et al. Nature 2009 Séquençage de nouvelle génération Séquençage Aujourd’hui: complet du génome Séquençage d’un humain génome complet Plus rapide, >10 ans 48h 2.7 milliards $ ~ 1500 $ Moins cher ! 1990 2003 Human Genome Project Année Les techniques de séquençage de nouvelle génération Génome entier Exome entier Séquençage ciblé (ADN) Transcriptome Séquençage (séquences codantes (séquences codantes) (nombre de gènes limité) entier ciblé (ARN) et non codantes) (nombre de transcrits limité) 3 Gb 50 Mb ~500€ ~3,000€ ~1,000€ Echantillon tumoral Paire T/N Paire T/N Simon et al., Nat Rev Drug Disc 2013 Bases de données le volume des données en biologie (en particulier les séquences) croît de manière exponentielle et double tous les 18 mois depuis 1982 Les programmes de séquençage massif de génomes complets font exploser les volumes acquis. Le programme 10 000 génomes humains (http://www.uk10k.org/) a généré en 6 mois un volume de données équivalent au contenu accumulé dans www.ebi.ac.uk/ena/browser/about/statistics GENBANK pendant 20 ans. Une base de données est un système permettant de stocker des données organisées pour une meilleure utilisation. Depuis 25 ans, une explosion des bases de données biologiques est observée (1641 répertoriées dans la revue NAR) Les programmes de séquençage des génomes tumoraux Objectif: dresser un portrait exhaustif des altérations génétiques des principaux cancers 2005 2006 2008 2016 Séquençage de Projet The Cancer Projet de l’International Cancer nouvelle génération Genome Atlas Genome Consortium for Medicine Séquençage de 50 types de cancers différents Nombre de tumeurs séquencées (2020): TCGA: ~ 20 000 (33 types de cancer) ICGC: >24 000 (38 types de cancer) => Données publiques accessibles via des portails web The Cancer Genome Atlas - Lancé en 2006 par le NIH et le NHGRI aux États-Unis. - L'objectif était d'améliorer la capacité à diagnostiquer, traiter et prévenir le cancer par une analyse moléculaire intégrée. - Depuis 2009, deuxième phase visant à produire des cartes génomiques, transcriptomiques et épigenomiques de différents types de tumeurs. - Depuis 2010, les données sont disponibles via des services web. The Cancer Genome Atlas Ces données ont été utilisées dans plus de 1000 publications pour confirmer de nouvelles hypothèses scientifiques. Genomic Data Commons (GDC) En juin 2016, le NCI lance le Genomic Data Commons (GDC), un système de données unifié qui héberge TCGA et les données génomiques d'autres programmes et études. Les données qui sont disponibles sur le portail sont : - WGS - WES - Méthylation - RNAseq - miRNAseq - Copy number variation (CNV) Différents niveaux d'accès aux données, du niveau 1 (format riche mais accès contrôlé par le consortium) au niveau 3 (résumé résultant d'une analyse spécifique d'accès totalement libre). https://portal.gdc.cancer.gov/ International Cancer Genome Consortium (ICGC) Le L'ICGC a été lancé en 2008 pour coordonner des études à grande échelle sur le génome du cancer grâce à la collaboration des plus grands chercheurs mondiaux en cancérologie Des centaines de travaux fondamentaux ont été publiés directement à partir des données de l'ICGC, avec des articles de référence dans les revues scientifiques les plus prestigieuses du monde. International Cancer Genome Consortium (ICGC) Les résultats des analyses de ces données sont disponibles sur le portail ICGC data portal https://dcc.icgc.org/ International Cancer Genome Consortium (ICGC) La deuxième initiative de l'ICGC, l'étude Pan-Cancer Analysis of Whole Genomes (PCAWG), a débuté en 2013 sous la forme d'une collaboration internationale visant à identifier des schémas communs de mutation dans plus de 2 600 génomes entiers de cancers issus de l’ICGC. Cartes d’Identité des Tumeurs (CIT) Lancé en 2000 par la Ligue française contre le cancer, le programme de recherche CIT visait à caractériser de manière exhaustive les altérations génomiques à l'origine des cancers en utilisant des approches multi-omiques (principalement des données des puces). Que peut-on apprendre de ces programmes de recherche et de ces bases de données ? Diversité génétique des cancers Coopérations oncogéniques Nouveaux drivers/voies altérées Conséquences fonctionnelles des mutations Que peut-on apprendre de ces programmes de recherche et de ces bases de données ? Diversité génétique des cancers Coopérations oncogéniques Nouveaux drivers/voies altérées Conséquences fonctionnelles des mutations MSI: * Nombre de mutations non-synonyme par tumeur (médiane +/- un quartile) instabilité des 0 25 50 75 100 125 150 175 200 225 250 500 1000 1500 microsatellites * Colorectal (MSI) Lung (SCLC) Lung (NSCLC) Tabac Melanoma Mutagène UV Esophageal (ESCC) Non-Hodgkin Lymphoma Colorectal (MSS) Head and Neck Esophageal (EAC) Gastric Endometrial (endometrioid) Pancreatic adenocarcinoma Ovarian (high-grade serous) Prostate Hepatocellular ~ 200 mutations: reflète l’effet de Tumeurs solides de l’adulte puissants mutagènes (tabac, UV) ~ 30 à 60 gènes mutés Glioblastoma présentant des défauts de réparation de l’ADN Breast > 500 mutations: tumeurs génétiquement instables Endometrial (Serous) Lung (never smokers-NSCLC) Chronic Lymphocytic Leukemia Acute Myeloid Leukemia Liquide Glioblastoma Neuroblastoma Acute Lymphoblastic Leukemia Medulloblastoma Pédiatriques Rhabdoid ~ 10 mutations/tumeur Explorer la diversité génétique des cancers Vogelstein B, Science 2013 Explorer la diversité génétique d’un même type de cancer Portrait génétique des carcinomes hépatocellulaires (cancer du foie) Inactivation Gène suppresseur de tumeur Hepatic TGFß Wnt-ßCatenin IL6/JAK-STAT PI3K-AKT-mTOR MAPK Activation Oncogène differentiation 24% 5% 54% 9% 51% 43% FA CFHR2 2% Protumorigenic macrophages FGF4 Inconnu Conséquence FA VEGFA 4% FA CFHR1 2% F8 2% WNT10B ≤1% 1% FA HGF FGF3 FGF19 fonctionnelle inconnue A2M FGA Activins WNT10A Ils FA 2% 4% FA 4% 2% 3% EGFR GDF1 GDF15 ≤1% Il6 ALB 1% Extra cellular 12% 1% FA 1% FA WNT7B ≤1% FA FLT4 MET NTRK3 3% 231 tumeurs analysées par séquençage de l’exome complet APOB 3% 1% FA space 10% FZR1 ≤1% Il6ST 1% Il6R 161 gènes drivers identifiés AXIN2 stress 11%