Esercitazione Totale PDF
Document Details
Uploaded by FortuitousFable9683
Tags
Summary
Questo documento presenta un'esercitazione composta da 57 domande di bioinformatica, coprendo argomenti come classificazione, matrici BLOSUM, database, VIP score, e concetti di bioinformatica interdisciplinare. Le domande indagano su diversi aspetti della bioinformatica, includendo temi di programmazione e strumenti di analisi dei dati.
Full Transcript
ESERCITAZIONE TOTALE 1. Qual è la funzione delle tecniche di classificazione? a. Prevedere l’esito di un evento futuro b. Rappresentare variabili qualitative c. Assegnare le unità a categorie predefinite 2. Qual è l’utilizzo principale delle matrici BLOSUM? a. Allineare p...
ESERCITAZIONE TOTALE 1. Qual è la funzione delle tecniche di classificazione? a. Prevedere l’esito di un evento futuro b. Rappresentare variabili qualitative c. Assegnare le unità a categorie predefinite 2. Qual è l’utilizzo principale delle matrici BLOSUM? a. Allineare proteine con gradi di similarità evolutiva diversi b. Confrontare sequenze di DNA umano c. Identificare mutazioni nei geni 3. Qual è la differenza tra un database primario e secondario? a. I database primari archiviano solo sequenze RNA, i secondari solo proteiche b. I database primari usano solo dati teorici, i secondari sperimentali c. I database primari archiviano risultati sperimentali, i secondari dati analizzati 4. In un VIP score, cosa indica un valore inferiore a 1? a. Variabili altamente informative b. Variabili prive di varianza c. Variabili meno influenti per la classificazione 5. Cosa descrive la bioinformatica come scienza interdisciplinare? a. L'integrazione di matematica e fisica b. La fusione di genetica e linguistica c. La collaborazione tra biologi, informatici e ingegneri 6. Qual è il ruolo degli indici locali in HISAT2? a. Gestire varianti genomiche b. Determinare splicing alternativo c. Accelerare il sequenziamento 7. Qual è la differenza tra un t-test a varianza sconosciuta ma uguale e dissimile? a. La varianza sconosciuta non influisce sul test b. Il test con varianza dissimile considera una deviazione standard diversa per ogni gruppo c. La varianza uguale è usata solo con campioni appaiati 8. Cosa si intende per linguaggio di programmazione di alto livello? a. Un linguaggio orientato alla macchina b. Un linguaggio vicino alla logica umana c. Un linguaggio utilizzabile solo dagli esperti 9. Qual è l'obiettivo principale dell'indice FM creato da HISAT2? a. Sequenziare trascritti non noti b. Normalizzare reads allineate c. Ottimizzare la ricerca di pattern nel genoma 10. Quale rappresentazione grafica è più adatta per una tabella di contingenza? a. Colonne in pila b. Grafico a barre non errore sperimentale c. Diagramma a dispersione 11. Che cos'è la bioinformatica? a. La scienza che si occupa di modificare le strutture delle proteine b. Lo studio delle strutture tridimensionali delle proteine c. La scienza dell’archiviazione e analisi di grandi quantità di dati biologici 12. Qual è la funzione della memoria cache in un computer? a. Espandere la capacità della memoria ROM b. Accelerare l'accesso ai dati utilizzati di frequente c. Memorizzare programmi in esecuzione 13. Cosa rappresenta il coefficiente di probabilità in una distribuzione normale standardizzata? a. L'area sottesa alla curva per un dato intervallo b. Il valore massimo di Z c. La deviazione standard della distribuzione 14. Qual è un parametro essenziale per determinare la significatività statistica? a. Numero di geni totali b. p-value c. Sequenziamento di RNA totale 15. La deviazione standard è: a. La radice quadrata della varianza b. La media delle differenze assolute rispetto alla media c. La media delle osservazioni di una distribuzione 16. In quale contesto è utile la distanza euclidea? a. Quando i dati hanno distribuzioni molto diverse rispetto alla media cumulativa b. Per misurare l'entità delle differenze tra oggetti della stessa categoria c. Quando le variabili sono correlate e godono della reciprocità 17. Cos'è un autovettore in PCA? a. Una variabile indipendente b. Una direzione che rappresenta una componente principale c. Una media dei dati 18. Cosa rappresenta il codice ASCII in informatica? a. Un codice per memorizzare numeri binari b. Un codice per associare caratteri alfanumerici a valori numerici c. Un codice per la gestione delle operazioni di rete a valori numerici 19. Che cos'è una variabile in un algoritmo? a. Un insieme di istruzioni b. Una quantità fissa che non cambia durante l'esecuzione c. Un identificatore che può contenere valori diversi durante l'esecuzione 20. Il coefficiente di determinazione può assumere valori compresi tra: a. -1 e 1 b. 0 e 1 c. 0 e 100 21. Che cos’è l’algoritmo di allineamento Needleman-Wunsch? a. Un algoritmo per l’allineamento globale di due sequenze b. Un algoritmo di allineamento per confrontare sequenze con metodi statistici c. Un algoritmo per trovare regioni di somiglianza locale 22. In un dendrogramma, cosa rappresenta l'altezza di ogni nodo? a. La somiglianza o distanza tra i cluster fusi b. La frequenza delle osservazioni in ogni cluster c. Il valore medio delle osservazioni in un cluster 23. Quale caratteristica distingue i database primari dai secondari? a. I dati derivano da analisi manuali b. Contengono dati sperimentali grezzi c. Sono curati per coerenza 24. Cos'è una funzione in programmazione? a. Una struttura che memorizza variabili b. Una variabile usata per calcoli matematici c. Un blocco di codice riutilizzabile che esegue un compito specifico 25. Cosa rappresenta la tecnica di rotazione in PCA? a. Aumentare la varianza b. Ridurre i cluster c. Trovare direzioni di massima variabilità 26. Perché la matrice di conteggio necessita di normalizzazione? a. Per confrontare correttamente i livelli di espressione genica b. Per ridurre il numero di geni analizzati c. Per identificare trascritti non codificanti 27. Perché il trimming delle reads è necessario nell'RNA-Seq? a. Eliminare mRNA non codificanti b. Allineare i frammenti direttamente al DNA c. Rimuovere nucleotidi a bassa qualità 28. Quale linguaggio di programmazione è tipicamente utilizzato per analisi numeriche e statistiche? a. R b. HTML c. SQL 29. Qual è la funzione di una matrice di sostituzione? a. Assegnare punteggi alle sostituzioni di residui in un allineamento b. Calcolare la lunghezza delle sequenze proteiche per un allineamento ottimale c. Confrontare polimorfismi in una popolazione per trovare tutti i sostituenti possibili 30. In una regressione lineare, un valore di R² basso indica che: a. Il modello è altamente predittivo b. Il modello spiega completamente i dati c. Il modello spiega poca variabilità dei dati 31. Qual è la differenza principale tra linguaggi di alto livello e linguaggi di basso livello? a. I linguaggi di basso livello sono più portabili tra sistemi diversi b. I linguaggi di alto livello sono più vicini al linguaggio umano c. I linguaggi di basso livello sono più facili da leggere per i non esperti 32. Qual è la principale applicazione dell'analisi differenziale dell'espressione genica? a. Ricavare mutazioni nel genoma b. Identificare geni sovra- o sotto-espressi c. Sequenziare trascritti non noti 33. Qual è la funzione della tabella delle occorrenze nella trasformata BWT? a. Determinare la posizione dei caratteri originali b. Calcolare la percentuale di GC c. Mappare le reads sul genoma di riferimento 34. In un Volcano Plot, l'asse Y rappresenta: a. Il logaritmo in base 10 del p-value b. Il logaritmo negativo del fold-change c. Il logaritmo negativo del p-value 35. Qual è lo scopo del grafico 'Per base N content' in FastQC? a. Calcolare la lunghezza media dei frammenti b. Identificare basi non assegnabili nelle reads c. Misurare la distribuzione del contenuto di GC 36. Qual è lo scopo principale della tecnica OPLS-DA? a. Migliorare la separazione tra classi rimuovendo la variabilità ortogonale b. Identificare valori estremi in un dataset c. Eliminare le osservazioni con varianza maggiore 37. Qual è la definizione di un array? a. Un insieme di record b. Un insieme ordinato di valori c. Un insieme di variabili 38. Qual è il principale output prodotto da FastQC? a. Liste di reads allineate b. Dati di trascritti annotati c. Grafici per la valutazione della qualità delle reads 39. Qual è l'unità di misura utilizzata per indicare la velocità di trasmissione dati in rete? a. Bit al secondo b. Byte al secondo c. Kilobyte al secondo 40. In una rete a varianza di scala, quale caratteristica hanno i nodi hub? a. Non hanno connessioni dirette con altri nodi b. Sono altamente connessioni rispetto agli altri nodi c. Hanno un grado costante basso 41. Cosa indica il valore p in un test statistico? a. La probabilità di ottenere un risultato uguale o più estremo rispetto all’osservato, se l'ipotesi nulla è vera b. La probabilità di ottenere un risultato uguale o più estremo rispetto all’osservato, se l'ipotesi nulla è falsa c. La probabilità di ottenere un risultato uguale o più estremo rispetto all’osservato, se l'ipotesi nulla e quella alternativa coincidono 42. Che cosa rappresenta una curva ROC in un test diagnostico? a. La media dei valori di sensibilità e specificità b. La relazione tra tasso di veri positivi e tasso di falsi positivi c. La deviazione standard della specificità 43. Qual è la funzione della normalizzazione in un dataset? a. Ridurre il numero di osservazioni b. Aumentare la varianza dei dati c. Mettere i dati su una scala comune per facilitarne il confronto 44. Qual è il ruolo di un sistema operativo? a. Eseguire esclusivamente programmi di videoscrittura b. Gestire le risorse hardware e software del computer c. Convertire i linguaggi di programmazione 45. Qual è il ruolo dell'analisi di arricchimento GO? a. Identificare geni differenzia mente espressi b. Sequenziare direttamente l’intero genoma c. Collegare i geni espressi a funzioni biologiche 46. Qual è la missione principale di EMBL-EBI? a. Sequenziare il genoma umano e archiviare i dati per la medicina di precisione b. Studiare esclusivamente l'epigenetica c. Fornire risorse bioinformatiche per la comunità scientifica 47. Cos’è un SNP? a. Una struttura secondaria di RNA b. Un errore che causa malattie in tutti gli individui c. Una variazione di singolo nucleotide nel DNA 48. Come si comportano le reti casuali rispetto alla distribuzione di grado? a. La distribuzione di grado è invariante alla scala b. Non hanno una distribuzione di grado definita c. La distribuzione di grado segue una distribuzione di Poisson 49. Qual è il ruolo di un driver nel contesto del sistema operativo? a. Eseguire programmi applicativi b. Permettere l'uso di periferiche specifiche c. Fornire accesso diretto alla RAM 50. Quale struttura conserva il genoma umano? a. DNA b. Cromatidi c. Ribosomi 51. Che cosa rappresenta il range di una distribuzione? a. La media della distribuzione b. La differenza tra il valore massimo e il valore minimo c. La somma di tutte le frequenze 52. Che cos'è un file? a. Una memoria temporanea del sistema b. Un insieme ordinato di dati memorizzabili come unità c. Un programma che esegue operazioni su dati 53. Che cos’è un campione? a. Un sottoinsieme di unità estratto dalla popolazione b. La modalità con cui si manifesta una caratteristica c. L’intero insieme di unità di una popolazione 54. Quale software è stato il primo ad essere utilizzato per assemblare sequenze proteiche? a. IBM 7090 b. BLAST c. FASTA 55. Quale database è specifico per le espressioni geniche? a. UniProt b. GenBank c. GEO (Gene Expression Omnibus) 56. Quale elemento è essenziale per l'analisi di network molecolari? a. Strutture tridimensionali b. Mutazioni genetiche c. Interazioni proteina-proteina 57. Cosa rappresenta un nodo in un dendrogramma? a. Il punto di connessione tra rami che rappresenta una divisione tra variabili b. Il punto di connessione tra rami che rappresenta una divisione tra gruppi c. Il punto di connessione tra rami che rappresenta una divisione tra campioni 58. Qual è la caratteristica distintiva di una distribuzione normale? a. Ha media, mediana e moda coincidenti b. È asimmetrica c. Ha due picchi principali 59. Quando si ottiene la distanza euclidea utilizzando la distanza di Minkowski? a. Quando il parametro p è 2 b. Quando il parametro p è 1 c. Quando il parametro p è 3 60. La distribuzione normale è spesso utilizzata in statistica perché: a. È l’unica distribuzione simmetrica b. Molti fenomeni naturali seguono questa distribuzione c. È una distribuzione discreta 61. In un sistema di gestione di database relazionali, cosa consente l'operatore 'JOIN'? a. Sommare i valori di un attributo b. Combinare attributi identici da due tabelle c. Estrarre solo i record unici da una tabella 62. Qual è il compito principale della CPU in un computer? a. Gestire la rete per i calcolatori binari b. Eseguire operazioni di calcolo c. Memorizzare dati su cui eseguire i calcoli 63. Cosa rappresenta un dendrogramma? a. La varianza dei dati b. La media dei campioni c. La struttura di raggruppamento gerarchico tra oggetti 64. Qual è il termine che descrive il confronto tra sequenze biologiche per identificare somiglianze? a. Analisi b. Allineamento c. Archiviazione 65. Qual è il vantaggio di utilizzare la mediana invece della media? a. La mediana è calcolata più velocemente della media b. La mediana non è influenzata dai valori estremi c. La mediana fornisce sempre un valore più alto 66. Cos'è la probabilità cumulativa in una distribuzione normale? a. La somma delle medie dei dati b. La probabilità totale della distribuzione c. La probabilità che un valore sia minore o uguale a un certo punto 67. Qual è l’obiettivo di un allineamento globale di sequenze? a. Analizzare solo regioni locali simili b. Confrontare interamente due sequenze per trovare somiglianze c. Identificare varianti di polimorfismo 68. Quale tecnica utilizza l'algoritmo Smith-Waterman? a. Tracciamento filogenetico b. Analisi globale c. Allineamento locale 69. Qual è il significato del Teorema del Limite Centrale? a. Le variabili di un campione hanno sempre una distribuzione normale b. La distribuzione delle medie campionarie tende a una distribuzione normale con campioni sufficientemente grandi c. Ogni distribuzione può essere trasformata in una distribuzione normale attraverso una trasformazione logaritmica 70. Quale programma è progettato per analizzare trascrizioni e identificare geni? a. CLUSTAL b. SPLIGN c. Needleman-Wunsch 71. Che cosa rappresenta un polimorfismo SNP? a. Una sequenza di DNA presente solo in specie diverse b. Una variazione della struttura proteica dovuta a mutazioni multiple c. Una variazione di singolo nucleotide comune in una popolazione 72. In SQL, quale comando viene utilizzato per aggiornare i dati esistenti in una tabella? a. DELETE b. UPDATE c. INSERT 73. Qual è la matrice usata per calcolare punteggi di sostituzione in allineamenti proteici? a. GAPM b. BLOSUM62 c. PAM250 74. In sPLS, qual è il vantaggio della selezione delle variabili? a. Aumenta il numero di cluster b. Riduce il rumore mantenendo solo le variabili informative c. Elimina tutte le variabili 75. Qual è un limite dell’algoritmo K-means? a. Non funziona con variabili quantitative b. È influenzato notevolmente da eventuali variabili outlier c. Il numero di cluster deve essere definito a priori 76. Qual è l’obiettivo di un compilatore? a. Gestire l’hardware di un computer b. Tradurre il codice sorgente in linguaggio macchina c. Interpretare il codice durante l’esecuzione 77. Quando si usa la distribuzione t Student? a. Solo per campioni formati da almeno 30 unità statistiche b. Per piccoli campioni con varianza ignota c. Quando la varianza della popolazione è nota 78. Cos'è una componente principale (PC) in PCA? a. Una combinazione lineare di variabili originali che massimizza la varianza b. Un vettore che rappresenta una variabile originale c. Un coefficiente che descrive la correlazione tra variabili 79. Che cosa rappresenta la moda in una distribuzione? a. Il valore più frequente in un dataset b. Il punto centrale di un intervallo di dati c. La somma di tutti i valori divisa per il numero di osservazioni 80. La varianza misura: a. La somma dei valori della distribuzione b. La dispersione dei dati rispetto alla media c. La differenza tra il valore massimo e minimo 81. Quale tecnica utilizza un approccio euristico per ridurre i tempi di calcolo degli allineamenti? a. FastQ b. Clustal Omega c. BLAST 82. Come si definisce la densità di una rete? a. Il numero di link connessi ai nodi principali b. La somma dei gradi di tutti i nodi c. Il rapporto tra il numero effettivo di link e il numero massimo possibile di link 83. Qual è la struttura dati utilizzata per velocizzare la ricerca nei database genomici? a. Albero binario b. Tabella hash c. Lista collegata 84. Quale mutazione coinvolge lo scambio di una purina con una pirimidina? a. Transizione b. Trasversione c. Inversione 85. Qual è la funzione del comando 'build' in Bowtie? a. Normalizzare dati RNA-Seq b. Creare l'indice del genoma di riferimento c. Analizzare bias di sequenziamento 86. Quale organizzazione ha coniato il termine “bioinformatica”? a. Paulien Hogeweg e Ben Hesper b. EMBL c. National Institutes of Health 87. Quale tipo di memoria può essere solo letta e non modificabile dall’utente? a. RAM b. Cache c. ROM 88. Che cos’è un linguaggio SQL? a. Un linguaggio di basso livello per la programmazione di sistema b. Un linguaggio per la creazione di siti web c. Un linguaggio per la gestione di gestione di database relazionali 89. In un’analisi PLS, che cosa rappresenta la Q2Y? a. La somma dei quadrati delle deviazioni b. La capacità predittiva del modello c. La varianza spiegata delle variabili predittiva 90. Che cosa rappresenta l’area sotto la curva di una distribuzione normale? a. La media della popolazione b. La probabilità cumulativa di eventi c. Il valore massimo della distribuzione 91. Quale algoritmo è ottimizzato per identificare splicing alternativo? a. HISAT2 b. Bowtie c. STAR 92. Qual è la definizione di curtosi? a. La misura di quanto una distribuzione sia appuntita o piatta rispetto alla normale b. La frequenza della moda di un dataset c. La media delle deviazioni dalla mediana 93. Qual è la caratteristica delle reti a invarianza di scala? a. Hanno molti nodi con basso grado e pochi hub con alto grado b. Hanno tutti i nodi con lo stesso grado c. Seguono una distribuzione di Poisson 94. Cos'è la normalizzazione per somma? a. Moltiplicare ogni valore per un fattore costante b. Sottrarre la media di ogni variabile c. Dividere ogni valore per la somma totale del campione per ridurre le differenze di scala 95. In quale tipo di memoria viene solitamente caricato il malware? a. Cache b. RAM c. ROM 96. Quale dei seguenti strumenti statistici automatizza i calcoli delle probabilità? a. Grafici a torta b. Tavole Z c. Software come R ed Excel 97. Qual è la funzione del Volcano Plot in biostatistica? a. Identificare rapidamente cambiamenti significativi in esperimenti tra due gruppi b. Mostrare la correlazione tra variabili c. Determinare il valore mediano di una variabile 98. A cosa serve l’analisi filogenetica in bioinformatica? a. Confrontare i polimorfismi genetici b. Prevedere la struttura di acidi nucleici c. Tracciare le relazioni evolutive tra specie 99. Che cosa rappresenta l’allineamento globale di due sequenze? a. Un confronto limitato alle regioni simili b. Solo le regioni con differenze rilevanti c. Un confronto su tutta la lunghezza delle sequenze 100. Quale fenomeno è alla base delle variazioni genetiche dei genomi? a. Mutazione b. Crossing over c. Polimorfismo 101. In quale situazione si usa un grafico a torta? a. Per mostrare la distribuzione di frequenza di una variabile quantitativa b. Per rappresentare una serie temporale c. Per rappresentare le percentuali di una variabile qualitativa 102. A cosa serve il database dbSNP? a. Archiviare sequenze di DNA procariotico appartenente al clade SNP b. Archiviare varianti di singolo nucleotide (SNP) c. Confrontare sequenze proteiche tra organismi dotati di SNP consolidati 103. Quando si usa un "Boxplot"? a. Per misurare la varianza dei dati b. Per calcolare la media dei campioni c. Per visualizzare contemporaneamente scores e loadings 104. Come si chiama una rete in cui i link non indicano una direzione specifica? a. Rete non orientata b. Rete ponderata c. Rete orientata 105. Qual è la funzione principale del sistema operativo? a. Gestire le risorse hardware e software b. Memorizzare dati in modo permanente c. Eseguire calcoli complessi 106. Quale è il principale vantaggio dell'uso di Bowtie per l'allineamento delle sequenze? a. Garantire allineamenti globali precisi b. Velocità ed efficienza nella gestione di grandi dataset c. Rilevare trascritti non codificanti per mappatura senza genoma di riferimento 107. Qual è la formula della deviazione standard della media? a. σ2/nσ2/n b. s/ns/n c. σ/√n 108. Quale struttura conserva il genoma umano? a. Ribosomi b. Cromatidi c. DNA 109. Qual è la tecnica di mappatura che utilizza la tabella hash per confrontare sequenze? a. MegaBLAST b. SPLIGN c. BLAT 110. In informatica, cosa rappresenta la complessità computazionale di un algoritmo? a. Il numero di istruzioni eseguite durante l’esecuzione b. Il tempo di esecuzione in funzione della dimensione dell'input c. La quantità di memoria RAM utilizzata durante l'esecuzione 111. Quale parametro statistico indica la probabilità che un allineamento sia casuale? a. Percent identity b. Query Coverage c. E-value 112. Che cosa rappresenta il livello di significatività in un test statistico? a. La probabilità di rifiutare l'ipotesi alternativa quando è vera b. La probabilità di rifiutare l’ipotesi nulla quando è vera c. La probabilità di accettare l’ipotesi nulla quando è vera 113. Che cos'è un database relazionale? a. Un sistema che organizza i dati in tabelle correlate tra loro b. Un sistema di memorizzazione senza struttura c. Un sistema di archiviazione sequenziale di file 114. Chi ha sviluppato il metodo di sequenziamento del DNA che ha rivoluzionato la genomica? a. Allan Maxam b. Kary Mullis c. Frederick Sanger 115. Quale analisi determina relazioni evolutive tra organismi? a. Filogenesi molecolare b. Sequenziamento c. Analisi funzionale 116. Qual è il principale obiettivo di un allineamento multiplo? a. Predire sequenze sconosciute b. Calcolare la densità della rete c. Identificare regioni conservate 117. Quale parametro di un test diagnostico si migliora principalmente aumentando il cut-off del ROC? a. Accuratezza complessiva b. Specificità c. Sensibilità 118. Qual è la funzione dei quartili in una distribuzione? a. Dividere i dati in quattro parti uguali per analizzare la distribuzione centrale e quella esterna b. Trovare la moda della distribuzione c. Indicare la frequenza cumulativa dei dati 119. Quale dei seguenti elementi non è una caratteristica di un linguaggio di programmazione? a. Alfabeto b. Grammatica c. Firmware 120. Qual è l'obiettivo dell'allineamento tra sequenze? a. Trovare somiglianze per identificare funzioni simili b. Confrontare sequenze per trovare regioni con funzioni simili c. Cambiare la sequenza genetica per migliorare la funzione 121. Quale tipo di RNA è coinvolto nella regolazione post-trascrizionale? a. miRNA b. tRNA c. rRNA 122. Quale tipo di mutazione coinvolge un cambiamento puntuale in una sequenza? a. Delezione b. Inserzione c. Transizione 123. In un modello PLS, T e U rappresentano: a. Valori casuali b. Deviazioni standard c. Componenti latenti di X e Y 124. Qual è lo scopo di un database primario? a. Archiviare dati sperimentali come sequenze nucleotidiche b. Conservare solo sulle proteine di primati c. Contenere dati derivati dall'analisi dei dati primari 125. Qual è il significato della mediana in un insieme di dati? a. È la somma di tutti i valori divisa per il numero di osservazioni b. È il valore che appare più frequentemente c. È il valore che divide i dati in due metà uguali 126. Perché è importante scegliere la giusta metrica di distanza in Cluster Analysis? a. Determina le unità di misura dei cluster b. Influenza il raggruppamento e la somiglianza tra oggetti c. Per stabilire a priori gli oggetti da porre nello stesso raggruppamento 127. Quale dei seguenti grafici è adatto per rappresentare una variabile quantitativa continua? a. Grafico a torta b. Diagramma a barre c. Istogramma 128. Qual è la principale differenza tra mutazione e polimorfismo? a. Il polimorfismo raggiunge almeno l'1% nella popolazione b. La mutazione è comune nella popolazione c. Il polimorfismo causa solo le inserzioni 129. Quale parametro influenza maggiormente la sensibilità di Bowtie? a. Numero massimo di mismatch consentiti b. Percentuale di GC c. Numero di reads totali 130. Che cos'è una rete orientata? a. Una rete in cui non ci sono collegamenti b. Una rete in cui i link indicano una direzione specifica tra due nodi c. Una rete in cui tutti i link hanno lo stesso peso 131. Quale problema è evidenziato da un elevato tasso di duplicazione nei grafici di FastQC? a. Bassa qualità delle reads b. Errori di splicing c. Sovra rappresentazione di sequenze 132. Cos'è un VIP score in PLS-DA? a. Un indice di dispersione delle variabili più importanti b. Un punteggio che indica l'importanza delle variabili per la classificazione c. Una misura della media delle variabili più importanti che determinano l'esistenza di classi 133. Quale database contiene dati funzionali genomici? a. Reactome b. GEO c. GenBank 134. Il campionamento casuale semplice si effettua: a. Con un metodo che garantisce la casualità delle estrazioni b. Usando un criterio di praticità c. Estraendo unità della popolazione a intervalli regolari 135. Che cosa si intende per traslazione in PCA? a. Aumentare la scala delle variabili b. Eliminare le variabili con bassa varianza c. Spostare i dati in modo che il centroide sia all'origine degli assi 136. Qual è l'obiettivo principale della normalizzazione in un database relazionale? a. Espandere la memoria del database b. Aumentare la velocità di elaborazione c. Minimizzare la ridondanza dei dati 137. Quale software è utilizzato per predire domini proteici? a. InterPro b. Entrez c. GeneMapper 138. A cosa serve una matrice BLOSUM in bioinformatica? a. Identificare sequenze proteiche per organismi specifici b. Calcolare la struttura tridimensionale delle proteine c. Valutare somiglianze tra proteine evolutivamente distanti 139. In quale situazione è utile l'uso della sPLS? a. Quando si conoscono a priori le relazioni tra variabili b. Quando il dataset ha molte variabili e solo un sottoinsieme è rilevante c. Quando tutte le variabili sono fortemente correlate 140. Qual è la caratteristica principale della distanza euclidea? a. Calcola la somma dei valori assoluti delle differenze tra punti b. È la distanza 'in linea retta' tra due punti in uno spazio multidimensionale c. È una distanza basata solo sulle coordinate positive 141. Qual è il principale vantaggio di un multi-allineamento progressivo? a. Riduce i tempi di calcolo b. Evita l'uso di gap c. Aumenta la precisione 142. Qual è la funzione della deviazione standard in una distribuzione normale? a. Misura la dispersione dei dati attorno alla media b. Indica il numero di osservazioni della popolazione c. Determina il valore centrale della distribuzione 143. Quale dei seguenti intervalli rappresenta un coefficiente di probabilità del 99,9%? a. Tra -2,58 e 2,58 b. Tra -3,29 e 3,29 c. Tra -1,96 e 1,96 144. In quale situazione è utile la procedura di Benjamini-Hochberg? a. Per aumentare il numero di falsi negativi b. Per eliminare la necessità di normalizzazione in caso di test multipli c. Per controllare il tasso di falsi positivi (False Discovery Rate) 145. Come viene definito un insieme ordinato di informazioni memorizzabili o processabili come unità? a. Variabile b. File c. Array 146. Che cos'è il coefficiente di clustering in una rete? a. La misura della distanza tra due nodi b. La probabilità che due nodi connessi a un altro nodo siano connessi fra di loro c. La somma dei link in una rete 147. Qual è il vantaggio del Pareto scaling? a. Aumenta l'influenza delle variabili con alta varianza b. Riduce l'influenza delle variabili con alta varianza c. Riduce l'influenza delle variabili con bassa varianza 148. Qual è il compito di un programma applicativo? a. Gestire direttamente l'hardware del computer b. Fornire accesso ai componenti del sistema operativo c. Svolgere attività specifiche per l'utente, come la videoscrittura 149. Cosa significa «tagliare» un dendrogramma? a. Dividere il dendrogramma nel numero minimo di cluster b. Separare le variabili tra di loro c. Dividere il dendrogramma in un numero desiderato di cluster 150. Quando si utilizza l'analisi sPLS-DA? a. Per ridurre la varianza tra i gruppi senza selezione delle variabili b. Per testare l'indipendenza tra variabili c. Per selezionare un numero limitato di variabili rilevanti per la classificazione 151. Qual è il database dedicato ai polimorfismi a singolo nucleotide? a. dbSNP b. GeneBank c. RefSeq 152. Quale matrice è utilizzata per calcolare punteggi di sostituzione in proteine? a. PAM1 b. BLOSUM62 c. GAPM 153. Che cosa misura l'accuratezza di un test diagnostico? a. La probabilità che un risultato positivo sia errato b. La capacità del test di evitare qualsiasi errore di misura c. La capacità del test di distinguere correttamente tra veri positivi e negativi 154. Qual è l'operazione principale dell'operatore 'SELECT' in SQL? a. Creare una nuova tabella b. Rimuovere solo i campi ripetuti c. Estrarre righe specifiche da una tabella 155. Quando si utilizza un paired t-test? a. Quando si confrontano campioni indipendenti tra loro b. Quando si confrontano le differenze all'interno dello stesso gruppo in due condizioni c. Quando si ha una varianza nota 156. Qual è il nome della distribuzione normale con parametri µ = 0 e σ = 1? a. Distribuzione normale standardizzata b. Distribuzione normale simmetrica c. Distribuzione di Gauss 157. Qual è l'intervallo di valori per Z nella distribuzione normale standardizzata che rappresenta il 90%? a. Tra -1,96 e 1,96 b. Tra -1,65 e 1,65 c. Tra -2,58 e 2,58 158. Qual è il vantaggio principale della rappresentazione compressa nella trasformata BWT? a. Conservare tutte le informazioni sul genoma b. Facilitare la ricerca e l’allineamento c. Ridurre il numero di trascritti analizzati 159. Qual è il database primario per sequenze nucleotidiche? a. Protein Data Bank b. ENA c. UniProt 160. Quale database include annotazioni di proteine curate? a. Swissprot b. NRSeq c. RefSeq 161. Quale ruolo ha un gap in un allineamento? a. Introduce uno spazio per ottimizzare il confronto tra sequenze b. Aggiunge un nucleotide mancante alla sequenza per consentire l'allineamento c. Accelera il processo di allineamento rendendolo possibile il confronto 162. Qual è il significato del parametro μ in una distribuzione normale? a. È la dispersione dei dati attorno al valore centrale b. È la media della distribuzione c. È il valore massimo della curva 163. Qual è il ruolo principale della tabella FM nella trasformata BWT? a. Sequenziare RNA non codificanti b. Correggere errori di sequenziamento c. Accelerare la ricerca di pattern nelle sequenze 164. Qual è il ruolo principale dell'RNA Editing? a. Sintetizzare nuove molecole di DNA b. Tradurre RNA in proteine c. Modificare la sequenza primaria dell'RNA 165. In quale formato viene rappresentata l'informazione all'interno di un computer? a. Sistema binario b. Sistema decimale c. Sistema ottale 166. In un linguaggio di programmazione, cos'è una stringa? a. Una variabile che contiene solo numeri b. Una sequenza di caratteri alfanumerici c. Un tipo di dato booleano 167. Qual è la definizione corretta di una variabile? a. Un insieme di valori ordinati che può cambiare durante l'esecuzione b. Un valore costante non modificabile c. Una coppia nome-valore che può cambiare durante l'esecuzione 168. Qual è il formato di file consente di rappresentare sequenze con punteggi di qualità? a. BED b. GFF c. FASTQ 169. Qual è un indicatore chiave per valutare bias di sequenziamento nei grafici di FastQC? a. Lunghezza dei frammenti b. Conteggio delle reads c. Squilibrio nel contenuto di basi 170. Che cos'è un cammino minimo in una rete? a. La connessione tra nodi con lo stesso grado b. Un circuito che si auto-alimenta c. Il percorso con il minor numero di link che collega due nodi 171. Quando si utilizza un test a due code? a. Quando si vuole verificare se c'è una differenza in entrambe le direzioni tra le medie di due gruppi b. Quando si confronta una media con un valore noto c. Quando si vuole solo identificare aumenti di media 172. Qual è il principale metodo per identificare geni differenzialmente espressi? a. Normalizzazione TPM b. Analisi statistica c. Sequenziamento de novo 173. Quale parametro è essenziale per interpretare i risultati di FastQC? a. Percentuale di mismatch b. Distribuzione della qualità lungo le reads c. Lunghezza del trascritto 174. Che cosa indica il terzo quartile in una distribuzione? a. La media della distribuzione b. Il valore al di sotto del quale si trova il 75% delle osservazioni c. Il valore più frequente nella distribuzione 175. In un test diagnostico, cosa rappresenta un alto valore di specificità? a. Una riduzione della sensibilità b. Una maggiore probabilità di identificare i falsi positivi c. Una maggiore capacità di identificare correttamente i veri negativi 176. Cosa indica una sensibilità del 100% in una analisi ROC? a. Nessun vero negativo b. Nessun falso negativo c. Nessun falso positivo 177. Come si chiama una distribuzione normale con media 0 e varianza 1? a. Distribuzione normale standardizzata b. Distribuzione normale centrata c. Distribuzione normale unitaria 178. Qual è l'obiettivo principale della PLS-DA? a. Ridurre la varianza dei dati b. Classificare variabili continue c. Separare le classi in base alla variabilità correlata a Y 179. Quale approccio si basa su somiglianze evolutive per analizzare sequenze proteiche? a. Modelli teorici b. Matrici di sostituzione c. Analisi tridimensionale 180. Cosa si intende per Family Wise Error Rate (FWER)? a. La frequenza con cui si osservano errori di tipo II b. La probabilità di ottenere almeno un falso positivo in test multipli c. La media delle varianze delle variabili che determinano i falsi positivi 181. Qual è il principale vantaggio del paired-end rispetto al single-end? a. Maggior quantità di reads b. Informazioni aggiuntive su varianti c. Maggiore costo 182. Qual è l'unità utilizzata per misurare la lunghezza di una sequenza nucleotidica? a. Mbp b. bp c. Kb 183. In una matrice delle adiacenze, cosa rappresenta il valore 0? a. Un link ponderato b. La presenza di un link tra due nodi c. L'assenza di un link tra due nodi 184. Qual è il principale obiettivo della procedura di trimming? a. Eliminare basi di bassa qualità b. Rimuovere reads duplicate c. Sequenziare RNA alternativi 185. Qual è una caratteristica del clustering gerarchico? a. Utilizza sempre matrici di distanza b. Suddivide in gruppi sulla base di definizione c. Raggruppa osservazioni senza membri 186. Qual è il vantaggio principale dell'uso della distanza di correlazione di Pearson nel clustering? a. È sensibile all’ampiezza dei valori b. Ignora l’ampiezza dei valori e si concentra sulle tendenze c. Si applica solo a variabili qualitative 187. Come si chiama il test statistico per confrontare due medie campionarie indipendenti? a. t-test b. ANOVA c. Test t 188. Qual è il vantaggio principale dell'indice FM creato da HISAT2? a. Ottimizzare la ricerca di pattern nel genoma b. Sequenziare trascritti non noti c. Normalizzare reads allineate 189. Qual è il parametro tipico di una rete biologica complessa? a. Numero di varianti SNP b. Coefficiente di clustering c. Lunghezza della sequenza 190. Qual è lo scopo del clustering nei dati biostatistici? a. Aumentare la variabilità tra gruppi b. Ridurre il numero totale di osservazioni c. Riconoscere pattern simili per raggruppare campioni o variabili correlati 191. Cosa indica la presenza di tre asterischi (***) in un grafico? a. p-value < 0,05 b. p-value < 0,01 c. p-value < 0,001 192. Qual è un vantaggio del sequenziamento RNA-Seq rispetto ai microarray? a. Costo inferiore e semplicità b. Maggiore sensibilità e precisione c. Meno dipendenza dal design sperimentale 193. Qual è l'utilità della trasformata di Burrows-Wheeler nella bioinformatica? a. Analizzare l'espressione genica b. Comprimere e indicizzare sequenze genomiche c. Generare reads RNA-Seq 194. Qual è lo scopo della normalizzazione per somma in analisi multivariata? a. Rimuovere le differenze di scala tra i campioni b. Ridurre la varianza tra i campioni c. Uniformare l'unità di misura tra variabili 195. Nella PLS-DA, qual è il significato di Q2Y? a. Capacità predittiva del modello b. Varianza spiegata c. Deviazione standard media 196. Qual è l'obiettivo principale della Cluster Analysis? a. Identificare gruppi di unità statistiche con caratteristiche distintive b. Identificare gruppi di unità statistiche con valori di frequenza simili c. Ridurre il numero di variabili in un dataset 197. Qual è il tipo di RNA che lega i ribosomi durante la traduzione? a. mRNA b. tRNA c. rRNA 198. In che modo l’aumento della numerosità campionaria influisce su un test? a. Aumenta la potenza del test b. Aumenta l’accuratezza del test c. Riduce il p-value 199. Qual è una caratteristica del clustering non gerarchico? a. Utilizza sempre una matrice di distanza b. Suddivide in gruppi sulla base di centroidi c. Raggruppa le osservazioni senza iterazioni 200. Qual è un’applicazione chiave della trascrittomica? a. Determinare la struttura dei ribosomi b. Sequenziare il genoma c. Identificare biomarcatori di malattie 201. Quale grafico di FastQC evidenzia la distribuzione dei valori di qualità lungo le reads? a. Per base sequence quality b. GC content c. Per base sequence content 202. In una distribuzione normale, i valori estremi sono: a. Più comuni dei valori centrali b. Meno frequenti dei valori centrali c. Equamente frequenti rispetto ai valori centrali 203. Qual è il ruolo della standardizzazione in statistica? a. Aumentare il numero di osservazioni b. Permettere il confronto di variabili con scale diverse c. Calcolare direttamente la varianza 204. In un test a due cose, cosa indica il valore critico? a. La sommatoria dei valori osservati diviso la radice quadrata della deviazione standard b. Il valore massimo del p-value che serve per accettare H0 se l’ipotesi alternativa è vera c. Il punto oltre il quale rifiutiamo H0 in entrambe le direzioni 205. Che cos’è un gap in un allineamento di sequenze? a. Una posizione vuota inserita per ottimizzare l’allineamento b. Una sovrapposizione tra due segmenti c. Un errore nella sequenza di dati 206. Qual è una caratteristica di un cluster in Cluster Analysis? a. Gli oggetti nel cluster sono dissimili tra loro b. I cluster sono sempre dello stesso tipo all’interno di un gruppo c. Gli oggetti nel cluster sono simili tra loro 207. Cosa rappresenta la distanza di Manhattan? a. La somma delle distanze al quadrato tra punti delle coordinate b. La somma delle distanze euclidee tra due punti c. La somma delle differenze assolute tra coordinate 208. Quale tipo di grafico FastQC identifica duplicati nei dati di sequenziamento? a. Sequence duplication levels b. Per base quality score c. GC distribution 209. In informatica, la complessità temporale di un algoritmo quantifica: a. Il numero di linee di codice di un programma b. La quantità di memoria richiesta durante l’esecuzione c. Il tempo necessario per eseguire un algoritmo in funzione della dimensione dell’imput 210. Perché il trascrittoma è importante per la biologia? a. Analizza esclusivamente gli esoni b. Riflette l’attività dinamica del genoma c. Mostra solo i geni regolatori 211. Qual è la principale caratteristica delle tecniche chemometriche? a. Possono predire la classificazione in classi sconosciute b. Richiedono esclusivamente dati qualitativi per essere efficaci c. Utilizzano metodi statistici per estrarre informazioni significative da dati complessi 212. Qual è la funzione principale della trascrittomica? a. Studiare l’intero insieme di RNA trascritti in un determinato momento b. Analizzare la struttura del DNA in diverse cellule c. Identificare solo gli mRNA codificanti 213. Qual è il metodo di sequenziamento in grado di raggiungere capacità di 10 Gbp/giorno? a. SOLiD Sequencing b. Illumina Sequencing c. Oxford Nanopore Sequencing 214. Cos’è un Biplot? a. Un plot che combina scores e loading in PCA b. Un grafico per dati categorici c. Una rappresentazione lineare 215. Qual è la differenza tra PCA e PL-SDA? a. La PCA è non supervisionata, mentre la PLS-DA è supervisionata per la classificazione b. Entrambe sono tecniche di riduzione dimensionale non supervisionate c. La PLS-DA è usata solo per dati categorici 216. Che cosa rappresenta la distanza di Minkowski? a. una distanza generalizzata che può essere adattata a distanza euclidea o Manhattan b. una misura della correlazione tra variabili continue c. la distanza tra i valori più estremi di due variabili 217. Qual è la funzione dell’analisi di arricchimento? a. Rimuovere dati non rilevanti da un database b. Identificare categorie funzionali arricchite nei dati c. Creare nuove sequenze da analizzare per arricchire i database secondari 218. Che tipo di operazione rappresenta l’unione nell’algebra relazionale? a. L’unione di tutte le tuple, eliminando eventuali duplicati b. L’unione di tutte le colonne di una tabella c. L’unione di attributi comuni tra due tabelle 219. Qual è la principale differenza tra RAM e ROM? a. La ROM è più veloce della RAM b. La RAM è volatile, mentre la ROM è permanente c. La RAM è usata solo per la memorizzazione temporanea del sistema operativo 220. Qual è una caratteristica distintiva dei microarray rispetto a RNA-Seq? a. Maggior range dinamico b. Alta precisione c. Dipendenza da conoscenze genomiche 221. Che cosa significa PCA in statistica? a. Proporzione delle componenti attese b. Predisposizione alla classificazione avanzata c. Principale component Analysis 222. Che cosa si intende per iterazione in K-means? a. Ogni ciclo di assegnazione a ricalcolo dei centroidi b. L’assegnazione dei dati ai cluster senza ripetizioni c. Il calcolo della media di ciascun cluster 223. Cosa rappresenta l’errore standard della media (ESM)? a. La variabilità all’interno del campione b. La precisione della media campionaria come stima della media della popolazione c. Il valore medio dei campioni 224. In una curva normale, i punti di flesso si trovano: a. Aµ±2 σ b. Aµ±3 σ c. Aµ± σ 225. Quale tipo di grafico è utilizzato per rappresentare variabili quantitative? a. Istogramma b. Box plot c. Diagramma a barre 226. Qual è l’area totale sotto una curva normale? a. 100 b. 1 c. 0,5 227. Qual è la caratteristica distintiva del ncRNA rispetto al mRNA? a. Trasporta aminoacidi ai ribosomi b. Dirige la sintesi proteica c. Non codifica proteine 228. Qual è lo scopo principale di un database secondario? a. Accettare nuove sequenze b. Organizzare dati derivati c. Conservare dati grezzi 229. Qual è la componente principale del genoma? a. DNA b. Proteine c. Lipidi 230. Cos’è la bioinformatica? a. L’archiviazione e analisi di dati biologici su larga scala b. Il sequenziamento delle proteine mediante computer SNP c. La manipolazione diretta dei geni in silico 231. Che cosa rappresenta un biomarcatore in biostatistica? a. Una variabile che descrive l’età media di una popolazione b. Un indicatore misurabile di uno stato o condizione biologica c. Un fattore casuale utilizzato per stimare la variabilità di un campione 232. Che cos’è una sequenza di DNA rappresenta in bp? a. Posizione basale b. Base primaria c. Coppia di basi 233. In OPLS, cosa si intende per componente ortogonale? a. Una variabile correlata a Y b. Una componente non correlata a y c. Un valore medio di X 234. In una rete non orientata, come appare la matrice delle adiacenze? a. Asimmetrica rispetto alla diagonale b. Simmetrica rispetto alla diagonale c. Ponderata con valori diversi da zero 235. Qual è la distribuzione di grado tipica di una rete casuale? a. Distribuzione a legge di potenza b. Distribuzione di Poisson c. Distribuzione normale 236. Perché è importante la normalizzazione nei dati multivariati? a. Rende le variabili confrontabili tra loro b. Aumenta la varianza c. Riduce la media 237. Quale algoritmo è ottimizzato per la mappatura di reads RNA-Seq? a. HISAT2 b. BWA c. CLUSTAL 238. Quale tipo di database contiene dati curati e derivati da analisi? a. Database primari b. Database secondari c. Database di struttura 239. Qual è la funzione principale del database PDB? a. Archivia strutture tridimensionali di proteine e acidi nucleici b. Archivia dati di espressione genica c. Archivia dati di sequenze nucleotidiche 240. Quando si utilizza la tecnica di clustering non supervisionata? a. Quando non si ha conoscenza a priori della struttura dei dati b. Quando si vogliono confrontare due variabili c. Quando i dati sono categorizzati in classi note 241. La differenza interquartile è utile per: a. Valutare la dispersione della metà centrale dei dati b. Misurare la simmetria di una distribuzione c. Rappresentare la tendenza centrale della distribuzione 242. Qual è il ruolo principale della Gene Set Enrichment Analysis (GSEA)? a. Isolare RNA non codificanti b. Identificare gruppi di geni arricchiti c. Determinare la quantità di RNA presente 243. Che cosa rappresenta una rete connessa? a. Una rete in cui esiste un cammino tra ogni coppia di nodi b. Una rete in cui i link sono diretti c. Una rete senza hub 244. Qual è l’importanza del database UniProt? a. Fornisce una collezione di strutture tridimensionali b. Archivia sequenze proteiche e informazioni funzionali c. Archivia varianti di acidi nucleici tra specie 245. In un test t per dati appaiati, H0 suggerisce che: a. C’è un errore del primo tipo nel campionamento b. Non c’è differenza significativa tra i dati c. C’è una differenza significativa tra i dati 246. Qual è l’unità minima di informazione in un computer? a. Bit b. Nibble c. Byte 247. Quale database contiene dati genomici? a. GEO b. Reactome c. GenBank 248. Che cos’è uno Scree Plot? a. Un grafico che mostra la varianza spiegata da ciascun campione b. Un grafico che mostra la varianza spiegata da ciascuna variabile c. Un grafico che mostra la varianza spiegata da ciascuna componente 249. Cosa rappresenta i loadings in un PCA? a. Le classi di appartenenza b. La media dei valori c. Il contributo di ciascuna variabile alla componente principale 250. Qual è il parametro chiave per confrontare geni tra due condizioni? a. Conteggio delle reads b. Log2FC (Fold Change) c. Numero totale di reads 251. Che cos’è una matrice delle adiacenze? a. Una rappresentazione grafica dei nodi e link di una rete b. Una tabella che mostra solo i nodi più importanti c. Una matrice quadrata che rappresenta la presenza o assenza di link tra nodi 252. Qual è lo scopo della statistica inferenziale? a. Descrivere e organizzare i dati b. Trarre conclusioni generali a partire dai dati campionari c. Raccogliere dati attraverso metodi di campionamento 253. Quale componente hardware è responsabile della temporizzazione delle operazioni di un computer? a. ROM b. Clock c. RAM 254. Cosa rappresenta la curva ROC? a. La media dei falsi positivi e veri negativi a diversi cut-off b. Il valore di accuratezza del test tramite la valutazione della AUC c. La relazione tra sensibilità e specificità a diversi cut-off 255. Quale rete biologica è caratterizzata da nodi altamente connessi? a. Rete casuale b. Rete a invarianza di scala c. Rete semplice 256. Cosa rappresenta l’area sotto la curva normale? a. Il 100% delle osservazioni b. Il 50% delle osservazioni c. La somma delle frequenza dei dati 257. In che modo la PCA (Analisi delle Componenti Principali) aiuta nell'analisi dei dati? a. Classifica dati binari b. Riduce le dimensioni mantenendo gran parte dell'informazione c. Aumenta il numero di variabili per analisi dettagliate 258. Un byte è composto da quanti bit? a. 8 b. 16 c. 4 259. Quale valore di α è comunemente utilizzato nei test statistici? a. 0,0001 b. 0,05 c. 0,1 260. Quale tecnica di sequenziamento ha la capacità più alta di lettura al giorno? a. Sequenziamento Sanger b. Oxford Nanopore Sequencing c. 454 Pyrosequencing 261. Cosa indica un test a una coda? a. La possibilità di rifiutare H0 solo da una direzione b. La possibilità di rifiutare H0 in entrambe le direzioni c. La possibilità di ridurre la deviazione standard in una direzione 262. Quale dei seguenti è vero per la varianza campionaria? a. È sempre uguale alla varianza della popolazione b. È sempre più piccola della deviazione standard c. Viene calcolata con una correzione per piccoli campioni 263. Qual è lo scopo della statistica descrittiva? a. Descrivere e sintetizzare i dati osservati b. Verificare la validità di un modello statistico c. Formulare ipotesi sulle popolazioni basate su un campione 264. Che cosa si intende per errore standard della media? a. La media dei valori assoluti delle differenze dalla media b. La variabilità delle medie campionarie rispetto alla media della popolazione c. La media della varianza all'interno del campione 265. Quale tipo di distribuzione presenta due picchi principali? a. Distribuzione unimodale b. Distribuzione asimmetrica c. Distribuzione bimodale 266. Cosa significa un valore AUC di 1 in una curva ROC? a. Il test discrimina casualmente b. Il test è perfetto e non ha errori c. Il test non ha alcun valore informativo 267. Qual è il ruolo della trascrittasi inversa nella preparazione della libreria RNA-Seq? a. Amplificare frammenti di DNA b. Sequenziare direttamente il genoma c. Convertire l'RNA in cDNA 268. Cosa consente di fare un Dot Plot? a. Generare nuove sequenze b. Visualizzare somiglianze tra sequenze c. Identificare errori in sequenze 269. Qual è una caratteristica importante di un biomarcatore valido? a. Deve essere unico per ogni individuo specifico b. Deve cambiare frequentemente nel tempo in modo da creare una matrice confusione valida c. Deve avere alta sensibilità e specificità 270. Quale dei seguenti algoritmi è utilizzato per l'allineamento globale? a. Matcher b. BLAST c. Needleman-Wunsch 271. Qual è la funzione principale di un grafico box plot? a. Rappresentare la media aritmetica dei dati e la loro deviazione standard rispetto al range b. Visualizzare la distribuzione di frequenza di una variabile qualitativa c. Mostrare la distribuzione dei dati e identificare i valori estremi 272. Quale parametro di rete descrive la probabilità che due nodi connessi a un altro nodo siano anch'essi connessi tra loro? a. Betweenness centrality b. Coefficiente di clustering c. Densità della rete 273. Qual è la differenza principale tra la statistica bivariata e quella univariata? a. La statistica univariata richiede sempre una matrice delle distanze b. La statistica bivariata analizza la relazione tra due variabili, mentre la univariata si focalizza su una sola c. La statistica bivariata utilizza solo dati categoriali 274. Qual è una delle applicazioni della Cluster Analysis in biologia? a. Classificare proteine o geni con funzioni simili b. Misurare la media di proteine in campioni c. Rappresentare la deviazione standard dei dati 275. Qual è la funzione principale dei “motif” in una rete? a. Indicare la direzione delle interazioni b. Rappresentare errori nelle connessioni c. Costituire pattern o sottografi con struttura ricorrente associati a funzioni biologiche 276. Qual è l'obiettivo principale dell'RNA-Seq? a. Isolare frammenti genomici specifici b. Sequenziare direttamente le proteine c. Rivelare la quantità di RNA presente in un campione 277. Quale tecnologia ha reso il sequenziamento del DNA più veloce ed economico? a. Ion Torrent b. Illumina Sequencing c. Maxam-Gilbert 278. Quale formato di file è comunemente usato per rappresentare sequenze di nucleotidi o proteine? a. VCF b. GFF c. FASTA 279. Quale test è adatto per confrontare le medie di tre o più gruppi? a. Test Z b. ANOVA c. Test chi-quadro 280. Qual è la potenza di un test? a. La probabilità di commettere un errore del II tipo b. La probabilità di rifiutare H0 quando H1 è vera c. La probabilità di accettare H0 281. Quale intervallo include circa il 95% dei dati in una distribuzione normale? a. μ ± 2σ b. μ ± σ c. μ ± 3σ 282. Cos'è una matrice di sostituzione? a. Un insieme di algoritmi per allineare sequenze b. Un sistema di archiviazione di sequenze proteiche c. Una tabella che assegna punteggi alle sostituzioni di residui 283. In statistica inferenziale, cosa rappresenta l'ipotesi nulla? a. Un'ipotesi di distribuzione dei valori attesi entro un determinato intervallo di deviazione standard b. Un'ipotesi che non prevede alcuna differenza o effetto c. Un'ipotesi che afferma l'esistenza di un effetto 284. Come reagiscono le reti a invarianza di scala alla perdita casuale di un nodo? a. Collassano immediatamente b. Perdono i nodi principali c. Mantengono la loro struttura e funzionalità 285. Quale parametro influenza la forma della curva in una distribuzione normale? a. La media aritmetica b. La moda c. La deviazione standard 286. Qual è la funzione principale dei database primari in bioinformatica? a. Fornire strumenti per l'analisi statistica dei dati biologici b. Archiviare dati sperimentali come sequenze nucleotidiche e proteiche c. Creare modelli di strutture proteiche basate sui dati 287. Che cosa misura una matrice PAM? a. La distanza genetica tra due specie evolutivamente vicine b. L'espressione genica nelle popolazioni evolute nello stesso clade c. La probabilità di sostituzione di amminoacidi nel tempo evolutivo 288. Chi ha sequenziato per primo una proteina? a. Kary Mullis b. Allan Maxam c. Frederick Sanger 289. Qual è la caratteristica principale della distribuzione normale standardizzata? a. È sempre simmetrica rispetto all'asse delle y b. Ha media pari a 0 e deviazione standard pari a 1 c. Ha media pari a 1 e deviazione standard pari a 0 290. Quando si usa il coefficiente di correlazione di Pearson? a. Per analizzare variabili qualitative percentualizzate b. Per variabili quantitative con relazione lineare c. Per misurare la varianza di variabili qualitative continue 291. In un database relazionale, cosa rappresenta la chiave primaria? a. Un attributo che consente di unire tabelle diverse b. Un attributo che può avere valori duplicati c. Un attributo che identifica univocamente ogni record 292. Quando è appropriato utilizzare l'ANOVA? a. Per confrontare due medie accoppiate b. Per confrontare più di due medie indipendenti c. Per confrontare solo due medie 293. Quale processo aiuta a ridurre il bias nel design sperimentale? a. Uso di adattatori b. Sequenziamento paired-end c. Randomizzazione 294. Qual è il parametro chiave per normalizzare i dati nella matrice di conteggio? a. Lunghezza del genoma b. Lunghezza degli esoni c. Numero totale di geni 295. Qual è il principale vantaggio dell'allineamento locale rispetto a quello globale? a. Evita l’uso di gap b. Evidenzia regioni conservate c. Analizza sequenze complete 296. Qual è l'obiettivo della stratificazione in un campionamento? a. Ridurre la variabilità campionaria dividendo la popolazione in gruppi omogenei b. Aumentare la variabilità del campione c. Scegliere campioni solo dalle aree con più alta densità di popolazione 297. Quale delle seguenti tecniche è una tecnica di classificazione non supervisionata? a. PCA b. LDA c. PLS-DA 298. Quale indice statico divide un dataset in quattro parti uguali? a. Quartili b. Media c. Varianza 299. Qual è la funzione della tabella delle occorrenze creata da Bowtie? a. Normalizzare la matrice di conteggio delle occorrenze b. Annotare varianti genomiche che occorre correggere c. Fornire l'indice delle occorrenze di ogni carattere 300. Cos’è un algoritmo? a. Un database relazionale b. Una funzione matematica complessa c. Un insieme finito di istruzioni chiare e non ambigue per risolvere un problema 301. Qual è l'obiettivo della strategia di clustering gerarchico top-down? a. Unire le osservazioni in gruppi grandi b. Calcolare la media delle osservazioni in ogni gruppo c. Suddividere il dataset iniziale in gruppi più piccoli 302. Qual è lo scopo dell'algoritmo di Needleman-Wunsch? a. Allineare globalmente due sequenze b. Identificare domini ripetuti in un problema c. Valutare il polimorfismo genetico 303. Qual è il compito principale della bioinformatica? a. Analizzare dati biologici b. Disegnare proteine c. Simulare cellule 304. Quale processo determina la struttura tridimensionale del ribosoma? a. Trascrizione di ncRNA b. Sequenziamento del trascrittoma c. Assemblaggio di rRNA e proteine 305. Come si calcola un valore in una distribuzione normale usando Z? 306. In un test diagnostico, cosa rappresenta il cut-off? a. Un valore che separa i falsi positivi dai veri negativi b. Un valore medio usato per standardizzare i risultati c. Il punto che separa i veri positivi dai veri negativi 307. Qual è l'obiettivo dell'analisi multivariata? a. Descrivere relazioni complesse tra molte variabili b. Misurare la frequenza di una variabile c. Rappresentare solo una variabile in un grafico 308. Qual è un requisito essenziale per garantire robustezza nei risultati? a. Sequenziamento casuale b. Numero limitato di campioni c. Replicati biologici 309. Che cosa misura il coefficiente di correlazione di Manhattan (MCC)? a. L’accuratezza del modello di classificazione b. La variabilità dei falsi negativi c. La capacità di classificare correttamente i veri positivi e negativi 310. Quale componente è essenziale per la funzionalità del ribosoma? a. mRNA b. rRNA c. tRNA 311. Qual è la probabilità che due individui della stessa specie abbiano differenze genetiche? a. 2% b. 0,1% c. 1% 312. Quale metodo di campionamento non garantisce una selezione casuale? a. Campionamento per randomizzazione semplice b. Campionamento di convenienza c. Campionamento stratificato 313. Quale rete è rappresentata da connessioni orientate e ponderate? a. Rete semplice b. Rete biologica c. Rete casuale 314. Quale indice viene usato per esprimere la precisione di una misura? a. Mediana b. Media c. Deviazione standard 315. Quale tra questi è un parametro campionario che stima la deviazione della popolazione? a. La deviazione standard campionaria b. La media c. La mediana 316. Cos’è una matrice delle distanze? a. Una rappresentazione delle distanze tra tutte le coppie di oggetti b. Una rappresentazione delle correlazioni tra tutte le coppie di oggetti c. Una rappresentazione delle regressioni tra tutte le coppie di oggetti 317. Quale significato ha un p-value maggiore di 0,05 in un test ANOVA? a. Non ci sono differenze statisticamente significative tra i gruppi b. Almeno uno dei gruppi è significativamente diverso dagli altri c. Il test è sempre significativo 318. Quale funzione principale svolge l'algoritmo BLAT? a. Allineamento globale b. Mappatura genomica c. Analisi filogenetica 319. Quale tecnica viene utilizzata da Bowtie per ridurre il consumo di memoria? a. Algoritmi di clustering indicizzati b. Normalizzazione delle reads nella tabella delle occorrenze c. Combinazione di compressione e indicizzazione 320. Quale dei seguenti è un linguaggio di basso livello? a. Java b. Assembly c. Python 321. Per un intervallo di confidenza del 95%, quale valore di Z si utilizza? a. 2,58 b. 1,96 c. 3,29 322. Quale metodo identifica geni ortologhi tra specie? a. Multi-allineamento b. Analisi filogenetica c. BLAST 323. Qual è il risultato principale dell'allineamento con Bowtie? a. Reads mappate sul genoma di riferimento b. Sequenze non codificanti annotate c. Profili di espressione genica 324. In una Cluster Analysis gerarchica, qual è il risultato finale della suddivisione del dataset? a. Un grafico di dispersione b. Una serie di medie c. Un dendrogramma 325. Qual è la funzione principale della memoria RAM in un computer? a. Eseguire operazioni di input/output b. Memorizzare permanentemente i dati c. Memorizzare temporaneamente i dati da elaborare 326. Qual è l'effetto della trasformazione logaritmica su variabili con alta varianza? a. Elimina completamente la varianza dovuta al caso, mantenendo quella effettiva b. Da maggiore peso alla varianza delle variabili indipendenti c. Riduce l'effetto di valori estremi 327. Quale tipo di mutazione è un cambiamento puntuale non silente? a. Inversione b. Transizione c. Delezione 328. Qual è la relazione tra sensibilità e specificità in una curva ROC? a. Un aumento della sensibilità comporta una diminuzione della specificità, e viceversa b. Non esiste una relazione diretta tra le due c. La sensibilità è sempre il doppio della specificità 329. Cos'è una relazione eteroschedastica? a. Quando la varianza tra le variabili è omogenea b. Quando la media delle variabili è uguale c. Quando esistono sotto-popolazioni con varianze diverse 330. Cos'è il Fourth Paradigm nella scienza? a. L'introduzione del sequenziamento genico b. Una metodologia scientifica guidata dai dati c. L'uso di esperimenti per validare modelli teorici 331. Quale parametro definisce la dispersione in una distribuzione normale? a. Moda b. μ c. σ 332. Qual è il ruolo del cut-off in una curva ROC? a. Stabilire il valore medio delle risposte positive b. Eliminare i valori estremi dal dataset c. Determinare il punto ottimale per massimizzare la sensibilità del test 333. Qual è il significato di un test a due code? a. Il test verifica differenze solo in una direzione b. Il test non ha una regione di rifiuto definita c. I test verifica differenze in entrambe le direzioni 334. Quale intervallo rappresenta il 99% dei dato di una distribuzione normale? a. μ ± 2,58σ b. μ ± σ c. μ ± 3σ 335. Nella PCA, le componenti principali sono: a. Combinazioni lineari delle variabili originali b. Variabili centrate sulla media c. Variabili originali non correlate 336. Qual è il motivo principale per utilizzare RNA-Seq? a. Analizzare proteine b. Identificare trascritti rari c. Misurare abbondanza di ncRNA 337. In un modello PLS, cosa rappresentano le componenti latenti? a. Valori di varianza casuali ortogonali alle componenti principali b. Nuove variabili che riassumono la variazione essenziale c. Variabili predittive originali 338. Qual è la differenza tra un metodo di clustering gerarchico e non gerarchico? a. Il metodo non gerarchico può generare un numero di cluster variabile durante l'analisi b. Nel metodo gerarchico i cluster sono stabiliti a priori e non possono essere modificati c. Il metodo gerarchico richiede un numero fisso di cluster 339. Cos'è un polimorfismo? a. Un errore di trascrizione durante la replicazione del DNA b. Una variazione genetica presente in almeno 1% della popolazione c. Una mutazione che causa la poliomielite 340. Che cosa rappresenta la frequenza assoluta di una modalità? a. La proporzione di una modalità rispetto al totale b. Il numero di volte che una modalità si presenta in un dataset c. La somma delle altre frequenze 341. Cos'è un intervallo di confidenza? a. Un range in cui si trova la media campionaria b. Un intervallo entro cui la variabile è sicuramente presente c. Un intervallo che contiene il valore atteso della popolazione con un certo livello di sicurezza 342. Quale tecnica è usata per analizzare l'evoluzione molecolare? a. Analisi filogenetica b. Modifica delle sequenze nucleotidiche c. Test di mutagenesi sperimentale 343. A cosa serve la trasformazione in Z in una distribuzione normale? a. Per calcolare la deviazione media b. Per standardizzare la distribuzione c. Per ridurre il numero di variabili 344. Che cosa misura l’ANOVA a una via? a. La probabilità di un evento in un singolo gruppo b. Le differenze tra le medie di tre o più gruppi c. La relazione tra due variabili continue 345. Che cos'è la filogenesi molecolare? a. Lo studio delle relazioni evolutive tra geni e proteine b. Una tecnica per clonare sequenze di DNA c. L'analisi di mutazioni proteiche in laboratorio 346. Quale caratteristica distingue una rete ponderata da una non ponderata? a. La presenza di link con direzioni b. l numero di nodi presenti nella rete c. La forza dell'interazione rappresentata dai link 347. Qual è il significato di "sensibilità" in un test? a. La capacità di identificare tutti i veri negativi b. La capacità di rilevare i veri positivi c. La frequenza dei falsi negativi 348. Quale parametro viene utilizzato per identificare geni espressi in modo significativo? a. FDR b. p-value c. Log2FC 349. Qual è il metodo principale per identificare polimorfismi nel genoma? a. Analisi filogenetica b. Allineamento c. Sequenziamento 350. Qual è il ruolo principale del trimming nel workflow RNA-Seq? a. Amplificare frammenti genomici b. Rimuovere adattatori e basi di bassa qualità c. Sequenziare RNA non codificanti 351. Quale valore assume il coefficiente di correlazione in una perfetta correlazione negativa? a. 0 b. 1 c. -1 352. Qual è lo scopo della Cross-Validation in PLS-DA? a. Valutare la capacità predittiva del modello b. Calcolare le variabili qualitative c. Misurare la media di variabili continue 353. Qual è l'algoritmo più utilizzato per identificare allineamenti locali? a. BLAST b. ClustalW c. Needleman-Wunsch 354. Qual è l'algoritmo di allineamento utilizzato per trovare somiglianze locali? a. Smith-Waterman b. Matcher c. Stretcher 355. Qual è la funzione principale delle reti biologiche? a. Calcolare la probabilità di mutazioni genetiche b. Misurare la velocità di crescita delle cellule c. Analizzare le interazioni binarie tra entità biologiche 356. Cos'è una mutazione puntiforme accettata (PAM)? a. Una mutazione che è accettata dalla selezione naturale b. Una mutazione casuale che causa malattie genetiche c. Una mutazione che si ripete in una popolazione specifica 357. In informatica, cosa rappresenta la complessità spaziale di un algoritmo? a. Il tempo di esecuzione in funzione della dimensione dell'input b. La quantità di memoria RAM utilizzata durante l'esecuzione c. l numero di istruzioni eseguite durante l'esecuzione 358. Qual è il significato di un clustering nei dendrogrammi? a. Mostrare le differenze tra tutti i campioni senza correlazione b. Ordinare i dati in base alla loro frequenza c. Raggruppare variabili o campioni con caratteristiche simili 359. Qual è la funzione dell’errore standard della media? a. Calcola la media delle deviazioni standard della mediana b. Misura la dispersione dei dati rispetto alla media del campione c. Indica la precisione della media campionaria come stima della media della popolazione 360. Qual è il significato della sensibilità di un biomarcatore? a. La capacità di identificare correttamente i veri positivi b. La resistenza del biomarcatore ai cambiamenti ambientali c. La capacità di identificare correttamente i casi negativi 361. In OPLS-DA, cosa significa "separazione ortogonale"? a. Separare la variabilità utile dalla variabilità di disturbo b. Eliminare le variabili non correlate c. Calcolare la media dei dati 362. Qual è il principale obiettivo del trimming delle reads? a. Normalizzare la matrice di conteggio b. Migliorare la qualità dei dati c. Rimuovere RNA non codificanti 363. Quale modello descrive reti con pochi nodi altamente connessi e molti nodi poco connessi? a. Rete casuale b. Rete a invarianza di scala c. Rete gerarchica 364. In Cluster Analysis, cosa si intende per separazione? a. La distanza media tra gli elementi del cluster b. La distanza tra elementi appartenenti a cluster diversi c. La frequenza delle variabili nel cluster 365. Che cos'è una sequenza di DNA rappresentata in bp? a. Base Primaria b. Coppie di basi c. Posizione Basale 366. Qual è lo scopo di un dendrogramma in un'analisi di cluster? a. Rappresentare graficamente le relazioni gerarchiche tra cluster b. Mostrare la distribuzione dei dati c. Identificare i valori anomali nel dataset 367. Qual è il modello teorico che descrive reti con cammini brevi tra nodi? a. Albero gerarchico b. Scala libera c. Mondo piccolo 368. Che cosa rappresenta la regressione lineare? a. Un test per misurare la probabilità di eventi binari b. Una misura della dispersione dei dati intorno alla media c. Un modello statistico che descrive la relazione lineare tra una variabile dipendente e una indipendente 369. Che cosa rappresenta un valore di R² vicino a 1? a. Il modello spiega bene la variabilità dei dati b. Il modello non spiega la variabilità dei dati c. Il modello è casuale 370. Quale tecnica chemometrica viene utilizzata per ridurre il numero di variabili mantenendo la massima varianza possibile? a. PLS-DA b. OPLS c. PCA 371. Quale delle seguenti tecniche di sequenziamento è la più recente? a. Maxam-Gilbert Sequencing b. Oxford Nanopore Sequencing c. Sanger Sequencing 372. Qual è un vantaggio del sequenziamento paired-end? a. Maggior velocità b. Rilevamento limitato di varianti c. Informazioni su trascritti complessi 373. In quale tipo di memoria viene solitamente caricato il firmware? a. RAM b. ROM c. Cache 374. Che cosa indica un autovalore (eigenvalue) in PCA? a. L a somma delle medie dei dati b. La quantità di varianza spiegata da una componente principale c. La variabilità totale di una singola variabile 375. Cos'è la distribuzione normale? a. Una distribuzione continua con forma a campana b. Una distribuzione di variabili discrete c. Una distribuzione di frequenze categoriali 376. Perché si utilizza la PLS in bioinformatica? a. Per aumentare la dimensionalità dei dati b. Per analizzare relazioni complesse tra X e Y in dataset di alta dimensionalità c. Per analizzare relazioni complesse tra X e Y in dataset con alta variabilità 377. Qual è lo scopo di un grafico a dispersione? a. Rappresentare la relazione tra due variabili quantitative b. Confrontare le frequenze di variabili categoriche c. Rappresentare la relazione tra due variabili qualitative continue 378. Qual è il significato di distribuzione di grado in una rete? a. Rappresenta la probabilità che un nodo abbia un determinato grado b. Calcola la media dei nodi di una rete c. Misura la forza delle connessioni in una rete ponderata 379. Quale parametro guida l'introduzione di gap durante un allineamento? a. Gap penalty b. Match score c. Similarity score 380. In una distribuzione normale, cosa indica la media? a. Il valore più frequente nel dataset b. Il valore centrale che divide la distribuzione in due metà uguali c. La somma delle deviazioni standard 381. Cosa rappresenta il parametro σ in una distribuzione normale? a. La mediana b. La deviazione standard c. Il valore massimo della curva 382. Quale centro di ricerca è noto per la gestione di dati bioinformatici? a. MIT b. EMBL-EBI c. Università di Harvard 383. Quale fase è cruciale per garantire la qualità dei dati RNA-Seq? a. Assemblaggio de novo b. Sequenziamento dei frammenti c. Controllo qualità delle reads 384. In una distribuzione, il terzo quartile rappresenta: a. Il valore sotto il quale si trova il 75% dei dati b. Il valore centrale c. l valore oltre il quale si trova il 75% dei dati 385. Quale dei seguenti è un esempio di variabile qualitativa? a. Il colore degli occhi b. Il peso di un oggetto c. L'altezza di una persona 386. Che cosa rappresenta la varianza in un campione? a. La dispersione dei dati attorno alla media b. La frequenza di un evento c. La media dei valori osservati 387. Qual è la caratteristica principale della moda? a. È la media dei valori più estremi b. E sempre uguale alla mediana c. È il valore che si presenta con maggiore frequenza in un dataset 388. Quale ruolo hanno i polimorfismi nella diagnosi genetica? a. Forniscono informazioni sulla struttura tridimensionale del DNA b. Aiutano a identificare il rischio di malattie genetiche c. Permettono di calcolare la distanza evolutiva tra organismi 389. Qual è un importante vantaggio del metodo GSEA? a. Analizza esclusivamente il trascrittoma b. Concentra l'analisi su gruppi di geni predefiniti c. Identifica singoli geni regolatori 390. Cosa misura la covarianza tra due variabili? a. La media delle variabili b. La somma dei valori delle due variabili c. La variabilità congiunta tra le variabili 391. Qual è l'importanza dei replicati tecnici in un esperimento RNA-Seq? a. Controllare errori analitici b. Normalizzare il trascrittoma c. Migliorare il conteggio totale 392. Quando si utilizza la normalizzazione per variabili? a. Per ridurre il numero di variabili b. Quando tutte le variabili hanno la stessa unità di misura ma sono affette da bias c. Per rendere le variabili comparabili in presenza di scale diverse 393. Qual è la differenza tra un diagramma a barre e un istogramma? a. Un diagramma a barre rappresenta variabili qualitative, mentre un istogramma variabili quantitative b. Un istogramma rappresenta frequenze assolute, mentre un diagramma a barre rappresenta solo valori medi c. Non vi è alcuna differenza sostanziale 394. Qual è il ruolo principale degli snRNA? a. Modulare lo splicing b. Tradurre RNA in proteine c. Legare ribosomi 395. Qual è lo scopo della centratura dei dati in PCA? a. Ridurre il numero di variabili nel dataset b. Aumentare la deviazione standard delle variabili c. Posizionare il centroide dei dati all'origine, facilitando l'interpretazione della variabilità 396. Un istogramma è usato per rappresentare: a. La distribuzione di frequenze di variabili quantitative b. La relazione tra due variabili c. La frequenza di una variabile qualitativa 397. Cos'è il coefficiente di determinazione R2 ? a. Il prodotto delle deviazioni standard delle variabili b. Una misura della media della varianza c. La proporzione della varianza nella variabile dipendente spiegata dal modello di regressione 398. Quale algoritmo è progettato per analizzare cammini minimi in reti biologiche? a. Dijkstra b. Bellman-Ford c. Floyd-Warshall 399. Qual è lo scopo della normalizzazione in Cluster Analysis? a. Aumentare la varianza dei dati in modo da evidenziare meglio le differenze tra gruppi b. Rendere comparabili variabili con unità di misura diverse c. Ridurre il numero di variabili nel dataset 400. Quale campo si concentra sull'integrazione di dati multi-omici? a. Evoluzione molecolare b. Filogenesi c. Biologia dei sistemi 401. Quale risorsa utilizza dati di espressione genica per generare modelli funzionali? a. GEO b. GenBank c. ArrayExpress 402. Perché il trimming è essenziale prima della mappatura delle reads? a. Migliora la qualità dell'allineamento b. Rimuove RNA non codificanti c. Riduce il numero di geni analizzati 403. Cosa rappresenta il valore massimo della curva normale? a. Il punto di massima densità di probabilità b. La moda della distribuzione c. La mediana della distribuzione 404. Qual è la funzione della distribuzione t di Student? a. Calcolare medie per grandi campioni b. Tenere conto della variabilità della deviazione standard nota della popolazione c. Tenere conto della variabilità della deviazione standard campionaria 405. Qual è la probabilità cumulativa associata al valore Z = 1,96? a. 0,68 b. 0,99 c. 0,95 406. Quale distanza dà maggiore peso alle differenze relative tra valori piccoli? a. Distanza Euclidea b. Distanza di Manhattan c. Distanza di Canberra 407. A cosa serve la tecnica OPLS? a. Aumentare il numero di variabili b. Calcolare la media delle variabili c. Separare la variabilità correlata da quella non correlata a Y 408. Che cosa rappresenta il primo quartile di un dataset? a. La media dei valori del dataset b. Il valore al di sotto del quale si trova il 25% delle osservazioni c. Il valore al di sotto del quale si trova il 75% delle osservazioni 409. Qual è lo scopo della Cluster Analysis in statistica? a. Misurare la correlazione tra variabili indipendenti b. Raggruppare oggetti simili in assenza di conoscenza a priori c. Classificare oggetti in base a criteri noti 410. Cosa rappresenta il valore critico in un test statistico? a. l valore minimo per accettare H0 b. l valore massimo per rifiutare H0 c. Il valore che separa la regione di accettazione dalla regione di rifiuto 411. Che cosa rappresenta l'intervallo di confidenza al 95%? a. La probabilità che la media campionaria sia esattamente uguale alla media della popolazione b. L'intervallo entro cui ci si aspetta che la media della popolazione cada con una confidenza del 95% c. La probabilità che la media campionaria sia all'interno di una deviazione standard dalla media 412. In una rete a invarianza di scala, quale effetto può avere la perdita di un hub? a. Può causare il collasso della rete b. Aumenta la densità della rete c. Riduce la connettività della rete in modo insignificante 413. Quando si usa la PCA? a. Per esplorare dataset binari di cui non si conosce la complessità b. Per classificare variabili qualitative in dataset multidimensionali c. Per esplorare pattern nascosti in dataset complessi 414. In una matrice delle adiacenze, cosa rappresenta il valore 0? a. La presenza di un link tra due nodi b. Un link ponderato c. L’assenza di un link tra due nodi 415. Cos'è la bioinformatica nel contesto della biologia molecolare a. La creazione di database di immagini cellulari b. Un insieme di esperimenti per alterare il DNA c. L'archiviazione e analisi di dati genetici e molecolari 416. Quale database fornisce informazioni sui microRNA? a. TRANSFAC b. Reactome c. miRBase 417. Qual è lo scopo della correzione di Bessel? a. Aumentare la deviazione standard per campioni di piccole dimensioni b. Calcolare il p-value c. Evitare la sottostima della varianza campionaria 418. Che cosa rappresenta una matrice delle distanze? a. La media delle distanze tra le osservazioni b. La somma delle varianze di tutte le variabili c. La distanza numerica tra coppie di punti o campioni in un dataset 419. Che cosa rappresenta una ROC multivariata in un modello predittivo? a. La capacità di predire un solo outcome con una singola variabile b. La valutazione della capacità discriminante di più variabili combinate in un unico modello c. Una curva che mostra solo il tasso di veri positivi 420. Quale programma è progettato per analizzare trascrizioni e identificare geni? a. Needleman-Wunsch b. CLUSTAL c. SPLIGN 421. Che cosa rappresenta un istogramma? a. La media di un campione di dati b. La relazione tra due variabili c. La distribuzione di frequenza di variabili quantitative 422. Quando si considera che un AUC sia indicativo di una buona capacità discriminante? a. Quando è vicino a 1 b. Quando è vicino a 0 c. Quando è pari a 0,5 423. Quale strategia di clustering utilizza l'algoritmo K-means? a. Random sampling b. Top-down c. Bottom-up 424. Qual è la differenza tra quartile e percentile? a. I quartili dividono i dati in quattro parti uguali, mentre i percentili li dividono in 100 parti uguali b. I quartili sono utilizzati solo in statistica inferenziale c. I percentili sono sempre multipli dei quartili 425. Qual è il ruolo del database UniProt? a. Conservare sequenze proteiche b. Analizzare strutture tridimensionali c. Sequenziare proteine 426. Quale approccio è utilizzato per identificare pattern ricorrenti in reti biologiche? a. Cross-validation b. Motif analysis c. Data folding 427. Che cosa rappresenta un outlier in una distribuzione di dati? a. Un valore centrale della distribuzione b. La media di tutti i valori c. Un valore che si discosta notevolmente dalla maggior parte degli altri valori 428. Quale database è specifico per le espressioni geniche? a. UniProt b. GenBank c. GEO (Gene Expression Omnibus) 429. Quando si usa un grafico a barre raggruppate? a. Per mostrare la tendenza temporale di una variabile b. Per confrontare valori di diverse categorie in più gruppi c. Per visualizzare la distribuzione di frequenza di variabili continue 430. Cosa rappresenta un box plot? a. La frequenza delle modalità di una variabile qualitativa b. La distribuzione dei valori con la mediana e i quartili c. Una serie di barre che mostrano errori di misura 431. In un'analisi di regressione lineare, cosa indica il coefficiente di determinazione (R2)? a. La media della variabile dipendente b. La frequenza dei falsi positivi c. La proporzione di varianza spiegata dal modello 432. Qual è la funzione principale del sistema operativo? a. Eseguire calcoli complessi b. Gestire le risorse hardware e software c. Memorizzare dati in modo permanente 433. A cosa serve la PLS-DA in analisi di classificazione? a. Misurare varianze separate b. Distinguere campioni tra classi note c. Calcolare la frequenza dei dati 434. Qual è il principale database utilizzato per raccogliere sequenze proteiche? a. GenBank b. UniProt c. PubMed 435. Quale parametro è utilizzato per correggere p-value in test multipli? a. FDR b. Log2FC c. Conteggio normalizzato 436. Qual è il formato di file che combina sequenze e punteggi di qualità? a. BED b. SAM c. FASTQ 437. Qual è una caratteristica della distanza di Canberra? a. È insensibile ai grandi cambiamenti nei dati anche quando i valori assoluti sono piccoli b. È sempre inferiore alla distanza di Manhattan, pertanto è più sensibile c. Dà maggiore peso alle differenze relative quando i valori assoluti sono piccoli 438. Qual è l’obiettivo della normalizzazione TPM? a. Garantire l’accuratezza del p-value b. Sequenziare RNA non codificante c. Confrontare trascritti tra esperimenti 439. Quando si usa un t-test a una coda? a. Quando si confrontano più di due gruppi b. Quando non si ha nessuna ipotesi specifica c. Quando si ha un’ipotesi direzionali su un effetto 440. Che cosa si intende per varianza spiegata in PCA? a. La proporzione di variabilità totale rappresentata da una componente principale b. La differenza tra la media e la mediana c. La misura della correlazione tra due variabili 441. Che cosa rappresenta la retta di regressione in un grafico? a. La linea che minimizza la distanza quadrata dai punti b. La frequenza relativa del campione c. La media dei valori osservati 442. Quando si usa la distanza di correlazione? a. Per valutare meglio le differenze relative tra variabili b. Quando i dati sono normalizzati c. Quando si vuole ignorare l’ampiezza dei valori assoluti 443. Che cos’è una matrice in IT? a. Un singolo valore non modificabile b. Un insieme di valori organizzati in righe e colonne c. Un vettore di valori numerici organizzati in righe e colonne 444. Qual è la principale piattaforma di ricerca sviluppata da NCBI? a. Entrez b. PubMed c. Protein Data Bank 445. Che cosa si intende per modello supervisionato? a. Un modello che utilizza dati con etichette per prevedere categorie b. Un modello che riduce la dimensionalità dei dati c. Un modello che esplora la struttura dei dati senza classi note 446. Che cosa rappresenta un campione stratificato? a. Un campione scelto solo in base alla convenienza b. Un campione diviso in gruppi omogenei basati su una caratteristica rilevante c. Un campione casuale semplice senza divisioni 447. Che cos’è il grado di un nodo in una rete? a. Il numero di link direttamente connessi a quel nodo b. La probabilità di essere connesso ad un altro nodo c. La distanza del nodo dal centro della rete 448. Quale componente di Bowtie gestisce gli allineamenti multipli? a. Generatore di reads casuali b. Algoritmo di backtracking c. Normalizzatore di conteggi 449. Qual è il significato di un coefficiente di correlazione pari a 0? a. Esiste una correlazione perfetta b. Esiste una correlazione negativa c. Non c’è correlazione lineare 450. Che cosa indica la colorazione in una heatmap? a. La variazione dei valori di espressione tra variabili e campioni b. La posizione esatta delle osservazioni c. La deviazione standard di ogni variabile 451. Qual è lo scopo della Cluster Analysis nel data mining? a. Aumentare la varianza delle variabili b. Eliminare le variabili senza correlazione c. Identificare pattern o raggruppamenti nei dati senza etichette 452. Quale tra i seguenti è un indice di posizione centrale? a. Deviazione standard b. Varianza c. Media 453. La simmetria in una distribuzione significa che: a. Media, mediana e moda sono uguali b. Non ci sono valori estremi c. La distribuzione è divisa in quartili 454. Che cosa si intende per scarto medio in statistica? a. La media delle deviazioni assolute dalla media b. La media aritmetica dei valori di un campione c. La differenza tra il valore massimo e minimo 455. Qual è il metodo più usato per allineare sequenze di proteine evolutivamente divergenti? a. BLOSUM62 b. PAM80 c. PAM1 456. Qual è il nome del database di proteine che contiene informazioni sulla struttura 3D delle macromolecole? a. UniProt b. GenBank c. PDB 457. Quando è utile utilizzare la trasformazione logaritmica in un dataset? a. Quando si confrontano variabili qualitative b. Quando tutte le variabili sono misurate sulla stessa scala c. Quando si vuole ridurre l’impatto delle differenze elevate tra i valori 458. Cosa misura l'accuratezza di un test diagnostico? a. La frequenza di falsi positivi b. La proporzione di veri positivi e veri negativi c. La proporzione dei veri positivi e rispetto ai falsi positivi 459. In una PLS-DA, cosa rappresenta un VIP score superiore a 1? a. Che la variabile è irrilevante per il modello b. Che la variabile è meno influente c. Che la variabile è importante per la separazione delle classi 460. In statistica inferenziale, cosa rappresenta un intervallo di confidenza? a. L'intervallo entro cui si trova un parametro della popolazione con una certa probabilità b. La media del campione rispetto alla popolazione c. La somma delle varianze di tutte le osservazioni 461. Perché è utile comprendere il processo di standardizzazione? a. Per calcolare facilmente la media b. Per eliminare i valori negativi c. Per interpretare i risultati delle analisi statistiche 462. Qual è lo scopo principale delle tecniche di clustering? a. Misurare la correlazione tra variabili b. Raggruppare le unità in gruppi omogenei c. Rappresentare una variabile su un asse cartesiano 463. Qual è il nome del fenomeno che rende una mutazione stabile nella popolazione? a. Traslocazione b. Fissazione c. Polimorfismo 464. In una distribuzione normale, circa il 68% delle osservazioni si trova: a. Tra µ ± 2 σ b. Tra µ ± 3 σ c. Tra µ ± 1 σ 465. Qual è il principale obiettivo della matrice di conteggio? a. Misurare i livelli di espressione genica b. Sequenziare RNA totale c. Rilevare mutazioni 466. Cos'è il Volcano Plot? a. Un grafico di dispersione per identificare cambiamenti significativi tra più di due gruppi b. Un grafico di dispersione per identificare cambiamenti significativi tra due gruppi c. Un grafico di dispersione per identificare cambiamenti significativi tra almeno due gruppi 467. Cos'è una variabile quantitativa continua? a. Una variabile rappresentabile da qualsiasi numero all'interno di un intervallo b. Una variabile che descrive attributi come colore o forma c. Una variabile che assume continuamente valori interi positivi oppure negativi in un certo intervallo 468. In una distribuzione normale, circa il 68% delle osservazioni si trova: a. Tra µ ± 2 σ b. Tra µ ± 3 σ c. Tra µ ± σ 469. In un’analisi multivariata, qual è il ruolo della normalizzazione? a. Rendere comparabili variabili con metriche logaritmiche b. Rendere comparabili campioni di gruppi diversi c. Rendere comparabili variabili con unità diverse 470. Quale misura di distanza si basa sul teorema di Pitagora? a. Distanza Euclidea b. Distanza di Minkowski c. Distanza di Canberra 471. Qual è l'obiettivo della statistica bivariata? a. Studiare la relazione tra variabili qualitative e quantitative b. Studiare la relazione tra una coppia di variabili c. Determinare la media di una variabile 472. Che cosa rappresenta l'analisi PLS-DA multivariata? a. Un metodo di riduzione della dimensionalità senza classificazione b. Un test diagnostico non supervisionato c. Una tecnica supervisionata per la classificazione basata su più variabili predittive 473. Quale strumento è utilizzato per identificare regioni codificanti in sequenze nucleotidiche? a. ClustalW b. BLASTX c. TBLASTN 474. Quale test è utilizzato per dati accoppiati? a. t-test per dati appaiati b. Test chi-quadro c. ANOVA 475. Cos'è un clade nell'analisi filogenetica? a. Un gruppo di organismi con un antenato comune b. Un gruppo di organismi correlati ma senza un antenato comune c. Un parametro di clustering 476. Cosa indica il parametro sigma (σ) in una distribuzione normale? a. Il punto in cui la distribuzione raggiunge il suo massimo b. La dispersione dei valori attorno alla media c. La media dei valori della distribuzione 477. In un dendrogramma, cosa indica la lunghezza del ramo? a. La distanza tra cluster b. Il valore medio c. La frequenza delle variabili 478. Cosa rappresenta il clustering bottom-up? a. Raggruppamento che parte dalle singole osservazioni fino all'intero dataset b. Clustering che usa solo le metriche delle distanze bipartite c. Raggruppamento che parte dai gruppi e giunge fino alle singole osservazioni 479. Qual è il contributo principale di un workflow ben progettato? a. Garantire risultati robusti e riproducibili b. Evitare completamente i bias c. Ridurre il costo del sequenziamento 480. Qual è il database più utilizzato per sequenze nucleotidiche? a. RefSeq b. GenBank c. SwissProt 481. Un campione randomizzato è caratterizzato da: a. Un numero predefinito di unità b. Ogni unità ha la stessa probabilità di essere inclusa c. Una selezione basata sulla convenienza 482. Che cosa indica un'elevata Accuracy in una cross-validation per PLS-DA? a. Che il modello ha una bassa capacità di predizione b. Che il modello ha una bassa varianza c. Che il modello classifica correttamente la maggior parte dei campioni 483. Qual è la caratteristica principale di una distribuzione simmetrica? a. Ha sempre una curtosi positiva b. Media, mediana e moda coincidono c. È priva di valori estremi 484. Che cosa rappresentano i loading scores in PCA? a. La media delle componenti principali b. La distanza tra due variabili c. I contributi delle variabili originali a ciascuna componente principale 485. Qual è la formula dell'errore standard della media? a. σ2/n b. s/n c. σ/radice n 486. Qual è lo scopo del Protein Data Bank (PDB)? a. Archiviare strutture tridimensionali di proteine b. Registrare varianti SNP umane c. Conservare dati di espressione genica 487. Quale algoritmo è utilizzato per l’allineamento globale di sequenze? a. Smith-Waterman b. Matcher c. Needleman-Wunsch 488. In un grafico a dispersione, un rapporto lineare indica: a. Una varianza nulla tra le variabili b. Una relazione positiva o negativa costante c. Nessuna relazione tra variabili 489. Qual è la particolarità della distanza di Canberra? a. Ignora le differenze tra valori piccoli b. È adatta solo per variabili positive c. È particolarmente sensibile ai valori vicini a zero e alle differenze relative tra dati 490. Qual è l’importante funzione dei ncRNA? a. Regolare processi cellulari b. Dirigere la traduzione proteica c. Sequenziare genomi 491. Che cosa rappresenta un nodo in una rete biologica? a. Un'entità come un gene, una proteina o una malattia b. La forza dell'interazione tra due entità c. La connessione tra due entità biologiche 492. Qual è la differenza principale tra l'accuratezza e la precisione di una stima? a. Non esiste differenza tra i due concetti b. La precisione misura la dispersione, mentre l'accuratezza misura la vicinanza al valore vero c. L'accuratezza misura la dispersione, mentre la precisione misura la vicinanza al valore vero 493. Come si calcola la sensibilità di un test? a. FN / (TP + TN) b. FP / (TP + TN) c. TP / (TP + FN) 494. Cosa indica l’acronimo SNP? a. Sequence Nucleotide Projection b. Single Nucleotide Polymorfism c. Single New Protein 495. Cosa indica un pattern di correlazione positiva tra unità statistiche: a. Hanno varianze molto simili pertanto appartengono alla stessa unità campionaria b. Che all’aumentare di una l’altra diminuisce c. Probabilmente fanno parte dello stesso tessuto o funzione 496. Qual è la funzione dei database secondari in bioinformatica? a. Salvare dati non creati b. Contenere dati analizzati derivato da database primari c. Archiviare solo sequenze di DNA che derivano da database primari 497. Qual è lo scopo della deviazione standard? a. Trovare il valore più frequente di un dataset b. Fornire una misura della dispersione dei dati intorno alla media c. Indicare la tendenza centrale dei dati 498. La distanza Minkowski è una generalizzazione di quale misura? a. Della distanza euclidea e Manhattan b. Solo della distanza di Manhattan c. Solo della distanza euclidea, purché considerata al quadrato 499. Quale approccio è utilizzato per l’allineamento globale di sequenze? a. BLAST b. Needleman-Wunsch c. Smith-Waterman 500. Qual è il principale vantaggio della tecnica paired-end in RNA-Seq? a. Sequenzia frammenti genomici in tempo reale b. Analizza RNA non codificanti c. Permette la lettura di entrambe le estremità di un frammento 501. Quale è il nome dei database che consente di ottenere informazioni sulla struttura 3D delle proteine? a. PDB b. GenBank c. UniProt 502. Qual è l’uso della tecnica di allineamento locale (Smith-Waterman)? a. Allineare tutte le sequenze in un database in modo globale b. Trovare regioni di somiglianza tra due sequenze in porzioni limitate c. Determinare la struttura tridimensionale delle proteina 503. Qual è la funzione principale di una heatmap? a. Mostrare solo le variabili più importanti di un dataset b. Visualizzare la correlazione tra variabili e campioni usando una scala di colori c. Separare i dati in cluster definiti 504. Quale paramento si guarda per identificare il peso dei bias di sequenziamento nei grafici di FASTQC? a. Conteggio delle reads b. Lunghezza dei frammenti c. Squilibrio nel contenuto di basi 505. Limitazione della cluster analysis gerarchica a. La necessità di impostare un numero fisso di cluster b. La mancanza di coerenza tra cluster c. L’impossibilità di riconsiderare una divisione d’un livello successivo 506. Qual è la differenza tra Cluster Analysis e PLS-DA? a. La Cluster Analysis richiede categorie predefinite supervisionate almeno sulla prima dimensione b. La Cluster Analysis è sempre binaria, mentre la PLS-DA può essere a più di due cluster c. La Cluster Analysis non è supervisionata e