Podcast
Questions and Answers
Quale approccio è casuale nella suddivisione delle osservazioni tra training e validation set?
Quale approccio è casuale nella suddivisione delle osservazioni tra training e validation set?
In cosa consiste il Leave-one-out cross-validation?
In cosa consiste il Leave-one-out cross-validation?
Ricampiona n volte, prende tutto il dataset e crea un dataset con una sola osservazione come validation set, mentre tutto il resto diventa il training set. Le osservazioni fanno sia parte del training che della validation, e alla fine si fa la media degli errori.
La cross-validation può essere utilizzata solo con variabili quantitative?
La cross-validation può essere utilizzata solo con variabili quantitative?
False
Il bootstrap utilizza simulazione e ricampionamento per trovare stime e errori usando re-shuffling delle osservazioni. Usando il bootstrap si ottengono modelli ________.
Il bootstrap utilizza simulazione e ricampionamento per trovare stime e errori usando re-shuffling delle osservazioni. Usando il bootstrap si ottengono modelli ________.
Signup and view all the answers
Quale tipo di regressione è preferibile utilizzare per valori qualitativi e quale aspetto la caratterizza?
Quale tipo di regressione è preferibile utilizzare per valori qualitativi e quale aspetto la caratterizza?
Signup and view all the answers
Qual è l'intervallo in cui si cercano di far stare tutti i valori che escono dalla funzione nella regressione logistica?
Qual è l'intervallo in cui si cercano di far stare tutti i valori che escono dalla funzione nella regressione logistica?
Signup and view all the answers
Il metodo di massima verosimiglianza viene usato per stimare i coefficienti nella regressione logistica.
Il metodo di massima verosimiglianza viene usato per stimare i coefficienti nella regressione logistica.
Signup and view all the answers
I coefficienti β e β nella regressione devono essere stimati tramite i dati che si hanno per il __________ del modello.
I coefficienti β e β nella regressione devono essere stimati tramite i dati che si hanno per il __________ del modello.
Signup and view all the answers
Abbinare i seguenti metodi di classificazione con le relative caratteristiche:
Abbinare i seguenti metodi di classificazione con le relative caratteristiche:
Signup and view all the answers
Cosa rappresentano le variabili di input X nel contesto dell'apprendimento statistico?
Cosa rappresentano le variabili di input X nel contesto dell'apprendimento statistico?
Signup and view all the answers
Il termine ϵ rappresenta un errore che dipende direttamente dalle variabili di input X.
Il termine ϵ rappresenta un errore che dipende direttamente dalle variabili di input X.
Signup and view all the answers
Quali sono i due approcci principali nell'apprendimento statistico?
Quali sono i due approcci principali nell'apprendimento statistico?
Signup and view all the answers
La regressione lineare è un metodo _____________.
La regressione lineare è un metodo _____________.
Signup and view all the answers
Match the following terms with their descriptions:
Match the following terms with their descriptions:
Signup and view all the answers
Cosa rappresenta Y nella formula Y = f(X) + ϵ nell'apprendimento statistico?
Cosa rappresenta Y nella formula Y = f(X) + ϵ nell'apprendimento statistico?
Signup and view all the answers
Perché utilizzare BIC invece di AIC?
Perché utilizzare BIC invece di AIC?
Signup and view all the answers
Cosa fa R corretto rispetto a R?
Cosa fa R corretto rispetto a R?
Signup and view all the answers
Come funzionano in generale le tecniche di riduzione della dimensione?
Come funzionano in generale le tecniche di riduzione della dimensione?
Signup and view all the answers
La PCA è utile per la data visualization.
La PCA è utile per la data visualization.
Signup and view all the answers
Cosa viene fatto nel processo di individuazione delle componenti principali nella PCA?
Cosa viene fatto nel processo di individuazione delle componenti principali nella PCA?
Signup and view all the answers
Qual è il vantaggio di PLS rispetto alla PCA?
Qual è il vantaggio di PLS rispetto alla PCA?
Signup and view all the answers
Cosa significa l'acronimo 'PTU' in 'US PTU dataset di network'?
Cosa significa l'acronimo 'PTU' in 'US PTU dataset di network'?
Signup and view all the answers
Qual è l'idea di base di Bagging e in che modo aiuta a ridurre la variabilità nei modelli ad albero?
Qual è l'idea di base di Bagging e in che modo aiuta a ridurre la variabilità nei modelli ad albero?
Signup and view all the answers
Il concetto di 'Random Forest' coinvolge la costruzione di alberi su campioni bootstrap usando tutti i predittori disponibili.
Il concetto di 'Random Forest' coinvolge la costruzione di alberi su campioni bootstrap usando tutti i predittori disponibili.
Signup and view all the answers
La 'Network Analysis' è l'analisi delle ___________ all'interno di un dataset statistico.
La 'Network Analysis' è l'analisi delle ___________ all'interno di un dataset statistico.
Signup and view all the answers
Cosa sono i cluster nei dati?
Cosa sono i cluster nei dati?
Signup and view all the answers
Cosa fa la PCA rispetto al clustering?
Cosa fa la PCA rispetto al clustering?
Signup and view all the answers
Quali sono le condizioni che devono osservare gli insiemi nei cluster nel K-means clustering?
Quali sono le condizioni che devono osservare gli insiemi nei cluster nel K-means clustering?
Signup and view all the answers
Qual è l'approccio dell'algoritmo K-means?
Qual è l'approccio dell'algoritmo K-means?
Signup and view all the answers
Qual è uno dei benefit dell'Hierarchical clustering?
Qual è uno dei benefit dell'Hierarchical clustering?
Signup and view all the answers
Gli alberi di regressione sono più performanti rispetto ai modelli di regressione tradizionali.
Gli alberi di regressione sono più performanti rispetto ai modelli di regressione tradizionali.
Signup and view all the answers
Cosa misura la centralità di vicinanza (closeness centrality)?
Cosa misura la centralità di vicinanza (closeness centrality)?
Signup and view all the answers
Cosa rappresenta la misura di fairness nella centralità di vicinanza?
Cosa rappresenta la misura di fairness nella centralità di vicinanza?
Signup and view all the answers
Cosa rappresenta la centralità di intermediazione (betweenness centrality)?
Cosa rappresenta la centralità di intermediazione (betweenness centrality)?
Signup and view all the answers
Cosa rappresenta la centralità di autovettore (eigenvector centrality)?
Cosa rappresenta la centralità di autovettore (eigenvector centrality)?
Signup and view all the answers
Cosa definisce l'equivalenza strutturale tra due nodi in una rete?
Cosa definisce l'equivalenza strutturale tra due nodi in una rete?
Signup and view all the answers
La _______ misura il rapporto tra il numero di connessioni osservate e quelle potenziali in una rete.
La _______ misura il rapporto tra il numero di connessioni osservate e quelle potenziali in una rete.
Signup and view all the answers
La centralizzazione si focalizza solo sui singoli nodi di una rete.
La centralizzazione si focalizza solo sui singoli nodi di una rete.
Signup and view all the answers
Cosa rappresenta il punteggio di centralità?
Cosa rappresenta il punteggio di centralità?
Signup and view all the answers
Abbina i seguenti concetti di rete alle loro definizioni:
Abbina i seguenti concetti di rete alle loro definizioni:
Signup and view all the answers
Study Notes
Supervised and Unsupervised Learning
- Approccio supervisionato: si hanno input e output, si possono fare delle previsioni sull'output a seconda dell'input
- Approccio non supervisionato: si hanno solo input, non si hanno output, si cerca di creare gruppi di soggetti con caratteristiche simili
Apprendimento Statistico
- Y = f(X) + ε, dove X sono le variabili indipendenti, Y la variabile dipendente, ε l'errore che non dipende da X
- Regressione lineare: semplice caso di regressione
- Stima di f: per fare previsioni, usando metodi parametrici o non parametrici
- Metodi parametrici: utilizzano parametri noti, come la regressione linea
- Metodi non parametrici: non utilizzano parametri noti, più flessibili ma possono avere problemi di overfitting
Classificazione
- Problemi di classificazione: si cerca di discriminare tra classi
- Esempi di problemi di classificazione: diagnosi mediche, truffe online
- Variabili risposta: qualitative o categoriche
- Metodo di classificazione: utilizza dati di training per costruire un classificatore, che deve funzionare sui dati di test
Regression Logistica
- Modella la probabilità che Y appartenga a una certa categoria
- Si basa sull'assunzione di avere numeri reali
- Utilizza la funzione logistica: p(X) = 1 / (1 + e^(-β0 - β1X))
- Odds: quantità che indica la probabilità di appartenere a una certa categoria
- Coefficienti di regressione: β0 e β1, stimati utilizzando il metodo di massima verosimiglianza
Estimazione dei Coefficienti di Regressione
- Metodo di massima verosimiglianza: stima le probabilità che avvenga un certo evento
- Funzione di likelihood: l(β0, β1) = ∏ p(x) * ∏ (1 - p(x))
- Coefficienti di regressione: stimati per massimizzare la funzione di likelihood
Multiple Logistic Regression
- Estensione della regressione logistica per variabili multivariate
- Formula: log(p(X) / (1 - p(X))) = β0 + β1X1 + ... + βpXp
- Stima dei coefficienti: utilizza il metodo della massima verosimiglianza
Analisi Discriminante Lineare
- Utilizza la distribuzione delle X per predire le Y
- Quando le classi di Y sono ben separate e n è piccolo
- Utilizza il teorema di Bayes
- Assunzione: matrice di covarianza uguale per tutti i predittori
Analisi Discriminante Quadratica
- Assunzione: matrice di covarianza non uguale per tutti i predittori
- Predittori: assumono forme/funzioni quadratiche### Errori di Training e di Test
- Errori di training: errori commessi durante l'addestramento del modello
- Errori di test: errori commessi durante la fase di test del modello
- La curva ROC (Receiver Operating Characteristic) rappresenta la relazione tra i falsi positivi e i veri positivi
Metodi di Classificazione
- RL (Regolarizzazione Lineare) e LDA (Linear Discriminant Analysis) producono confini di decisione lineare e portano a risultati simili
- KNN (K-Nearest Neighbors) è migliorabile se il confine decisionale non è lineare
- ADQ (Algebraic Decision Question) è un compromesso tra RL/LDA e KNN
Campionamento
- Campionamento probabilistico: estrazione di un campione rappresentativo della popolazione
- Casuale semplice: estrazione in maniera casuale
- Sistematico: impone uno step nel campionamento
- Stratificato: strati o scelte dopo o a priori, comodo per la statistica Bayesiana
- Stadi: quando si sa che ci sono osservazioni che appartengono a certe categorie gerarchiche
- Cluster/Grappoli: la popolazione ha osservazioni con caratteristiche simili
- Campionamento non probabilistico:
- Per quote
- A valanga
- Di convenienza
Ricampionamento
- Problema di ricampionamento: ottenere abbastanza dati per modelli che ci permettono di fare previsioni o inferenza robusta
- Metodi di ricampionamento:
- Cross-validation: suddivide il dataset in training e validation set
- Bootstrap: utilizza simulazione e ricampionamento per trovare stime e errori
Cross-Validation
- Cross-validation: tecnica per valutare la performance di un modello
- Tipi di cross-validation:
- Traditional
- Leave-one-out
- K-fold
- Vantaggi e svantaggi di ogni tipo di cross-validation
Scelta del Modello Lineare
- Modello lineare standard: ha una variabile indipendente calibrata su una serie di regressori
- Scelta del modello lineare: scelta di quali regressori inserire nel modello
- Metodi alternativi a OLS (Ordinary Least Squares):
- Subset Selection: individuare un set di regressori che ci permette di avere un buon fitting del modello
- Dimension Reduction: creare nuove variabili che sono combinazioni lineari delle variabili originali
- Shrinkage: approcci particolarmente avanzati, come Lasso
Subset Selection
- Tecniche di subset selection:
- Best Subset Selection: sceglie il modello con il minor RSS (Residual Sum of Squares)
- Forward Stepwise Selection: aggiunge predittori uno alla volta
- Backward Stepwise Selection: parte da un modello con tutti i regressori possibili e piano piano toglie le variabili che mi danno un risultato migliore
- Approssimi ibridi: combinazione di tecniche precedenti
Dimension Reduction
- Tecniche di dimension reduction: riduzione del numero di variabili nel dataset
- PCA (Principal Component Analysis): crea nuove variabili che sono combinazioni lineari delle variabili originali
- Funzionalità della dimension reduction: ridurre il numero di predittori, migliorare la maneggevolezza del dataset### Analisi dei Componenti Principali (PCR)
- Possiamo utilizzare nuovi regressori, chiamati componenti principali, estratti dal nostro dataset.
- Queste nuove variabili devono essere non correlate tra loro e rappresentare la forza dei vecchi regressori con un nuovo indice.
- Le componenti principali sostituiscono completamente il modello di regressione.
- Per trovare le componenti principali, si parte con un vettore X di p variabili e si stima la matrice di covarianza per capire quale variabile dipende dalle altre.
Processo di individuazione delle componenti
- Si standardizzano le variabili e si calcola la funzione lineare ax, poi si passa alla successiva.
- Si stima la matrice di covarianza e gli autovalori con gli autovettori.
- L'autovalore è il valore che ci permette di dire quale componente principale è la più importante.
Metodi di riduzione della dimensionalità
- La PCA (Principal Component Analysis) è un metodo di riduzione della dimensionalità che permette di rappresentare i dati con un minor numero di variabili.
- La PLS (Partial Least Squares) è una tecnica statistica che combina la regressione con la PCA.
Apprendimento non supervisionato
- L'apprendimento non supervisionato si riferisce a tecniche che non utilizzano variabili dipendenti e invece si concentra sulla scoperta di pattern e relazioni tra le variabili.
- La PCA è un esempio di tecnica di apprendimento non supervisionato che riduce la dimensionalità dei dati.
- Il clustering è un altro esempio di tecnica di apprendimento non supervisionato che ragrupa osservazioni simili.
K-means clustering
- Il K-means è un algoritmo di clustering che ragrupa osservazioni in K cluster sulla base delle loro similarità.
- L'algoritmo K-means minimizza la varianza all'interno dei cluster e massimizza la varianza tra i cluster.
Alberi di regressione e classificazione
- Gli alberi di regressione e classificazione sono metodi di apprendimento supervisionato che utilizzano tecniche di split per dividere lo spazio delle osservazioni in regioni.
- Gli alberi di regressione e classificazione sono utilizzati per predire la variabile dipendente y sulla base delle variabili indipendenti X.
Vantaggi e svantaggi degli alberi di regressione e classificazione
- I vantaggi sono: facile interpretazione, simile al processo decisionale umano, visualizzazione grafica e gestione di variabili qualitative.
- Gli svantaggi sono: accuratezza predittiva inferiore ai modelli di regressione.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Description
Questo quiz tratta gli appunti del capitolo 1 sull'apprendimento automatico, con approcci supervisionati e non supervisionati, e concetti come overlapping.