Appunti Capitolo 1 - Introduzione all'Apprendimento Automatico

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Quale approccio è casuale nella suddivisione delle osservazioni tra training e validation set?

Forward Stepwise Selection
Leave-one-out cross-validation
K-fold cross-validation (correct)
Subset Selection

In cosa consiste il Leave-one-out cross-validation?

Ricampiona n volte, prende tutto il dataset e crea un dataset con una sola osservazione come validation set, mentre tutto il resto diventa il training set. Le osservazioni fanno sia parte del training che della validation, e alla fine si fa la media degli errori.

La cross-validation può essere utilizzata solo con variabili quantitative?

False (B)

Il bootstrap utilizza simulazione e ricampionamento per trovare stime e errori usando re-shuffling delle osservazioni. Usando il bootstrap si ottengono modelli ________.

robusti Signup and view all the answers

Quale tipo di regressione è preferibile utilizzare per valori qualitativi e quale aspetto la caratterizza?

La regressione logistica; modella la probabilità che Y appartenga ad una certa categoria. Signup and view all the answers

Qual è l'intervallo in cui si cercano di far stare tutti i valori che escono dalla funzione nella regressione logistica?

0 e 1 (A) Signup and view all the answers

Il metodo di massima verosimiglianza viene usato per stimare i coefficienti nella regressione logistica.

True (A) Signup and view all the answers

I coefficienti β e β nella regressione devono essere stimati tramite i dati che si hanno per il __________ del modello.

training Signup and view all the answers

Abbinare i seguenti metodi di classificazione con le relative caratteristiche:

Regressione Logistica = Modella la probabilità di appartenenza a una categoria LDA (Analisi Discriminante Lineare) = Utilizza il Teorema di Bayes KNN = Buono se il confine decisionale non è lineare ADQ (Analisi Discriminante Quadratica) = Assume matrici di covarianza diverse Signup and view all the answers

Cosa rappresentano le variabili di input X nel contesto dell'apprendimento statistico?

Le variabili di input X rappresentano le variabili indipendenti che vengono studiate. Signup and view all the answers

Il termine ϵ rappresenta un errore che dipende direttamente dalle variabili di input X.

False (B) Signup and view all the answers

Quali sono i due approcci principali nell'apprendimento statistico?

Approccio non supervisionato (A), Approccio supervisionato (B) Signup and view all the answers

La regressione lineare è un metodo _____________.

parametrico Signup and view all the answers

Match the following terms with their descriptions:

Errore quadratico medio = Misura dell'accuratezza della previsione nel modello Classificatore di Bayes = Predice la classe più verosimile di un dato K-nearest neighbors = Metodo di classificazione che identifica punti vicini a un dato Signup and view all the answers

Cosa rappresenta Y nella formula Y = f(X) + ϵ nell'apprendimento statistico?

Y rappresenta la variabile dipendente di output. Signup and view all the answers

Perché utilizzare BIC invece di AIC?

BIC penalizza molto di più quando vengono aggiunti regressori che non centrano nulla con il modello. Signup and view all the answers

Cosa fa R corretto rispetto a R?

L'aggiunta di una variabile nel modello che potrebbe non centrare nulla porta ad un aumento di R ma anche ad una diminuzione della sua penalizzazione. Signup and view all the answers

Come funzionano in generale le tecniche di riduzione della dimensione?

La PCA può essere utilizzata per crearle. (A), Possono essere utilizzate per creare qualcosa di più maneggevole. (B), Non comportano una perdita completa di informazioni. (C), Si lavora sulle variabili per ridurre il loro numero. (D), Creano nuove variabili non correlate tra loro. (E) Signup and view all the answers

La PCA è utile per la data visualization.

True (A) Signup and view all the answers

Cosa viene fatto nel processo di individuazione delle componenti principali nella PCA?

Si inizia con un vettore X di variabili, si standardizzano e si calcolano le funzioni lineari, poi si stimano gli autovalori con gli autovettori per individuare le componenti principali. Signup and view all the answers

Qual è il vantaggio di PLS rispetto alla PCA?

PLS è consigliato quando si conosce la relazione tra variabili indipendenti e dipendente, mentre la PCA è più indicata quando la relazione non è chiara. Signup and view all the answers

Cosa significa l'acronimo 'PTU' in 'US PTU dataset di network'?

PTU significa Probabilistic Tractography Utilities Signup and view all the answers

Qual è l'idea di base di Bagging e in che modo aiuta a ridurre la variabilità nei modelli ad albero?

Media di set di training diversi (A) Signup and view all the answers

Il concetto di 'Random Forest' coinvolge la costruzione di alberi su campioni bootstrap usando tutti i predittori disponibili.

False (B) Signup and view all the answers

La 'Network Analysis' è l'analisi delle ___________ all'interno di un dataset statistico.

reti Signup and view all the answers

Cosa sono i cluster nei dati?

Sottogruppi o cluster di osservazioni abbastanza simili tra loro Signup and view all the answers

Cosa fa la PCA rispetto al clustering?

Diminuisce la dimensionalità dei dati per rappresentarli con un'alta percentuale di varianza Signup and view all the answers

Quali sono le condizioni che devono osservare gli insiemi nei cluster nel K-means clustering?

Ogni osservazione deve appartenere ad almeno ad n cluster e nessuna osservazione deve appartenere a più di un cluster Signup and view all the answers

Qual è l'approccio dell'algoritmo K-means?

Assegnare ogni osservazione a un gruppo in modo randomico (A), Creare centroidi per ogni cluster (C), Minimizzare il valore per il problema matematico (D) Signup and view all the answers

Qual è uno dei benefit dell'Hierarchical clustering?

Permette di identificare un unico macro-cluster (C) Signup and view all the answers

Gli alberi di regressione sono più performanti rispetto ai modelli di regressione tradizionali.

False (B) Signup and view all the answers

Cosa misura la centralità di vicinanza (closeness centrality)?

L'indipendenza degli attori della rete. Signup and view all the answers

Cosa rappresenta la misura di fairness nella centralità di vicinanza?

La distanza. Signup and view all the answers

Cosa rappresenta la centralità di intermediazione (betweenness centrality)?

Attori che si trovano nel percorso più corto tra due attori (B) Signup and view all the answers

Cosa rappresenta la centralità di autovettore (eigenvector centrality)?

Una versione rivisitata della centralità di grado (degree centrality). Signup and view all the answers

Cosa definisce l'equivalenza strutturale tra due nodi in una rete?

Hanno le stesse connessioni. Signup and view all the answers

La _______ misura il rapporto tra il numero di connessioni osservate e quelle potenziali in una rete.

densità Signup and view all the answers

La centralizzazione si focalizza solo sui singoli nodi di una rete.

False (B) Signup and view all the answers

Cosa rappresenta il punteggio di centralità?

Un valore che indica se un network è decentralizzato o centralizzato. Signup and view all the answers

Abbina i seguenti concetti di rete alle loro definizioni:

Densità = Rapporto tra il numero di connessioni osservate e quelle potenziali in una rete. Clusters = Creazione di gruppi di nodi all'interno di una rete basata sulla densità e sulla struttura relazionale. Equivalenza Strutturale = Due nodi sono identici se hanno le stesse connessioni. Signup and view all the answers

Study Notes

Supervised and Unsupervised Learning

Approccio supervisionato: si hanno input e output, si possono fare delle previsioni sull'output a seconda dell'input
Approccio non supervisionato: si hanno solo input, non si hanno output, si cerca di creare gruppi di soggetti con caratteristiche simili

Apprendimento Statistico

Y = f(X) + ε, dove X sono le variabili indipendenti, Y la variabile dipendente, ε l'errore che non dipende da X
Regressione lineare: semplice caso di regressione
Stima di f: per fare previsioni, usando metodi parametrici o non parametrici
Metodi parametrici: utilizzano parametri noti, come la regressione linea
Metodi non parametrici: non utilizzano parametri noti, più flessibili ma possono avere problemi di overfitting

Classificazione

Problemi di classificazione: si cerca di discriminare tra classi
Esempi di problemi di classificazione: diagnosi mediche, truffe online
Variabili risposta: qualitative o categoriche
Metodo di classificazione: utilizza dati di training per costruire un classificatore, che deve funzionare sui dati di test

Regression Logistica

Modella la probabilità che Y appartenga a una certa categoria
Si basa sull'assunzione di avere numeri reali
Utilizza la funzione logistica: p(X) = 1 / (1 + e^(-β0 - β1X))
Odds: quantità che indica la probabilità di appartenere a una certa categoria
Coefficienti di regressione: β0 e β1, stimati utilizzando il metodo di massima verosimiglianza

Estimazione dei Coefficienti di Regressione

Metodo di massima verosimiglianza: stima le probabilità che avvenga un certo evento
Funzione di likelihood: l(β0, β1) = ∏ p(x) * ∏ (1 - p(x))
Coefficienti di regressione: stimati per massimizzare la funzione di likelihood

Multiple Logistic Regression

Estensione della regressione logistica per variabili multivariate
Formula: log(p(X) / (1 - p(X))) = β0 + β1X1 + ... + βpXp
Stima dei coefficienti: utilizza il metodo della massima verosimiglianza

Analisi Discriminante Lineare

Utilizza la distribuzione delle X per predire le Y
Quando le classi di Y sono ben separate e n è piccolo
Utilizza il teorema di Bayes
Assunzione: matrice di covarianza uguale per tutti i predittori

Analisi Discriminante Quadratica

Assunzione: matrice di covarianza non uguale per tutti i predittori
Predittori: assumono forme/funzioni quadratiche### Errori di Training e di Test
Errori di training: errori commessi durante l'addestramento del modello
Errori di test: errori commessi durante la fase di test del modello
La curva ROC (Receiver Operating Characteristic) rappresenta la relazione tra i falsi positivi e i veri positivi

Metodi di Classificazione

RL (Regolarizzazione Lineare) e LDA (Linear Discriminant Analysis) producono confini di decisione lineare e portano a risultati simili
KNN (K-Nearest Neighbors) è migliorabile se il confine decisionale non è lineare
ADQ (Algebraic Decision Question) è un compromesso tra RL/LDA e KNN

Campionamento

Campionamento probabilistico: estrazione di un campione rappresentativo della popolazione
- Casuale semplice: estrazione in maniera casuale
- Sistematico: impone uno step nel campionamento
- Stratificato: strati o scelte dopo o a priori, comodo per la statistica Bayesiana
- Stadi: quando si sa che ci sono osservazioni che appartengono a certe categorie gerarchiche
- Cluster/Grappoli: la popolazione ha osservazioni con caratteristiche simili
Campionamento non probabilistico:
- Per quote
- A valanga
- Di convenienza

Ricampionamento

Problema di ricampionamento: ottenere abbastanza dati per modelli che ci permettono di fare previsioni o inferenza robusta
Metodi di ricampionamento:
- Cross-validation: suddivide il dataset in training e validation set
- Bootstrap: utilizza simulazione e ricampionamento per trovare stime e errori

Cross-Validation

Cross-validation: tecnica per valutare la performance di un modello
Tipi di cross-validation:
- Traditional
- Leave-one-out
- K-fold
Vantaggi e svantaggi di ogni tipo di cross-validation

Scelta del Modello Lineare

Modello lineare standard: ha una variabile indipendente calibrata su una serie di regressori
Scelta del modello lineare: scelta di quali regressori inserire nel modello
Metodi alternativi a OLS (Ordinary Least Squares):
- Subset Selection: individuare un set di regressori che ci permette di avere un buon fitting del modello
- Dimension Reduction: creare nuove variabili che sono combinazioni lineari delle variabili originali
- Shrinkage: approcci particolarmente avanzati, come Lasso

Subset Selection

Tecniche di subset selection:
- Best Subset Selection: sceglie il modello con il minor RSS (Residual Sum of Squares)
- Forward Stepwise Selection: aggiunge predittori uno alla volta
- Backward Stepwise Selection: parte da un modello con tutti i regressori possibili e piano piano toglie le variabili che mi danno un risultato migliore
- Approssimi ibridi: combinazione di tecniche precedenti

Dimension Reduction

Tecniche di dimension reduction: riduzione del numero di variabili nel dataset
PCA (Principal Component Analysis): crea nuove variabili che sono combinazioni lineari delle variabili originali
Funzionalità della dimension reduction: ridurre il numero di predittori, migliorare la maneggevolezza del dataset### Analisi dei Componenti Principali (PCR)
Possiamo utilizzare nuovi regressori, chiamati componenti principali, estratti dal nostro dataset.
Queste nuove variabili devono essere non correlate tra loro e rappresentare la forza dei vecchi regressori con un nuovo indice.
Le componenti principali sostituiscono completamente il modello di regressione.
Per trovare le componenti principali, si parte con un vettore X di p variabili e si stima la matrice di covarianza per capire quale variabile dipende dalle altre.

Processo di individuazione delle componenti

Si standardizzano le variabili e si calcola la funzione lineare ax, poi si passa alla successiva.
Si stima la matrice di covarianza e gli autovalori con gli autovettori.
L'autovalore è il valore che ci permette di dire quale componente principale è la più importante.

Metodi di riduzione della dimensionalità

La PCA (Principal Component Analysis) è un metodo di riduzione della dimensionalità che permette di rappresentare i dati con un minor numero di variabili.
La PLS (Partial Least Squares) è una tecnica statistica che combina la regressione con la PCA.

Apprendimento non supervisionato

L'apprendimento non supervisionato si riferisce a tecniche che non utilizzano variabili dipendenti e invece si concentra sulla scoperta di pattern e relazioni tra le variabili.
La PCA è un esempio di tecnica di apprendimento non supervisionato che riduce la dimensionalità dei dati.
Il clustering è un altro esempio di tecnica di apprendimento non supervisionato che ragrupa osservazioni simili.

K-means clustering

Il K-means è un algoritmo di clustering che ragrupa osservazioni in K cluster sulla base delle loro similarità.
L'algoritmo K-means minimizza la varianza all'interno dei cluster e massimizza la varianza tra i cluster.

Alberi di regressione e classificazione

Gli alberi di regressione e classificazione sono metodi di apprendimento supervisionato che utilizzano tecniche di split per dividere lo spazio delle osservazioni in regioni.
Gli alberi di regressione e classificazione sono utilizzati per predire la variabile dipendente y sulla base delle variabili indipendenti X.

Vantaggi e svantaggi degli alberi di regressione e classificazione

I vantaggi sono: facile interpretazione, simile al processo decisionale umano, visualizzazione grafica e gestione di variabili qualitative.
Gli svantaggi sono: accuratezza predittiva inferiore ai modelli di regressione.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Description

Questo quiz tratta gli appunti del capitolo 1 sull'apprendimento automatico, con approcci supervisionati e non supervisionati, e concetti come overlapping.

Appunti Capitolo 1 - Introduzione all'Apprendimento Automatico

Choose a study mode

Podcast

Questions and Answers

Quale approccio è casuale nella suddivisione delle osservazioni tra training e validation set?

In cosa consiste il Leave-one-out cross-validation?

La cross-validation può essere utilizzata solo con variabili quantitative?

Il bootstrap utilizza simulazione e ricampionamento per trovare stime e errori usando re-shuffling delle osservazioni. Usando il bootstrap si ottengono modelli ________.

Quale tipo di regressione è preferibile utilizzare per valori qualitativi e quale aspetto la caratterizza?

Qual è l'intervallo in cui si cercano di far stare tutti i valori che escono dalla funzione nella regressione logistica?

Il metodo di massima verosimiglianza viene usato per stimare i coefficienti nella regressione logistica.

I coefficienti β e β nella regressione devono essere stimati tramite i dati che si hanno per il __________ del modello.

Abbinare i seguenti metodi di classificazione con le relative caratteristiche:

Cosa rappresentano le variabili di input X nel contesto dell'apprendimento statistico?

Il termine ϵ rappresenta un errore che dipende direttamente dalle variabili di input X.

Quali sono i due approcci principali nell'apprendimento statistico?

La regressione lineare è un metodo _____________.

Match the following terms with their descriptions:

Cosa rappresenta Y nella formula Y = f(X) + ϵ nell'apprendimento statistico?

Perché utilizzare BIC invece di AIC?

Cosa fa R corretto rispetto a R?

Come funzionano in generale le tecniche di riduzione della dimensione?

La PCA è utile per la data visualization.

Cosa viene fatto nel processo di individuazione delle componenti principali nella PCA?

Qual è il vantaggio di PLS rispetto alla PCA?

Cosa significa l'acronimo 'PTU' in 'US PTU dataset di network'?

Qual è l'idea di base di Bagging e in che modo aiuta a ridurre la variabilità nei modelli ad albero?

Il concetto di 'Random Forest' coinvolge la costruzione di alberi su campioni bootstrap usando tutti i predittori disponibili.

La 'Network Analysis' è l'analisi delle ___________ all'interno di un dataset statistico.

Cosa sono i cluster nei dati?

Cosa fa la PCA rispetto al clustering?

Quali sono le condizioni che devono osservare gli insiemi nei cluster nel K-means clustering?

Qual è l'approccio dell'algoritmo K-means?

Qual è uno dei benefit dell'Hierarchical clustering?

Gli alberi di regressione sono più performanti rispetto ai modelli di regressione tradizionali.

Cosa misura la centralità di vicinanza (closeness centrality)?

Cosa rappresenta la misura di fairness nella centralità di vicinanza?

Cosa rappresenta la centralità di intermediazione (betweenness centrality)?

Cosa rappresenta la centralità di autovettore (eigenvector centrality)?

Cosa definisce l'equivalenza strutturale tra due nodi in una rete?

La _______ misura il rapporto tra il numero di connessioni osservate e quelle potenziali in una rete.

La centralizzazione si focalizza solo sui singoli nodi di una rete.

Cosa rappresenta il punteggio di centralità?

Abbina i seguenti concetti di rete alle loro definizioni:

Study Notes

Supervised and Unsupervised Learning

Apprendimento Statistico

Classificazione

Regression Logistica

Estimazione dei Coefficienti di Regressione

Multiple Logistic Regression

Analisi Discriminante Lineare

Analisi Discriminante Quadratica

Metodi di Classificazione

Campionamento

Ricampionamento

Cross-Validation

Scelta del Modello Lineare

Subset Selection

Dimension Reduction

Processo di individuazione delle componenti

Metodi di riduzione della dimensionalità

Apprendimento non supervisionato

K-means clustering

Alberi di regressione e classificazione

Vantaggi e svantaggi degli alberi di regressione e classificazione

Studying That Suits You

Description

More Like This

Introduction to Data Science: Machine Learning, AI, Python, and Big Da...

Python Data Science and Analysis Quiz

Data Analytics with Python and Machine Learning

Applied Machine Learning in Python Quiz: NumPy Foundations for Data Sc...