Analisi di Raggruppamento in Dati
45 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Qual è la principale svantaggio del metodo k-means riguardo alla configurazione dei cluster?

  • Non può gestire dati categoriali
  • È sensibile a rumore e outliers (correct)
  • Può gestire cluster con forme non convesse
  • Richiede la scelta di una metrica di distanza
  • Qual è il ruolo dei medoidi nel metodo k-medoids?

  • Sono scelti come centri di gravità dei cluster (correct)
  • Sono utilizzati per calcolare la media del cluster
  • Rappresentano i punti più lontani dal centro del cluster
  • Vengono sempre utilizzati come punti di partenza
  • Cosa succede quando si sostituisce un medoide con un non-medoide nel metodo k-medoids?

  • La qualità del cluster rimane invariata
  • La sostituzione avviene se migliora la qualità (correct)
  • La sostituzione avviene sempre
  • La sostituzione porta sempre a un errore maggiore
  • Quale formula rappresenta l'errore assoluto nel metodo k-medoids?

    <p>Err =∑ ∑ d(p, mi)</p> Signup and view all the answers

    Qual è una condizione necessaria per l'algoritmo k-means?

    <p>Deve essere specificato il valore di k in anticipo</p> Signup and view all the answers

    Qual è la caratteristica principale di un cluster nell'analisi di raggruppamento?

    <p>Le istanze nel cluster sono simili tra loro.</p> Signup and view all the answers

    Quando si utilizza il metodo k-means, quale caratteristica dei dati lo rende inadeguato?

    <p>Cluster con forme non convesse</p> Signup and view all the answers

    Quale delle seguenti opzioni rappresenta un'applicazione dell'analisi di raggruppamento?

    <p>Identificare gruppi distinti di clienti nel marketing.</p> Signup and view all the answers

    Qual è l'operazione principale effettuata nel metodo k-means?

    <p>Ricalcolare i nuovi centri dei cluster</p> Signup and view all the answers

    Quale affermazione è vera riguardo all'apprendimento non supervisionato?

    <p>Le istanze sono raggruppate in base a somiglianze.</p> Signup and view all the answers

    Quale conseguenza ha l'utilizzo di outliers nel metodo k-means?

    <p>Distorce la posizione dei centri dei cluster</p> Signup and view all the answers

    Quando il metodo k-means termina?

    <p>Quando non ci sono cambiamenti nell'assegnazione degli oggetti</p> Signup and view all the answers

    Qual è una delle principali caratteristiche positive del metodo k-means?

    <p>È relativamente efficiente</p> Signup and view all the answers

    Qual è un fattore che influenza la qualità dell'analisi di raggruppamento?

    <p>L'algoritmo utilizzato per implementare l'analisi.</p> Signup and view all the answers

    Cosa rappresentano i punti rossi nell'esempio di k-means?

    <p>I punti iniziali dei cluster</p> Signup and view all the answers

    Quale dei seguenti è un metodo di pre-elaborazione dei dati in analisi di raggruppamento?

    <p>Eliminare gli outlier.</p> Signup and view all the answers

    Quale dei seguenti è un difetto del metodo k-means?

    <p>Non è applicabile se non è possibile definire il centro</p> Signup and view all the answers

    Come possiamo descrivere la somiglianza intra-classe in un cluster?

    <p>Alta somiglianza tra istanze dello stesso cluster.</p> Signup and view all the answers

    Qual è la complessità computazionale del metodo k-means, considerando le iterazioni?

    <p>O(tnk) con n = numero di oggetti</p> Signup and view all the answers

    Qual è un metodo per migliorare il risultato del k-means per trovare l'ottimo globale?

    <p>Utilizzare annealing simulato</p> Signup and view all the answers

    Quale opzione non è un uso comune dell'analisi di raggruppamento?

    <p>Identificazione di modelli di regressione.</p> Signup and view all the answers

    Quale affermazione descrive meglio il metodo k-means?

    <p>Richiede definizioni chiare di centro per ogni cluster</p> Signup and view all the answers

    Quale metodo è stato suggerito per cercare di ottenere l'ottimo globale con k-means?

    <p>Algoritmi genetici</p> Signup and view all the answers

    Qual è la formula per calcolare la distanza tra due elementi utilizzando attribuiti asimmetrici quando Y e P sono 1 e N è 0?

    <p>$d(jack, mary) = \frac{0 + 1}{2 + 0 + 1}$</p> Signup and view all the answers

    Quale metodo non è utilizzato per calcolare la distanza su dati di tipo nominale?

    <p>Trasformazione in attributi continui</p> Signup and view all the answers

    Cosa rappresenta 'm' nel contesto della distanza su dati nominali?

    <p>Numero di attributi corrispondenti</p> Signup and view all the answers

    Come viene trattata una variabile ordinale per il calcolo della distanza?

    <p>Tramite la relazione di ordinamento</p> Signup and view all the answers

    Cosa si ottiene normalizzando 'rif' con il metodo min-max?

    <p>Un valore compreso tra 0 e 1</p> Signup and view all the answers

    Qual è l'approccio corretto per calcolare la distanza tra variabili di tipo misto?

    <p>Scegliere il metodo più adatto per ciascun tipo di variabile</p> Signup and view all the answers

    Quale affermazione è vera riguardo alla distanza su dati di tipo nominale?

    <p>Può essere calcolata con metodi di matching</p> Signup and view all the answers

    Qual è la formula per il calcolo della distanza utilizzando il metodo di matching semplice?

    <p>$d(i, j) = \frac{p - m}{p}$</p> Signup and view all the answers

    Quale affermazione descrive meglio gli algoritmi gerarchici nel clustering?

    <p>Forniscono una struttura ad albero per organizzare i cluster.</p> Signup and view all the answers

    Qual è il principale vantaggio degli algoritmi basati sulla densità nel clustering?

    <p>Espandono cluster minimi sulla base della densità nelle vicinanze.</p> Signup and view all the answers

    Quale dei seguenti metodi non è associato a un algoritmo basato su griglie?

    <p>Tecniche di rilocazione iterativa.</p> Signup and view all the answers

    Quale affermazione sul calcolo della dissimilarità è vera?

    <p>I pesi degli attributi nel calcolo sono soggettivi.</p> Signup and view all the answers

    Qual è un caratteristica distintiva degli algoritmi di partizionamento?

    <p>Richiedono un numero fisso di cluster a priori.</p> Signup and view all the answers

    Cosa implica un algoritmo di raggruppamento guidato da vincoli?

    <p>Utilizza vincoli spaziali e raggruppamento semi-supervisionato.</p> Signup and view all the answers

    Qual è la principale misura di qualità nei metodi basati sulle partizioni?

    <p>Minimizzazione delle distanze intra-cluster.</p> Signup and view all the answers

    Quale di queste affermazioni è corretta riguardo agli algoritmi basati su modelli?

    <p>Il loro obiettivo è trovare la miglior disposizione dei cluster che soddisfi il modello.</p> Signup and view all the answers

    Qual è la formula per calcolare la variazione dell'errore?

    <p>T = ∑ C jih</p> Signup and view all the answers

    Cosa rappresenta n nella formula della variazione dell'errore?

    <p>Il numero di istanze</p> Signup and view all the answers

    Qual è il significato di Cjih quando j passa dal medoide i ad h?

    <p>Cjih = d(j, h) - d(j, i)</p> Signup and view all the answers

    Nel secondo caso descritto, cosa avviene con j?

    <p>j rimane assegnato ad un altro medoide</p> Signup and view all the answers

    Cos'è un medoide nel contesto dell'analisi dei dati?

    <p>Un punto di riferimento per un gruppo di istanze</p> Signup and view all the answers

    Qual è lo scopo principale del metodo k-medoids?

    <p>Minimizzare l'errore tra le istanze e i medoidi</p> Signup and view all the answers

    Study Notes

    Analisi di Raggruppamento (Clustering)

    • Un gruppo (cluster) è una collezione di istanze simili tra loro, con alta somiglianza intra-classe, e istanze di cluster diversi dissimili, con bassa somiglianza inter-classe.
    • L'analisi di raggruppamento (cluster analysis) è un processo di raggruppamento delle istanze in cluster.
    • Si tratta di un tipo di apprendimento non supervisionato, dove le istanze di addestramento non hanno una classe nota a priori.
    • La qualità dell'analisi di raggruppamento dipende dal parametro scelto per misurare la somiglianza inter e intraclasse e dall'algoritmo utilizzato.

    Applicazioni dell'Analisi di Raggruppamento

    • Può essere utilizzata come analisi stand-alone o come processo preliminare ad altre analisi di dati, ad esempio, per assegnare etichette ad ognuno dei dati e poi usare un algoritmo di classificazione.
    • Può essere anche un componente integrato di algoritmi per altri tipi di analisi, come le regole associative quantitative basate sulla distanza.
    • Utile nella fase di pre-elaborazione dati, ad esempio per l'eliminazione di outlier o per la riduzione della numerosità dei dati.

    Esempi di Analisi di Raggruppamento

    • Marketing: Identifica gruppi di clienti distinti in base alle abitudini di acquisto (analisi di segmentazione).
    • Assicurazioni: Identifica gruppi di assicurati con richieste di rimborso elevate.
    • Studi sui terremoti: Gli epicentri dovrebbero essere raggruppati lungo le faglie continentali.
    • Motori di ricerca: I risultati possono essere raggruppati per presentare risposte simili all'utente in un unico gruppo.

    Distanza tra Istanze

    • La distanza tra istanze (d(i,j)) misura la dissimilarità o distanza tra le istanze i ed j.
    • La definizione di distanza cambia a seconda del tipo di dato degli attributi.

    Strutture Dati

    • Gli algoritmi di raggruppamento usano spesso matrici dati (x ᵢ ⱼ = attributo i dell'istanza j) o matrici di distanza.
    • Le matrici di distanza rappresentano le distanze tra tutte le possibili coppie di istanze, quindi d(i, j) = d(j, i), e la matrice è simmetrica rispetto alla diagonale.

    Distanze e Tipi di Dati

    • La distanza (d(i, j)) misura la dissimilarità tra due istanze.
    • La definizione cambia a seconda dei tipi di dati: dati intervallo, dati nominali (e binari), dati ordinali.
    • In alcune situazioni, attributi diversi possono avere tipi diversi.

    Dati di Tipo Intervallo e Normalizzazione

    • Per definire una misura di distanza su dati di tipo intervallo, è necessario normalizzare i dati.
    • Solitamente, si vuole che i diversi attributi abbiano lo stesso peso.
    • Esempio: Dati che rappresentano città, con attributi come temperatura media e popolazione.
    • Esistono diversi metodi per normalizzare i dati (es. zero-score normalization, mix-man normalization).

    Normalizzazione (1) e (2)

    • Zero-score normalization: Calcola la media (m) e lo scarto assoluto medio (S) per ogni attributo e poi normalizza ogni valore tramite (xᵢ ᵢ - m)/ S
    • Mix-man normalization: Normalizza ogni attributo xᵢᵢ tra 0 e 1 tramite la formula (xᵢᵢ -minᵢᵢ ) / (maxᵢᵢ - minᵢᵢ)

    Distanza su Dati di Tipo Intervallo

    • Distanza di Manhattan: dm(i, j) = |x₁₁-xⱼ₁| + |x₁₂-xⱼ₂| + ... + |xᵢₚ-xⱼₚ|
    • Distanza euclidea: dₑ(i, j) = √((x₁₁-xⱼ₁)² + (x₁₂-xⱼ₂)² + ... + (xᵢₚ-xⱼₚ)²)
    • Le distanze devono avere alcune proprietà generali, come essere positive definite, simmetriche e soddisfare la disuguaglianza triangolare.

    Distanza su Dati di Tipo Binario (1) e (2)

    • Distanza di matching semplice: per attributi simmetrici.
    • Distanza di Jaccard: per attributi asimmetrici.

    Distanza su Dati di Tipo Nomina/Ordina

    • Dati nominali: si trasforma ogni variabile nominale in una serie di variabili binarie, in cui ogni variabile corrisponde a un livello della variabile nominale.
    • Dati ordinali: si rimpiazza ogni valore con la sua posizione nell'ordinamento, e poi si normalizza usando il metodo min-max.
    • Infine, si calcola la distanza usando i metodi per i dati di tipo intervallo.

    Distanza su Dati di Tipo Misto

    • In generale, un'istanza può contenere valori di diversi tipi.
    • La dissimilarità è calcolata combinando i metodi per i diversi tipi di dati.
    • Non esiste un metodo universale migliore per combattere tutte le combinazioni.

    Classificazione degli Algoritmi di Raggruppamento

    • Algoritmi di partizionamento: dividono le istanze in k partizioni. Usano tecniche di rilocazione iterativa per migliorare la qualità dei cluster.
    • Algoritmi gerarchici: creano una decomposizione gerarchica dell'insieme di tutte le istanze. Sono simili agli alberi zoologici e possono essere agglomerativi o scissori.
    • Algoritmi basati sulla densità: basati sul concetto di densità e cercano clusters con una densità superiore rispetto al resto dello spazio.
    • Algoritmi basati su griglie: discretizzano i valori in una struttura a griglia per accelerare le operazioni.
    • Algoritmi basati su modelli: basati sulla ricerca di modelli per caratterizzare i cluster.
    • Algoritmi di raggruppamento guidati da vincoli: che tengono conto di vincoli aggiuntivi da parte dell'utente.
    • Algoritmi Semi-Supervisionati: i cui vincoli sono in parte forniti dall'utente e in parte dal risultato dell'esperienza.
    • Metodi Basati su Partizioni: algoritmi k-means, k-medoids.

    Metodo K-Means

    • Adotta il punto medio di ogni cluster come suo centro di gravità.
    • Tenta di minimizzare l'errore quadratico, calcolando la distanza tra il punto medio e tutte le altre istanze all'interno del cluster.
    • Procedura iterativa per assegnare ogni istanza al cluster più vicino e aggiornare i punti centrali dei clusters.

    Metodo K-Medoids

    • Adotta un elemento come medoide all’interno del cluster, in modo da contrastare l’impatto di outlier.
    • Procede in modo iterativo per assegnare ogni istanza al medoide più vicino e per aggiornare i medoidi.
    • Considera sia i medoidi iniziali che i medoidi potenziali.

    Pregi e Difetti del Metodo K-Means

    • Pregi: relativamente efficiente, spesso trova un ottimo locale, robusto a rumore.
    • Difetti: necessità di specificare k in anticipo, molto sensibile a rumore, outlier e forme non convesse di cluster, potrebbe convergere a soluzioni locali.

    Pregi e Difetti del Metodo K-Medoids

    • Pregi: la robustezza a outlier dei valori, funzione anche sui dati categoriali.
    • Difetti: meno efficiente del k-means, si ferma a soluzioni locali.

    Bibliografia

    • Si includono i riferimenti bibliografici (scritti) ai ricercatori e alle pubblicazioni da cui sono tratte le informazioni sull'analisi di raggruppamento.

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Related Documents

    Description

    Scopri i concetti fondamentali dell'analisi di raggruppamento, un approccio di apprendimento non supervisionato. Impara a distinguere tra cluster simili e dissimili e le misure di somiglianza utilizzate in questo processo analitico. Esplora anche le applicazioni pratiche di questa tecnica nei dati.

    More Like This

    Use Quizgecko on...
    Browser
    Browser