Analisi di Raggruppamento in Dati
45 Questions
2 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Qual è la principale svantaggio del metodo k-means riguardo alla configurazione dei cluster?

  • Non può gestire dati categoriali
  • È sensibile a rumore e outliers (correct)
  • Può gestire cluster con forme non convesse
  • Richiede la scelta di una metrica di distanza
  • Qual è il ruolo dei medoidi nel metodo k-medoids?

  • Sono scelti come centri di gravità dei cluster (correct)
  • Sono utilizzati per calcolare la media del cluster
  • Rappresentano i punti più lontani dal centro del cluster
  • Vengono sempre utilizzati come punti di partenza
  • Cosa succede quando si sostituisce un medoide con un non-medoide nel metodo k-medoids?

  • La qualità del cluster rimane invariata
  • La sostituzione avviene se migliora la qualità (correct)
  • La sostituzione avviene sempre
  • La sostituzione porta sempre a un errore maggiore
  • Quale formula rappresenta l'errore assoluto nel metodo k-medoids?

    <p>Err =∑ ∑ d(p, mi) (A)</p> Signup and view all the answers

    Qual è una condizione necessaria per l'algoritmo k-means?

    <p>Deve essere specificato il valore di k in anticipo (B)</p> Signup and view all the answers

    Qual è la caratteristica principale di un cluster nell'analisi di raggruppamento?

    <p>Le istanze nel cluster sono simili tra loro. (A)</p> Signup and view all the answers

    Quando si utilizza il metodo k-means, quale caratteristica dei dati lo rende inadeguato?

    <p>Cluster con forme non convesse (D)</p> Signup and view all the answers

    Quale delle seguenti opzioni rappresenta un'applicazione dell'analisi di raggruppamento?

    <p>Identificare gruppi distinti di clienti nel marketing. (B)</p> Signup and view all the answers

    Qual è l'operazione principale effettuata nel metodo k-means?

    <p>Ricalcolare i nuovi centri dei cluster (D)</p> Signup and view all the answers

    Quale affermazione è vera riguardo all'apprendimento non supervisionato?

    <p>Le istanze sono raggruppate in base a somiglianze. (D)</p> Signup and view all the answers

    Quale conseguenza ha l'utilizzo di outliers nel metodo k-means?

    <p>Distorce la posizione dei centri dei cluster (B)</p> Signup and view all the answers

    Quando il metodo k-means termina?

    <p>Quando non ci sono cambiamenti nell'assegnazione degli oggetti (D)</p> Signup and view all the answers

    Qual è una delle principali caratteristiche positive del metodo k-means?

    <p>È relativamente efficiente (A)</p> Signup and view all the answers

    Qual è un fattore che influenza la qualità dell'analisi di raggruppamento?

    <p>L'algoritmo utilizzato per implementare l'analisi. (A)</p> Signup and view all the answers

    Cosa rappresentano i punti rossi nell'esempio di k-means?

    <p>I punti iniziali dei cluster (A)</p> Signup and view all the answers

    Quale dei seguenti è un metodo di pre-elaborazione dei dati in analisi di raggruppamento?

    <p>Eliminare gli outlier. (C)</p> Signup and view all the answers

    Quale dei seguenti è un difetto del metodo k-means?

    <p>Non è applicabile se non è possibile definire il centro (C)</p> Signup and view all the answers

    Come possiamo descrivere la somiglianza intra-classe in un cluster?

    <p>Alta somiglianza tra istanze dello stesso cluster. (A)</p> Signup and view all the answers

    Qual è la complessità computazionale del metodo k-means, considerando le iterazioni?

    <p>O(tnk) con n = numero di oggetti (B)</p> Signup and view all the answers

    Qual è un metodo per migliorare il risultato del k-means per trovare l'ottimo globale?

    <p>Utilizzare annealing simulato (A)</p> Signup and view all the answers

    Quale opzione non è un uso comune dell'analisi di raggruppamento?

    <p>Identificazione di modelli di regressione. (D)</p> Signup and view all the answers

    Quale affermazione descrive meglio il metodo k-means?

    <p>Richiede definizioni chiare di centro per ogni cluster (B)</p> Signup and view all the answers

    Quale metodo è stato suggerito per cercare di ottenere l'ottimo globale con k-means?

    <p>Algoritmi genetici (D)</p> Signup and view all the answers

    Qual è la formula per calcolare la distanza tra due elementi utilizzando attribuiti asimmetrici quando Y e P sono 1 e N è 0?

    <p>$d(jack, mary) = \frac{0 + 1}{2 + 0 + 1}$ (C)</p> Signup and view all the answers

    Quale metodo non è utilizzato per calcolare la distanza su dati di tipo nominale?

    <p>Trasformazione in attributi continui (D)</p> Signup and view all the answers

    Cosa rappresenta 'm' nel contesto della distanza su dati nominali?

    <p>Numero di attributi corrispondenti (C)</p> Signup and view all the answers

    Come viene trattata una variabile ordinale per il calcolo della distanza?

    <p>Tramite la relazione di ordinamento (D)</p> Signup and view all the answers

    Cosa si ottiene normalizzando 'rif' con il metodo min-max?

    <p>Un valore compreso tra 0 e 1 (D)</p> Signup and view all the answers

    Qual è l'approccio corretto per calcolare la distanza tra variabili di tipo misto?

    <p>Scegliere il metodo più adatto per ciascun tipo di variabile (D)</p> Signup and view all the answers

    Quale affermazione è vera riguardo alla distanza su dati di tipo nominale?

    <p>Può essere calcolata con metodi di matching (A)</p> Signup and view all the answers

    Qual è la formula per il calcolo della distanza utilizzando il metodo di matching semplice?

    <p>$d(i, j) = \frac{p - m}{p}$ (B)</p> Signup and view all the answers

    Quale affermazione descrive meglio gli algoritmi gerarchici nel clustering?

    <p>Forniscono una struttura ad albero per organizzare i cluster. (C)</p> Signup and view all the answers

    Qual è il principale vantaggio degli algoritmi basati sulla densità nel clustering?

    <p>Espandono cluster minimi sulla base della densità nelle vicinanze. (D)</p> Signup and view all the answers

    Quale dei seguenti metodi non è associato a un algoritmo basato su griglie?

    <p>Tecniche di rilocazione iterativa. (A)</p> Signup and view all the answers

    Quale affermazione sul calcolo della dissimilarità è vera?

    <p>I pesi degli attributi nel calcolo sono soggettivi. (A)</p> Signup and view all the answers

    Qual è un caratteristica distintiva degli algoritmi di partizionamento?

    <p>Richiedono un numero fisso di cluster a priori. (C)</p> Signup and view all the answers

    Cosa implica un algoritmo di raggruppamento guidato da vincoli?

    <p>Utilizza vincoli spaziali e raggruppamento semi-supervisionato. (D)</p> Signup and view all the answers

    Qual è la principale misura di qualità nei metodi basati sulle partizioni?

    <p>Minimizzazione delle distanze intra-cluster. (D)</p> Signup and view all the answers

    Quale di queste affermazioni è corretta riguardo agli algoritmi basati su modelli?

    <p>Il loro obiettivo è trovare la miglior disposizione dei cluster che soddisfi il modello. (D)</p> Signup and view all the answers

    Qual è la formula per calcolare la variazione dell'errore?

    <p>T = ∑ C jih (C)</p> Signup and view all the answers

    Cosa rappresenta n nella formula della variazione dell'errore?

    <p>Il numero di istanze (A)</p> Signup and view all the answers

    Qual è il significato di Cjih quando j passa dal medoide i ad h?

    <p>Cjih = d(j, h) - d(j, i) (D)</p> Signup and view all the answers

    Nel secondo caso descritto, cosa avviene con j?

    <p>j rimane assegnato ad un altro medoide (D)</p> Signup and view all the answers

    Cos'è un medoide nel contesto dell'analisi dei dati?

    <p>Un punto di riferimento per un gruppo di istanze (C)</p> Signup and view all the answers

    Qual è lo scopo principale del metodo k-medoids?

    <p>Minimizzare l'errore tra le istanze e i medoidi (A)</p> Signup and view all the answers

    Flashcards

    Cluster

    Un gruppo di istanze che sono simili tra loro, con alta somiglianza intra-classe e bassa somiglianza inter-classe.

    Analisi di raggruppamento

    Processo di raggruppamento di istanze in cluster, basato su somiglianze e differenze tra esse.

    Apprendimento non supervisionato

    L'analisi di raggruppamento è un tipo di apprendimento non supervisionato.

    Qualità dell'analisi di raggruppamento

    La qualità dell'analisi di raggruppamento dipende dalla scelta dell'algoritmo e della metrica per la misurazione della somiglianza.

    Signup and view all the flashcards

    Applicazioni dell'analisi di raggruppamento

    L'analisi di raggruppamento può essere utilizzata come metodo autonomo, come fase preliminare per altre analisi o come componente integrato di algoritmi.

    Signup and view all the flashcards

    Segmentazione di mercato

    Tra le applicazioni dell'analisi di raggruppamento, nell'ambito del marketing, questa tecnica aiuta a identificare gruppi di clienti con comportamenti di acquisto simili, detta segmentazione.

    Signup and view all the flashcards

    Analisi del rischio assicurativo

    Nell'ambito assicurativo, l'analisi di raggruppamento può identificare gruppi di assicurati con notevoli richieste di rimborso.

    Signup and view all the flashcards

    Analisi sismica

    L'analisi di raggruppamento può essere utilizzata per analizzare i dati sismici, trovando agglomerati di epicentri di terremoti lungo le faglie continentali.

    Signup and view all the flashcards

    Distanza con attributi asimmetrici

    La distanza tra due istanze viene calcolata considerando solo gli attributi asimmetrici. Per ogni attributo, se il valore è uguale in entrambe le istanze, la distanza è 0; se il valore è diverso, la distanza è 1.

    Signup and view all the flashcards

    Matching semplice (attributi nominali)

    In questo metodo, il numero di attributi che corrispondono tra due istanze viene confrontato con il numero totale di attributi. La distanza è data da (numero di attributi diversi) / (numero totale di attributi).

    Signup and view all the flashcards

    Trasformazione di attributi nominali in binari

    La trasformazione di un attributo nominale con N valori possibili in N variabili binarie asimmetriche. Ogni variabile binaria è impostata su 1 se l'attributo nominale corrisponde al valore specifico, altrimenti è 0.

    Signup and view all the flashcards

    Distanza su dati di tipo ordinale

    Metodo per calcolare la distanza tra due istanze con attributi ordinali. Si assegna un valore numerico a ciascun attributo ordinale in base alla sua posizione nell'ordine. La distanza viene quindi calcolata utilizzando i metodi per attributi di tipo intervallo.

    Signup and view all the flashcards

    Valori di tipo misto

    Si riferisce alla situazione in cui un'istanza contiene attributi di diversi tipi (ad esempio, numerici, categoriali, ordinali).

    Signup and view all the flashcards

    Dissimilarità tra istanze

    Il calcolo della dissimilarità tra due istanze è ottenuto combinando diversi metodi, ma non esiste un metodo universale. La scelta dei metodi e dei pesi da assegnare a ciascun attributo è soggettiva e dipende dal problema specifico.

    Signup and view all the flashcards

    Clustering

    Raggruppa gli elementi in base alla loro somiglianza, suddividendoli in gruppi (cluster) con caratteristiche simili.

    Signup and view all the flashcards

    Algoritmi di partizionamento

    Suddividono l'insieme di dati in k gruppi, cercando di massimizzare la qualità del raggruppamento in base alle distanze tra i gruppi.

    Signup and view all the flashcards

    Algoritmi gerarchici

    Creano una struttura gerarchica di cluster, partendo da cluster piccoli che si fondono o da un grande cluster che si divide in sotto-cluster.

    Signup and view all the flashcards

    Algoritmi basati sulla densità

    Utilizzano il concetto di densità per raggruppare elementi, ovvero la concentrazione di elementi in una determinata area.

    Signup and view all the flashcards

    Algoritmi basati su griglie

    Discretizzano i valori di input in una griglia e operano solo su questa griglia per creare i cluster.

    Signup and view all the flashcards

    Algoritmi basati su modelli

    Sfruttano modelli specifici per determinare la disposizione dei cluster, cercando di trovare la miglior disposizione che soddisfi il modello.

    Signup and view all the flashcards

    Algoritmi per dati ad alta dimensionalità

    Si applicano a dati con un alto numero di dimensioni e tengono conto di vincoli spaziali o informazioni semi-supervisionate. Spesso integrano diversi schemi di base.

    Signup and view all the flashcards

    K-means

    L'algoritmo k-means è un algoritmo di clustering che suddivide un insieme di dati in k cluster. L'algoritmo funziona assegnando ogni punto dati al cluster con il centroide più vicino. I centroidi vengono quindi aggiornati come la media di tutti i punti dati assegnati a quel cluster. Questo processo viene ripetuto fino a quando i centroidi non cambiano più.

    Signup and view all the flashcards

    Iterazione di K-means

    Un'iterazione dell'algoritmo k-means è un passaggio completo della fase di assegnazione e della fase di aggiornamento. Nella fase di assegnazione, ciascun punto dati viene assegnato al cluster più vicino. Nella fase di aggiornamento, i centroidi di ciascun cluster vengono aggiornati come la media di tutti i punti dati in quel cluster.

    Signup and view all the flashcards

    Centroide

    Il centroide di un cluster è il punto medio di tutti i punti dati assegnati a quel cluster. Il centroide è il punto centrale del cluster.

    Signup and view all the flashcards

    Complessità computazionale

    La complessità computazionale di un algoritmo è una misura del numero di operazioni che l'algoritmo deve eseguire per risolvere un problema. La complessità temporale di un algoritmo è il numero di operazioni che l'algoritmo deve eseguire per risolvere un problema di dimensione n.

    Signup and view all the flashcards

    Ottimo globale e ottimo locale

    Un ottimo globale è la soluzione migliore possibile per un problema. Un ottimo locale è una soluzione migliore per un problema rispetto a tutti i suoi vicini, ma non necessariamente la migliore soluzione possibile.

    Signup and view all the flashcards

    Annealing simulato

    L'annealing simulato è una tecnica di ottimizzazione che cerca di trovare la soluzione migliore per un problema usando un approccio simile a quello della metallurgia. L'annealing simulato inizia con una soluzione casuale e iterativamente la migliora finché non si trova la soluzione migliore.

    Signup and view all the flashcards

    Algoritmi genetici

    Gli algoritmi genetici sono una classe di algoritmi di ottimizzazione ispirati dal processo di evoluzione biologica. Gli algoritmi genetici usano un insieme di soluzioni candidato e iterativamente le migliorano tramite operatori genetici come la riproduzione, la mutazione e la selezione.

    Signup and view all the flashcards

    Dati categoriali

    I dati categoriali sono dati che possono assumere solo un numero finito di valori discreti. Ad esempio, il colore degli occhi è un dato categoriale perché può assumere solo un piccolo numero di valori. I dati di tipo categoriale non sono adatti per l'utilizzo con l'algoritmo k-means.

    Signup and view all the flashcards

    Limiti del k-means

    L'algoritmo k-means è sensibile a rumore e outliers, il che può influenzare la qualità dei cluster. Inoltre, non è adatto per cluster con forme non convesse.

    Signup and view all the flashcards

    Parametro k nel k-means

    Nell'algoritmo k-means, il numero di cluster (k) deve essere specificato in anticipo. La scelta di k influenza significativamente la qualità dei cluster finali.

    Signup and view all the flashcards

    Cosa sono i cluster?

    Un gruppo di istanze che sono simili tra loro. In genere, i dati vengono suddivisi in diversi gruppi o cluster in base alle loro similarità.

    Signup and view all the flashcards

    Ottimo locale in k-means

    In k-means, un ottimo locale è una soluzione in cui l'algoritmo termina senza alcun miglioramento. Non è necessariamente la soluzione ottimale globale.

    Signup and view all the flashcards

    Metodo k-medoids

    Un metodo di clustering in cui il centro di gravità di un cluster è rappresentato dall'istanza più centrale nel cluster stesso.

    Signup and view all the flashcards

    Come funziona il k-medoids?

    L'algoritmo k-medoids inizia scegliendo un numero iniziale di k istanze chiamate medoidi. Ogni iterazione assegna le istanze al cluster con il medoide più vicino e considera di sostituire i medoidi per migliorare la qualità dei cluster.

    Signup and view all the flashcards

    Qualità dei cluster in k-medoids

    Una misura comune per la qualità dei cluster nel k-medoids è l'errore assoluto. L'errore è la somma delle distanze di ogni istanza dal suo medoide.

    Signup and view all the flashcards

    Variazione dell'errore (Tih)

    La variazione dell'errore è la somma delle componenti dell'errore per ogni istanza, dove ogni componente è la differenza tra la distanza dell'istanza dal nuovo medoide e la distanza dall'attuale medoide.

    Signup and view all the flashcards

    Cjih: componente dell'errore

    L'errore risultante dalla variazione di un'istanza che passa dal medoide "i" al medoide "h" è la differenza tra la distanza dell'istanza dal nuovo medoide "h" e la distanza dall'attuale medoide "i".

    Signup and view all the flashcards

    Cjih = 0 quando j rimane assegnato allo stesso medoide

    L'errore è 0 perché l'istanza j rimane associata allo stesso medoide.

    Signup and view all the flashcards

    Cjih per j che passa da "i" a "t" diverso da "h"

    L'errore è dato dalla differenza tra la distanza dell'istanza dal nuovo medoide "t" e la distanza dall'attuale medoide "i".

    Signup and view all the flashcards

    Cjih per j che passa da "t" diverso da "i" a "h"

    L'errore è la differenza tra la distanza dell'istanza dal nuovo medoide "h" e la distanza dall'attuale medoide "t".

    Signup and view all the flashcards

    Assegnazione di istanze ai cluster nel metodo k-medoids

    Nel metodo k-medoids, ogni istanza viene assegnata al cluster del medoide più vicino. L'obiettivo è trovare una partizione del set di dati in k cluster che minimizzano la somma delle distanze tra le istanze e i loro medoidi.

    Signup and view all the flashcards

    Fasi iniziali del metodo k-medoids

    Il metodo k-medoids inizia con una partizione iniziale del set di dati in k cluster e sceglie i medoidi in modo casuale. Poi, iterativamente, le istanze vengono riassegnate ai cluster basandosi sulla loro distanza dai medoidi, aggiornando i medoidi finché non converge.

    Signup and view all the flashcards

    Obiettivo del metodo k-medoids

    L'obiettivo del metodo k-medoids è trovare k medoidi che minimizzano la somma delle distanze tra le istanze e i loro medoidi in ciascun cluster.

    Signup and view all the flashcards

    Resistenza agli outlier del metodo k-medoids

    Il metodo k-medoids è un algoritmo di clustering che non è influenzato da valori anomali, perché utilizza punti dati reali come medoidi.

    Signup and view all the flashcards

    Applicabilità del metodo k-medoids a dati di tipo misto

    Il metodo k-medoids è un algoritmo di clustering che può essere utilizzato per dati di tipo misto.

    Signup and view all the flashcards

    Complessità computazionale del metodo k-medoids

    La complessità computazionale del metodo k-medoids è spesso molto bassa. La sua complessità computazionale dipende dalla dimensione del set di dati e dal numero di cluster. È importante notare che la complessità computazionale può variare a seconda dell'implementazione specifica dell'algoritmo.

    Signup and view all the flashcards

    Robustezza del metodo k-medoids

    Il metodo k-medoids è considerato un algoritmo di clustering robusto, che è relativamente insensibile alle piccole variazioni nel set di dati. È un'alternativa al metodo k-means, che è più sensibile agli outlier e ai casi di tipo misto.

    Signup and view all the flashcards

    Applicazioni del metodo k-medoids

    Il metodo k-medoids è spesso utilizzato in diverse applicazioni, come la segmentazione di mercato, l'analisi del rischio, la bioinformatica e il riconoscimento di modelli. La scelta di un metodo di clustering dipende dal tipo di dati, dal numero di cluster e dalle esigenze specifiche dell'applicazione.

    Signup and view all the flashcards

    Study Notes

    Analisi di Raggruppamento (Clustering)

    • Un gruppo (cluster) è una collezione di istanze simili tra loro, con alta somiglianza intra-classe, e istanze di cluster diversi dissimili, con bassa somiglianza inter-classe.
    • L'analisi di raggruppamento (cluster analysis) è un processo di raggruppamento delle istanze in cluster.
    • Si tratta di un tipo di apprendimento non supervisionato, dove le istanze di addestramento non hanno una classe nota a priori.
    • La qualità dell'analisi di raggruppamento dipende dal parametro scelto per misurare la somiglianza inter e intraclasse e dall'algoritmo utilizzato.

    Applicazioni dell'Analisi di Raggruppamento

    • Può essere utilizzata come analisi stand-alone o come processo preliminare ad altre analisi di dati, ad esempio, per assegnare etichette ad ognuno dei dati e poi usare un algoritmo di classificazione.
    • Può essere anche un componente integrato di algoritmi per altri tipi di analisi, come le regole associative quantitative basate sulla distanza.
    • Utile nella fase di pre-elaborazione dati, ad esempio per l'eliminazione di outlier o per la riduzione della numerosità dei dati.

    Esempi di Analisi di Raggruppamento

    • Marketing: Identifica gruppi di clienti distinti in base alle abitudini di acquisto (analisi di segmentazione).
    • Assicurazioni: Identifica gruppi di assicurati con richieste di rimborso elevate.
    • Studi sui terremoti: Gli epicentri dovrebbero essere raggruppati lungo le faglie continentali.
    • Motori di ricerca: I risultati possono essere raggruppati per presentare risposte simili all'utente in un unico gruppo.

    Distanza tra Istanze

    • La distanza tra istanze (d(i,j)) misura la dissimilarità o distanza tra le istanze i ed j.
    • La definizione di distanza cambia a seconda del tipo di dato degli attributi.

    Strutture Dati

    • Gli algoritmi di raggruppamento usano spesso matrici dati (x ᵢ ⱼ = attributo i dell'istanza j) o matrici di distanza.
    • Le matrici di distanza rappresentano le distanze tra tutte le possibili coppie di istanze, quindi d(i, j) = d(j, i), e la matrice è simmetrica rispetto alla diagonale.

    Distanze e Tipi di Dati

    • La distanza (d(i, j)) misura la dissimilarità tra due istanze.
    • La definizione cambia a seconda dei tipi di dati: dati intervallo, dati nominali (e binari), dati ordinali.
    • In alcune situazioni, attributi diversi possono avere tipi diversi.

    Dati di Tipo Intervallo e Normalizzazione

    • Per definire una misura di distanza su dati di tipo intervallo, è necessario normalizzare i dati.
    • Solitamente, si vuole che i diversi attributi abbiano lo stesso peso.
    • Esempio: Dati che rappresentano città, con attributi come temperatura media e popolazione.
    • Esistono diversi metodi per normalizzare i dati (es. zero-score normalization, mix-man normalization).

    Normalizzazione (1) e (2)

    • Zero-score normalization: Calcola la media (m) e lo scarto assoluto medio (S) per ogni attributo e poi normalizza ogni valore tramite (xᵢ ᵢ - m)/ S
    • Mix-man normalization: Normalizza ogni attributo xᵢᵢ tra 0 e 1 tramite la formula (xᵢᵢ -minᵢᵢ ) / (maxᵢᵢ - minᵢᵢ)

    Distanza su Dati di Tipo Intervallo

    • Distanza di Manhattan: dm(i, j) = |x₁₁-xⱼ₁| + |x₁₂-xⱼ₂| + ... + |xᵢₚ-xⱼₚ|
    • Distanza euclidea: dₑ(i, j) = √((x₁₁-xⱼ₁)² + (x₁₂-xⱼ₂)² + ... + (xᵢₚ-xⱼₚ)²)
    • Le distanze devono avere alcune proprietà generali, come essere positive definite, simmetriche e soddisfare la disuguaglianza triangolare.

    Distanza su Dati di Tipo Binario (1) e (2)

    • Distanza di matching semplice: per attributi simmetrici.
    • Distanza di Jaccard: per attributi asimmetrici.

    Distanza su Dati di Tipo Nomina/Ordina

    • Dati nominali: si trasforma ogni variabile nominale in una serie di variabili binarie, in cui ogni variabile corrisponde a un livello della variabile nominale.
    • Dati ordinali: si rimpiazza ogni valore con la sua posizione nell'ordinamento, e poi si normalizza usando il metodo min-max.
    • Infine, si calcola la distanza usando i metodi per i dati di tipo intervallo.

    Distanza su Dati di Tipo Misto

    • In generale, un'istanza può contenere valori di diversi tipi.
    • La dissimilarità è calcolata combinando i metodi per i diversi tipi di dati.
    • Non esiste un metodo universale migliore per combattere tutte le combinazioni.

    Classificazione degli Algoritmi di Raggruppamento

    • Algoritmi di partizionamento: dividono le istanze in k partizioni. Usano tecniche di rilocazione iterativa per migliorare la qualità dei cluster.
    • Algoritmi gerarchici: creano una decomposizione gerarchica dell'insieme di tutte le istanze. Sono simili agli alberi zoologici e possono essere agglomerativi o scissori.
    • Algoritmi basati sulla densità: basati sul concetto di densità e cercano clusters con una densità superiore rispetto al resto dello spazio.
    • Algoritmi basati su griglie: discretizzano i valori in una struttura a griglia per accelerare le operazioni.
    • Algoritmi basati su modelli: basati sulla ricerca di modelli per caratterizzare i cluster.
    • Algoritmi di raggruppamento guidati da vincoli: che tengono conto di vincoli aggiuntivi da parte dell'utente.
    • Algoritmi Semi-Supervisionati: i cui vincoli sono in parte forniti dall'utente e in parte dal risultato dell'esperienza.
    • Metodi Basati su Partizioni: algoritmi k-means, k-medoids.

    Metodo K-Means

    • Adotta il punto medio di ogni cluster come suo centro di gravità.
    • Tenta di minimizzare l'errore quadratico, calcolando la distanza tra il punto medio e tutte le altre istanze all'interno del cluster.
    • Procedura iterativa per assegnare ogni istanza al cluster più vicino e aggiornare i punti centrali dei clusters.

    Metodo K-Medoids

    • Adotta un elemento come medoide all’interno del cluster, in modo da contrastare l’impatto di outlier.
    • Procede in modo iterativo per assegnare ogni istanza al medoide più vicino e per aggiornare i medoidi.
    • Considera sia i medoidi iniziali che i medoidi potenziali.

    Pregi e Difetti del Metodo K-Means

    • Pregi: relativamente efficiente, spesso trova un ottimo locale, robusto a rumore.
    • Difetti: necessità di specificare k in anticipo, molto sensibile a rumore, outlier e forme non convesse di cluster, potrebbe convergere a soluzioni locali.

    Pregi e Difetti del Metodo K-Medoids

    • Pregi: la robustezza a outlier dei valori, funzione anche sui dati categoriali.
    • Difetti: meno efficiente del k-means, si ferma a soluzioni locali.

    Bibliografia

    • Si includono i riferimenti bibliografici (scritti) ai ricercatori e alle pubblicazioni da cui sono tratte le informazioni sull'analisi di raggruppamento.

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Related Documents

    Description

    Scopri i concetti fondamentali dell'analisi di raggruppamento, un approccio di apprendimento non supervisionato. Impara a distinguere tra cluster simili e dissimili e le misure di somiglianza utilizzate in questo processo analitico. Esplora anche le applicazioni pratiche di questa tecnica nei dati.

    More Like This

    Use Quizgecko on...
    Browser
    Browser