PACKAGES

factoextra | gplots

Cluster: Hierarchical K-means

r.hkmeans esegue una Hierarchical K-means cluster.

Hierarchical K-means è un metodo ibrido che combina cluster gerarchica e cluster k-means. Un’iniziale cluster gerarchica viene utilizzata per calcolare i centri dei cluster di una successiva cluster k-means. L’HC evita il problema della selezione random iniziale dei centri dei cluster, mentre la K-means ottimizza i cluster ricavati dall’HC. La soluzione finale può essere leggermente differente dai cluster ottenuti dall’HC.

Argomenti: [1]

  • varlist: l’elenco delle variabili da utilizzare nell’analisi
  • Determinazione del numero di cluster:
    • :method => :silhouette|:wss|:gap_stat: il metodo di stima del numero ottimale di cluster (default: :gap_sta)
    • :kmax => num: il numero massimo di cluster da considerare (default: 10)
    • :nboot => num: il numero di Monte Carlo samples per il calcolo della statistica gap (default: 100)
  • Hierarchical Clustering:
    • :k => num|:auto: il numero di cluster da generare oppure :auto per determinare il numero dei cluster in base al metodo :silhouette (default: :auto)
    • :scale => true|false: se standardizzare o meno le variabili (default: true)
    • :metric => :euclidean|:manhattan: metrica utilizzata per il calcolo delle dissimilarità (default: :euclidean)
    • :linkage => :average|:single|:complete|:ward|:weighted|:gaverage: metodo di clustering (default: :ward)
  • K-means Clustering:
    • :algorithm => :hartigan_wong|:lloyd|:forgy|:macqueen: algoritmo usato per la cluster K-means (default: :hartigan_wong)
    • :cluster => name: il nome della variabile cluster

Tabelle disponibili:

  • :analysis: riepilogo dei parametri dell’analisi
  • :clus: la distribuzione dei cluster
  • :squares: scarti quadratici medi all’interno dei cluster e tra i cluster
  • :centers: i centri (medie) degli scarti
  • :descrv: la descrizione dei cluster in base alle variabili originarie

Grafici disponibili:

  • :dist: la matrice di dissimilarità
  • :nclu: il numero ottimale di cluster
  • :dend: il dendogramma
  • :fctmap: i cluster plottati sul piano delle prime due componenti principali
  • :heatmap: heat map dei centri dei cluster

Metodi dell’oggetto restituito:

  • centers(false|true): restituisce i centri dei cluster:
    • true: come array di hash con i nomi delle variabili
    • false: senza i nomi delle variabili come array di arrai (default)
1
2
model = [:murder, :assault, :urbanpop, :rape]
r.hkmeans model, :rownames => :state, :k => 3, :palette => 12
_images/hkmeans_1.png
_images/hkmeans_dist.png
_images/hkmeans_nclu.png
_images/hkmeans_dend.png
_images/hkmeans_fctmap.png
_images/hkmeans_2.png
_images/hkmeans_3.png
_images/hkmeans_heatmap.png
_images/hkmeans_4.png
_images/hkmeans_5.png


Note

[1]Consultare Analisi per l’elenco dei parametri generali.