-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathclustering_partizionale.tex
25 lines (20 loc) · 1.69 KB
/
clustering_partizionale.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
\section{Clustering partizionale}
Gli algoritmi di clustering di questa famiglia creano una partizione delle osservazioni minimizzando la funzione di costo:
\begin{equation*}
\sum_{i=1}^{k}{E(C_i)}
\end{equation*}
dove $k$ è il numero dei cluster richiesti in output, $C_i$ è l'$i$-esimo cluster e $E:C \rightarrow R^{+}$ è la funzione di costo associata al singolo cluster.
Questa funzione viene spesso tradotta in\cite{funzione_costo}:
\begin{equation*}
E(C_i) = \sum_{j=1}^{|C_i|}{d(x_j, center(i))}
\end{equation*}
dove $|C_i|$ è il numero di oggetti presenti nel $i$-esimo cluster, $x_j \in C_i$ e $d(x_j, center(i))$ è una funzione che calcola la distanza tra il punto $x_j$ ed il centro del cluster $i$-esimo.
Questa tipologia di algoritmi solitamente richiede di specificare il numero di cluster distinti che si vogliono raggiungere a processo terminato e mira ad identificare i gruppi naturali presenti nel dataset, generando una partizione composta da cluster disgiunti la cui unione forma il dataset originale.
Questo significa che ogni cluster ha almeno un elemento e che un elemento appartiene ad un solo cluster.
Per segmentare l'insieme in sottogruppi si utilizza il concetto di centri: ogni centro è inizialmente posizionato in modo casuale, o secondo un qualsivoglia algoritmo; successivamente, i centri vengon mossi fino al raggiungimento di uno stato di fermo. Quando ciò accade si è in grado di definire a quale centro viene associato il singolo punto e, di conseguenza, la struttura dei cluster calcolati.
Gli algoritmi più importanti appartenenti questa categoria sono:
\begin{itemize}
\item K-means
\item K-medoids
\item Affinity Propagation
\end{itemize}