You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Questa tipologia di algoritmi è quella che si avvicina di più allo studio statistico. I cluster possono essere definiti come l'insieme di oggetti che appartengono, probabilmente, alla stessa distribuzione\cite{distribution-based_clustering}.
Anche se dal punto di vista teorico questi modelli sono eccellenti, soffrono di un problema chiave chiamato \emph{overfitting}.
Si parla di overfitting quando nell'apprendimento automatico e nel data mining quando un algoritmo che prevede apprendimento viene allenato usando un training set e si assume che quest'algoritmo raggiungerà uno stato in cui sarà in grado di prevedere gli output per tutti gli altri esempi. Tuttavia, è possibile che a causa di un apprendimento svolto in modo sbagliato, il modello potrebbe adattarsi a caratteristiche che sono specifiche del training set ma che non hanno riscontro nel resto dei casi\cite{overfitting}.
L'algoritmo che definisce al meglio questa tipologia è il Gaussian Mixture Models.