Typer Clustering Algoritmer

April 18

Clustering er en maskinlæring teknikk fungerer ved å gruppere lignende sammen. Clustering er en type uten tilsyn maskinlæring. Algoritmen trenger ikke å bli "trent" og gruppere data i sammenhengende grupper med ut en "forutinntatte" oppfatningen av hva som hører sammen. Dette skiller seg fra tilsyn maskin læringssystemer som må "opplært" til etikettdata korrekt. Clustering brukes hovedsakelig som en datamaskin mønstergjenkjenning mekanisme.

Generative eller sannsynlighet Basert Algoritmer

Generative eller sannsynlighets basert clustering algoritmer forsøke å klassifisere datasettene som en slags kjent distribusjon, en felles gruppering av numeriske data. En slik algoritme kan bare brukes på talldata. Generative algoritmer kommer med flere advarsler. Problemet kan være uløselig hvis dataene er lov til å variere også fritt. Generative algoritmer også anta at dataene bærer en kjent fordeling, noe som ikke alltid sant. Disse typer algoritmer heller ikke høyde for "støy" i dataene.

K-means

K-means var en av de første clustering metoder for å bli utviklet. Det er enkelt å gjennomføre, men det har den ulempe at den er meget følsom for dets startinnganger. K-means verk ved å dele dataene inn i et vilkårlig sett av klynger, og deretter ny beregning midtpunktene til hver klynge og gjenta prosessen inntil det bare er en klynge. Dette er kjent som konvergens.

fuzzy Clustering

I stedet for å identifisere data som hører til bestemte grupper, forsøker fuzzy clustering for å identifisere i hvilken grad et datapunkt hører til en gruppe. Algoritmene som benyttes for å gjøre fuzzy gruppering er kjent som «C-betyr algoritmer." I fuzzy clustering tilnærming, kan et datapunkt tilhøre mer enn en gruppe. Denne type av gruppering er nyttig når datapunkter kan være nødvendig å tilhøre mer enn en gruppe.

agglomerative Clustering

Agglomerative clustering var en av de første clustering algoritmer som skal utvikles. Det er fortsatt i bruk, da det er også en av de enkleste algoritmer utviklet til dags dato. Agglomerative gruppering virker ved å behandle hvert enkelt datapunkt som en klynge og gruppering det med den mest lignende datapunkt. Denne prosessen gjentas inntil data "konvergerer", eller det er en stor klynge som inneholder alle data. Prosessen kan også utføres i omvendt til den samme virkning. Starter med en klynge, kan alle data være gjentatte ganger fordelt til hvert datapunkt er sin egen klynge.