Sadržaj
Klaster analiza je metoda organiziranja podataka u reprezentativne skupine na temelju sličnih karakteristika. Svaki član klastera ima više zajedničkog s ostalim članovima istog klastera nego s članovima ostalih skupina. Najreprezentativnija točka unutar grupe naziva se centroid. Obično je to srednja vrijednost točaka podataka u klasteru.
Organizirajte podatke. Ako se podaci sastoje od jedne varijable, može biti prikladan histogram. Ako su uključene dvije varijable, graficirajte podatke na koordinatnoj ravnini. Na primjer, ako ste gledali visinu i težinu školske djece u učionici, crtajte točke podataka za svako dijete na grafikonu, s tim da je težina vodoravna os, a visina vertikalna os. Ako su uključene više od dvije varijable, potrebne su matrice za prikaz podataka.
Grupirajte podatke u klastere. Svaki klaster trebao bi se sastojati od točaka najbližih podataka. U primjeru visine i težine, grupirajte sve točke koje izgledaju bliske zajedno. Broj klastera i mora li svaka točka podataka biti u klasteru može ovisiti o svrha studije.
Za svaki klaster dodajte vrijednosti svih članova.Na primjer, ako se skup podataka sastoji od točaka (80, 56), (75, 53), (60, 50) i (68,54), zbroj vrijednosti bio bi (283, 213).
Podijelite ukupno na broj članova klastera. U gornjem primjeru, 283 podijeljeno sa četiri je 70,75, a 213 podijeljeno sa četiri je 53,25, pa je središnja skupina klastera (70,75, 53,25).
Nacrtajte centroide klastera i utvrdite jesu li neke točke bliže centroidu drugog klastera nego što su to središta njihovog vlastitog klastera. Ako su neke točke bliže drugom centroidu, redistribuirajte ih u klaster koji sadrži bliži centroid.
Ponavljajte korake 3, 4 i 5 dok se sve točke podataka ne nalaze u klasteru koji sadrži centroid koji im je najbliži.