Cluster Analysis
17. 3. 2009
Cluster Analysis
(Slučovací / shluková analýza)
• cluster = shluk, chumáč, seskupení, sloučení, hromada, skupina, trs, sada, roj hrozen…
• termín Clustrer analysis známe od roku 1939 (poprvé použil Tryon)
• označuje ve skutečnosti rozdílné algoritmy, které byly vyvinuty pro systematizování (taxonomii)
Příklad systematizování:
• biologové organizují druhy podle rozdílů (mezi živočichy a rostlinami)
• člověk patří mezi primáty, savce, obratlovce a zvířata
• člověk je poměrně dost podobný opici (primát), už méně třeba psu nebo myši (savec) a ještě méně třeba rybě
• clustering (slučování, seskupování) je běžné v každodenním životě
• v supermarketu je shlukováno podobné zboží (polévky, pečivo, mražené maso…)
• lidé v restauraci, kteří právě obědvají u stejného stolu, tvoří cluster
• hrací karty můžeme rozdělit do skupin (clustrs) například podle barev, hodnot…
Příklad shluků u karet
Příklad shluku v 2d prostoru
Příklad shluků uvnitř shluků
-
Vzdálenost center clusterů (červená)
- Vzdálenost od centra clusteru k objektu (modrá
Cluster analysis byla navržena k tomu, aby řešila následující problémy:
• existuje n objektů, z nichž každý má skóre na p proměnných. Vymysleme jak seskupit objekty do tříd tak, aby byly podobné objekty v jedné skupině
• počet tříd není předem známý.
Použití cluster analysis:
• objevení skutečných skupin (nemáme žádné a priori hypotézy)
• ověření stávajícího dělení
• redukce dat (např. z velkého množství měst, můžeme k průzkumu trhu použít jen několik málo)
-
Cluster analysis patří mezi statistické metody rozdělující vzorky do stejnorodých tříd
Typy cluster analysis:
• existuje velké množství algoritmů, nejznámější jsou však tyto dvě skupiny:
1) Hierarchické metody (Hierarchical Cluster)
• vytvářejí dendogram-hierarchický strom
• kalkulují vzdálenost každého objektu ke všem ostatním
• skupiny se tvoří procesem hromadění nebo dělení
- Dendrogram Hierarchický strom je tvořen postupným slučováním jednotlivých objektů do stále větších skupin (clusterů)
- Vzdálenost v 2D prostoru
-
Vzdálenost v 3D prostoru
2) Rozdělovací metody (K-Means Cluster)
• dopředu zvolíme dané množství skupin
• jednotlivé objekty se postupně přidělují k centrům, dokud není dosaženo výpočetní stability
Hierarchické metody:
• vycházejí z matice vzdáleností mezi jednotlivými objekty
• na začátku tvoří všechny objekty tvoří skupinu o velikosti jednoho objektu
• postupně jsou všechny objekty podle vzdálenosti (podobnosti) slučovány dokud netvoří jednu velkou skupinu
Využití Clustrer analysis:
• analýza trhu; předpověď budoucího chování různých skupin obyvatelstva
• model ekonomických vyhlídek v nejrůznějších průmyslových sektorech (optimalizace funkčních procesů)
• obchod – pomáhá při identifikaci lokalit nebo návrhu výrobků
• diagnostika nemocí; různé efekty ošetření v odlišných skupinách obyvatelstva
Komentáře
Přehled komentářů
Zatím nebyl vložen žádný komentář