Jdi na obsah Jdi na menu
 


Cluster Analysis

17. 3. 2009
Cluster Analysis
(Slučovací / shluková analýza)

Obrazek

 
          cluster = shluk, chumáč, seskupení, sloučení, hromada, skupina, trs, sada, roj hrozen…
          termín Clustrer analysis známe od roku 1939 (poprvé použil Tryon)
          označuje ve skutečnosti rozdílné algoritmy, které byly vyvinuty pro systematizování (taxonomii)
 
Příklad systematizování:
          biologové organizují druhy podle rozdílů (mezi živočichy a rostlinami)
          člověk patří mezi primáty, savce, obratlovce a zvířata
          člověk je poměrně dost podobný opici (primát), už méně třeba psu nebo myši (savec) a ještě méně třeba rybě
 

Obrazek

           clustering (slučování, seskupování) je běžné v každodenním životě
           v supermarketu je shlukováno podobné zboží (polévky, pečivo, mražené maso…)
           lidé v restauraci, kteří právě obědvají u stejného stolu, tvoří cluster

           hrací karty můžeme rozdělit do skupin (clustrs) například podle barev, hodnot…

 

Příklad shluků u karet

  Obrazek

 

Příklad shluku v 2d prostoru 

Obrazek

 

 

 

Příklad shluků uvnitř shluků

Obrazek

  

  •  Vzdálenost center clusterů (červená)
  •  Vzdálenost od centra clusteru k objektu (modrá

Obrazek

Cluster analysis byla navržena k tomu, aby řešila následující problémy:

          existuje n objektů, z nichž každý má skóre na p proměnných. Vymysleme jak seskupit objekty do tříd tak, aby byly podobné objekty v jedné skupině
          počet tříd není předem známý.
 
Použití cluster analysis:
          objevení skutečných skupin (nemáme žádné a priori hypotézy)
          ověření stávajícího dělení
          redukce dat (např. z velkého množství měst, můžeme k průzkumu trhu použít jen několik málo)
 

 

 

  •  Cluster analysis patří mezi statistické metody rozdělující vzorky do stejnorodých tříd

     

Obrazek

Typy cluster analysis:

          existuje velké množství algoritmů, nejznámější jsou však tyto dvě skupiny:
 
1) Hierarchické metody (Hierarchical Cluster)
          vytvářejí dendogram-hierarchický strom
          kalkulují vzdálenost každého objektu ke všem ostatním
          skupiny se tvoří procesem hromadění nebo dělení
 
  • Dendrogram Hierarchický strom je tvořen postupným slučováním jednotlivých objektů do stále větších skupin (clusterů)
 Obrazek
  • Vzdálenost v 2D prostoru

 Obrazek

  • Vzdálenost v 3D prostoru

Obrazek

2) Rozdělovací metody (K-Means Cluster)

          dopředu zvolíme dané množství skupin
          jednotlivé objekty se postupně přidělují k centrům, dokud není dosaženo výpočetní stability
 
Hierarchické metody:
          vycházejí z matice vzdáleností mezi jednotlivými objekty
          na začátku tvoří všechny objekty tvoří skupinu o velikosti jednoho objektu
          postupně jsou všechny objekty podle vzdálenosti (podobnosti) slučovány dokud netvoří jednu velkou skupinu

  

 
Využití Clustrer analysis:
          analýza trhu; předpověď budoucího chování různých skupin obyvatelstva
          model ekonomických vyhlídek v nejrůznějších průmyslových sektorech (optimalizace funkčních procesů)
          obchod – pomáhá při identifikaci lokalit nebo návrhu výrobků
          diagnostika nemocí; různé efekty ošetření v odlišných skupinách obyvatelstva
 
 
 
 

Komentáře

Přidat komentář

Přehled komentářů

Zatím nebyl vložen žádný komentář