Hierarchické vs. čiastkové zoskupovanie
Zhlukovanie je technika strojového učenia na analýzu údajov a rozdelenie do skupín podobných údajov. Tieto skupiny alebo súbory podobných údajov sú známe ako zoskupenia. Klastrová analýza sa zameriava na klastrové algoritmy, ktoré dokážu automaticky identifikovať klastre. Hierarchické a parciálne sú dve také triedy klastrových algoritmov. Hierarchické klastrové algoritmy rozdeľujú údaje do hierarchie klastrov. Parciálne algoritmy rozdeľujú množinu údajov na vzájomne disjunktívne oddiely.
Čo je hierarchické zoskupovanie?
Hierarchické klastrové algoritmy opakujú cyklus zlúčenia menších zhlukov do väčších alebo rozdelenia väčších zhlukov na menšie. V oboch prípadoch vytvára hierarchiu zhlukov nazývanú dendogram. Aglomeračná klastrová stratégia využíva prístup zdola nahor pri spájaní klastrov do väčších, zatiaľ čo deliaca klastrová stratégia využíva prístup zdola nahor pri rozdelení na menšie. Chamtivý prístup sa zvyčajne používa pri rozhodovaní o tom, ktoré väčšie / menšie zhluky sa používajú na zlúčenie / rozdelenie. Euklidovská vzdialenosť, vzdialenosť na Manhattane a kosínusová podobnosť sú niektoré z najbežnejšie používaných metrík podobnosti pre číselné údaje. Pre nečíselné údaje sa používajú metriky, ako je Hammingova vzdialenosť. Je dôležité poznamenať, že skutočné pozorovania (prípady) nie sú potrebné pre hierarchické zoskupovanie, pretože postačuje iba matica vzdialeností. Dendogram je vizuálna reprezentácia klastrov, ktorá veľmi jasne zobrazuje hierarchiu. Užívateľ môže získať rôzne zoskupovanie v závislosti od úrovne, v ktorej je dendogram rezaný.
Čo je čiastkové zoskupovanie?
Algoritmy rozdeleného zoskupovania generujú rôzne oddiely a potom ich hodnotia podľa určitého kritéria. Sú tiež označované ako nehierarchické, pretože každý prípad je umiestnený v presne jednom z k vzájomne sa vylučujúcich zoskupení. Pretože iba jeden súbor klastrov je výstupom typického algoritmu čiastkového klastrovania, od používateľa sa požaduje, aby zadal požadovaný počet klastrov (zvyčajne sa nazýva k). Jedným z najčastejšie používaných partikulárnych klastrových algoritmov je k-stredný klastrovací algoritmus. Od používateľa sa vyžaduje, aby pred začiatkom poskytol počet klastrov (k) a algoritmus najskôr iniciuje centrá (alebo centroidy) oddielov k. Stručne povedané, k-znamená klastrovací algoritmus potom priraďuje členov na základe súčasných centier a prehodnocuje centrá na základe súčasných členov. Tieto dva kroky sa opakujú dovtedy, kým nie sú optimalizované určité objektívne funkcie podobnosti vnútri klastra a cieľová funkcia rozdielov podobnosti medzi klastrami. Preto je rozumná inicializácia centier veľmi dôležitým faktorom pri získavaní kvalitných výsledkov z partikulárnych algoritmov zoskupovania.
Aký je rozdiel medzi hierarchickým a partikulárnym klastrom?
Hierarchické a čiastkové zoskupovanie majú kľúčové rozdiely v čase prevádzky, predpokladoch, vstupných parametroch a výsledných zoskupeniach. Čiastočné zoskupovanie je zvyčajne rýchlejšie ako hierarchické zoskupovanie. Hierarchické zoskupovanie vyžaduje iba mieru podobnosti, zatiaľ čo čiastočné zoskupovanie vyžaduje silnejšie predpoklady, ako je počet zoskupení a počiatočné strediská. Hierarchické klastrovanie nevyžaduje žiadne vstupné parametre, zatiaľ čo algoritmy čiastočného klastrovania vyžadujú spustenie počtu klastrov. Hierarchické zoskupovanie vracia oveľa zmysluplnejšie a subjektívnejšie rozdelenie zoskupení, ale čiastočné zoskupovanie má za následok presne zoskupenie k. Hierarchické zoskupovacie algoritmy sú vhodnejšie pre kategorické údaje, pokiaľ je možné podľa toho definovať mieru podobnosti.