Zhlukovacie a klasifikačné techniky sa používajú pri strojovom vzdelávaní, získavaní informácií, vyšetrovaní obrazu a súvisiacich úlohách.
Tieto dve stratégie sú dve hlavné divízie procesov získavania údajov. Vo svete analýzy údajov sú tieto prvky nevyhnutné pri riadení algoritmov. Konkrétne oba tieto procesy rozdeľujú údaje na sady. Táto úloha je v dnešnom informačnom veku veľmi dôležitá, pretože je potrebné vhodne uľahčiť obrovské zvýšenie údajov spojené s rozvojom..
Zoskupovanie a klasifikácia pomáha pri riešení globálnych problémov, ako sú zločin, chudoba a choroby, prostredníctvom vedy o údajoch.
Zoskupovanie v podstate zahŕňa zoskupovanie údajov s ohľadom na ich podobnosti. Ide predovšetkým o opatrenia na meranie vzdialenosti a algoritmy zoskupovania, ktoré vypočítavajú rozdiel medzi údajmi a systematicky ich delia.
Napríklad študenti s podobnými učebnými štýlmi sú zoskupení a učia sa oddelene od študentov s odlišnými vzdelávacími prístupmi. Pri získavaní údajov je zoskupovanie najčastejšie označované ako „učebné techniky bez dozoru“, pretože zoskupovanie je založené na prirodzenej alebo prirodzenej charakteristike.
Uplatňuje sa v niekoľkých vedeckých oblastiach, ako sú informačné technológie, biológia, kriminalistika a medicína.
Klastrovanie nemá presnú definíciu, preto existujú rôzne klastrové algoritmy alebo klastrové modely. Zhruba povedané, dva druhy zoskupovania sú tvrdé a mäkké. Tvrdé klastrovanie sa týka označovania objektu ako jednoducho patriaceho do klastra alebo nie. Naopak mäkké klastrovanie alebo fuzzy klastrovanie určuje mieru toho, ako niečo patrí do určitej skupiny.
Potvrdenie alebo vyhodnotenie výsledkov zoskupovacej analýzy je často ťažké zistiť kvôli jej neodmysliteľnej nepresnosti.
Keďže ide o nepodrobenú vzdelávaciu stratégiu, analýza je založená iba na súčasných vlastnostiach; preto nie je potrebná žiadna prísna regulácia.
Klasifikácia znamená priradenie štítkov k existujúcim situáciám alebo triedam; preto termín „klasifikácia“. Napríklad študenti, ktorí prejavujú určité vzdelávacie vlastnosti, sú klasifikovaní ako zrakoví študenti.
Klasifikácia je známa aj ako „supervízovaná učebná technika“, pri ktorej sa stroje učia z už označených alebo utajovaných údajov. Je vysoko použiteľný v rozpoznávaní vzorov, štatistikách a biometrických údajoch.
Na analýzu údajov je klasifikátor definovaný algoritmus, ktorý konkrétne mapuje informácie na konkrétnu triedu. Napríklad klasifikačný algoritmus by vyškolil model na identifikáciu, či je určitá bunka zhubná alebo nezhubná.
Kvalita klasifikačnej analýzy sa často posudzuje pomocou presnosti a stiahnutia, ktoré sú populárnymi metrickými postupmi. Klasifikátor sa hodnotí z hľadiska jeho presnosti a citlivosti pri identifikácii výstupu.
Klasifikácia je supervízna vzdelávacia technika, pretože priraďuje vopred určené identity na základe porovnateľných znakov. Z odvodenej výcvikovej sady odvodzuje funkciu.
Hlavný rozdiel spočíva v tom, že klastrovanie nie je pod dohľadom a považuje sa za „samovzdelávanie“, zatiaľ čo klasifikácia je kontrolovaná, pretože závisí od preddefinovaných štítkov..
V zoskupovaní sa nezamýšľane nezamestnávajú školiace súpravy, ktoré sú skupinami prípadov používaných na vytváranie zoskupení, zatiaľ čo klasifikácia nevyhnutne potrebuje školiace súpravy na identifikáciu podobných funkcií..
Zhlukovanie pracuje s neoznačenými údajmi, pretože nevyžaduje školenie. Na druhej strane klasifikácia sa vo svojich procesoch zaoberá neznačenými aj označenými údajmi.
Zhlukovanie zoskupuje objekty s cieľom zúžiť vzťahy a naučiť sa nové informácie zo skrytých vzorov, zatiaľ čo klasifikácia sa snaží určiť, do ktorej explicitnej skupiny patrí určitý objekt..
Aj keď klasifikácia nešpecifikuje, čo je potrebné sa naučiť, zoskupovanie špecifikuje požadované zlepšenie, pretože poukazuje na rozdiely zohľadnením podobností medzi údajmi..
Vo všeobecnosti pozostáva zoskupovanie iba do jednej fázy (zoskupenie), zatiaľ čo klasifikácia má dve fázy, odbornú prípravu (model sa učí zo súboru údajov o odbornej príprave) a testovanie (predpovedá sa cieľová trieda)..
Stanovenie okrajových podmienok je v klasifikačnom procese v porovnaní so zhlukovaním veľmi dôležité. Napríklad pri stanovovaní klasifikácie je potrebné poznať percentuálny rozsah „nízky“ v porovnaní so „stredným“ a „vysoký“.
V porovnaní so zhlukovaním je klasifikácia viac spojená s predikciou, pretože sa zameriava najmä na cieľové triedy identity. Môže sa to napríklad použiť pri „zisťovaní kľúčových bodov tváre“, pretože sa môže použiť na predpovedanie toho, či určitý svedok klamá alebo nie..
Keďže klasifikácia pozostáva z viacerých etáp, zaoberá sa predikciou a zahŕňa stupne alebo úrovne, jej „povaha je komplikovanejšia v porovnaní so zoskupovaním, ktoré sa týka hlavne zoskupovania podobných atribútov.
Klastrové algoritmy sú prevažne lineárne a nelineárne, zatiaľ čo klasifikácia pozostáva z viacerých algoritmických nástrojov, ako sú lineárne klasifikátory, neurónové siete, odhady jadra, rozhodovacie stromy a podporné vektorové stroje..
clustering | klasifikácia |
Údaje bez dozoru | Údaje pod dohľadom |
Nehodnotí školiace sady | Má vysoko hodnotné tréningové sady |
Funguje iba s neznačenými údajmi | Zahŕňa neoznačené aj označené údaje |
Cieľom je identifikovať podobnosti medzi údajmi | Zameriava sa na overenie, kam patrí údaj |
Určuje požadovanú zmenu | Nešpecifikuje požadované zlepšenie |
Má jednu fázu | Má dve fázy |
Určenie okrajových podmienok nie je prvoradé | Pri vykonávaní fáz je nevyhnutné určiť hraničné podmienky |
Vo všeobecnosti sa nezaoberá predikciou | Zvýhodnené ponuky |
Používa hlavne dva algoritmy | Má k dispozícii množstvo pravdepodobných algoritmov |
Proces je menej komplexný | Proces je zložitejší |