KDD verzus dolovanie dát
KDD (Knowledge Discovery in Databases) je oblasť počítačovej vedy, ktorá obsahuje nástroje a teórie na pomoc ľuďom pri získavaní užitočných a predtým neznámych informácií (t. J. Znalostí) z veľkých zbierok digitalizovaných údajov. KDD pozostáva z niekoľkých krokov a jedným z nich je dolovanie dát. Dolovanie dát je aplikácia špecifického algoritmu na extrahovanie vzorov z údajov. KDD a Data Mining sa však používajú vzájomne zameniteľné.
Čo je KDD?
Ako už bolo spomenuté vyššie, KDD je oblasť informatiky, ktorá sa zaoberá extrakciou predtým neznámych a zaujímavých informácií z nespracovaných údajov. KDD je celý proces pokusu o zmysel údajov pomocou vývoja vhodných metód alebo techník. Tento proces sa zaoberá mapovaním údajov na nízkej úrovni do iných foriem, ktoré sú kompaktnejšie, abstraktnejšie a užitočnejšie. To sa dosahuje vytvorením krátkych správ, modelovaním procesu generovania údajov a vývojom prediktívnych modelov, ktoré môžu predvídať budúce prípady. V dôsledku exponenciálneho rastu údajov, najmä v takých oblastiach, ako je podnikanie, sa KDD stala veľmi dôležitým procesom na premenu tohto veľkého množstva údajov na obchodné informácie, pretože manuálna extrakcia modelov sa v posledných niekoľkých desaťročiach zdala nemožná. Napríklad sa v súčasnosti používa na rôzne aplikácie, ako je analýza sociálnych sietí, zisťovanie podvodov, veda, investície, výroba, telekomunikácie, čistenie údajov, šport, získavanie informácií a vo veľkej miere na marketing. KDD sa zvyčajne používa na zodpovedanie otázok, ako sú hlavné produkty, ktoré by mohli pomôcť dosiahnuť budúci rok vysoký zisk vo Wal-Mart? Tento proces má niekoľko krokov. Začína sa rozvíjaním porozumenia aplikačnej domény a cieľa a potom vytvorením cieľovej množiny údajov. Potom nasleduje čistenie, predspracovanie, redukcia a premietanie údajov. Ďalším krokom je identifikácia vzoru pomocou dolovania dát (vysvetlené nižšie). Napokon, objavené vedomosti sa konsolidujú vizualizáciou a / alebo tlmočením.
Čo je dolovanie dát?
Ako je uvedené vyššie, dolovanie údajov je iba krokom v rámci celého procesu KDD. Existujú dva hlavné ciele dolovania dát, ako sú definované v cieli aplikácie, a to overenie alebo zistenie. Verifikácia overuje hypotézu používateľa o údajoch, zatiaľ čo objavom sa automaticky nájdu zaujímavé vzorce. Existujú štyri hlavné úlohy získavania údajov: zoskupovanie, klasifikácia, regresia a priradenie (zhrnutie). Zhlukovanie identifikuje podobné skupiny z neštruktúrovaných údajov. Klasifikácia sú pravidlá učenia, ktoré sa dajú použiť na nové údaje. Regresia spočíva v hľadaní funkcií s minimálnymi chybami pri modelovaní údajov. Asociácia hľadá vzťahy medzi premennými. Potom je potrebné vybrať špecifický algoritmus dolovania údajov. V závislosti od cieľa je možné zvoliť rôzne algoritmy, ako je lineárna regresia, logistická regresia, rozhodovacie stromy a Naivné Bayes. Potom sa vyhľadajú vzorce záujmu v jednej alebo viacerých reprezentatívnych formách. Nakoniec sa modely hodnotia buď pomocou prediktívnej presnosti alebo zrozumiteľnosti.
Aký je rozdiel medzi KDD a dolovaním údajov?
Aj keď sa dva pojmy KDD a Data Mining vo veľkej miere používajú zameniteľne, vzťahujú sa na dva súvisiace, ale mierne odlišné pojmy. KDD je celkový proces získavania poznatkov z údajov, zatiaľ čo dolovanie údajov je krokom v rámci procesu KDD, ktorý sa zaoberá identifikáciou vzorov v údajoch. Inými slovami, Data Mining je iba aplikácia špecifického algoritmu založeného na celkovom cieli procesu KDD.