Dolovanie dát verzus skladovanie dát
Dolovanie a ukladanie údajov sú veľmi výkonné a populárne techniky analýzy údajov. Používatelia, ktorí majú sklon k štatistikám, používajú dolovanie údajov. Využívajú štatistické modely na vyhľadávanie skrytých vzorcov v údajoch. Baníci údajov majú záujem nájsť užitočné vzťahy medzi rôznymi dátovými prvkami, čo je pre podniky v konečnom dôsledku výhodné. Na druhej strane odborníci na údaje, ktorí dokážu priamo analyzovať dimenziu podnikania, majú tendenciu využívať sklady údajov.
Dolovanie údajov je známe aj ako Zisťovanie znalostí v údajoch (KDD). Ako je uvedené vyššie, jedná sa o oblasť informatiky, ktorá sa zaoberá extrakciou predtým neznámych a zaujímavých informácií zo surových údajov. V dôsledku exponenciálneho rastu údajov, najmä v takých oblastiach, ako je podnikanie, sa ťažba údajov stala veľmi dôležitým nástrojom na premenu tohto veľkého množstva údajov na obchodné informácie, pretože manuálna extrakcia modelov sa v posledných niekoľkých desaťročiach zdá byť nemožná. Napríklad sa v súčasnosti používa na rôzne aplikácie, napríklad na analýzu sociálnych sietí, zisťovanie podvodov a marketing. Dolovanie údajov sa zvyčajne zaoberá týmito štyrmi úlohami: zoskupovanie, klasifikácia, regresia a priradenie. Zhlukovanie identifikuje podobné skupiny z neštruktúrovaných údajov. Klasifikácia sú pravidlá učenia, ktoré sa dajú použiť na nové údaje a zvyčajne zahŕňajú tieto kroky: predspracovanie údajov, navrhovanie modelovania, výber učenia / funkcií a hodnotenie / validácia. Regresia spočíva v hľadaní funkcií s minimálnymi chybami pri modelovaní údajov. Asociácia hľadá vzťahy medzi premennými. Dolovanie údajov sa zvyčajne používa na zodpovedanie otázok, ako sú hlavné produkty, ktoré by mohli v budúcom roku vo Wal-Martu pomôcť dosiahnuť vysoký zisk?
Ako je uvedené vyššie, skladovanie údajov sa používa aj na analýzu údajov, ale na rozdielne skupiny používateľov a mierne iný cieľ v mysli. Napríklad, pokiaľ ide o maloobchodný sektor, používatelia dátového skladu sa viac zaujímajú o to, aké druhy nákupov sú medzi zákazníkmi populárne, takže výsledky analýzy môžu zákazníkovi pomôcť zlepšením jeho spokojnosti. Baníci údajov však najskôr predpokladajú hypotézu, podľa ktorej zákazníci kupujú určitý druh produktu a analyzujú údaje, aby hypotézu otestovali. Skladovanie údajov by mohol vykonávať hlavný maloobchodník, ktorý spočiatku skladoval svoje obchody s rovnakými veľkosťami produktov, aby sa neskôr zistilo, že newyorské obchody predávajú zásoby menšej veľkosti oveľa rýchlejšie ako v Chicagských obchodoch. Ak sa teda pozrieme na tento výsledok, maloobchodník môže zásobiť obchod v New Yorku s menšími veľkosťami v porovnaní s chicagskými obchodmi.
Ako jasne vidíte, zdá sa, že tieto dva typy analýz majú voľným okom rovnakú povahu. Obaja sa obávajú zvýšenia ziskov na základe historických údajov. Existujú však samozrejme kľúčové rozdiely. Zjednodušene povedané, údaje o ťažbe dát a skladovaní údajov sú určené na poskytovanie rôznych typov analytických metód, ale určite pre rôzne typy používateľov. Inými slovami, Data Mining hľadá korelácie, žmurky na podporu štatistickej hypotézy. Ale Data Warehousing odpovedá na pomerne širšiu otázku a odtiaľ ďalej krája a kockuje údaje, aby rozpoznal spôsoby zlepšenia v budúcnosti..