Ťažba dát vs OLAP
Dolovanie dát a OLAP sú dve zo spoločných technológií Business Intelligence (BI). Obchodné spravodajstvo sa týka počítačových metód na identifikáciu a extrahovanie užitočných informácií z obchodných údajov. Dolovanie dát je oblasť počítačovej vedy, ktorá sa zaoberá získavaním zaujímavých vzorcov z veľkých súborov údajov. Kombinuje mnoho metód od umelej inteligencie, štatistík a správy databáz. OLAP (online analytické spracovanie), ako už názov napovedá, je kompiláciou spôsobov dotazovania na viacrozmerné databázy.
Dolovanie údajov je známe aj ako Zisťovanie znalostí v údajoch (KDD). Ako je uvedené vyššie, jedná sa o oblasť informatiky, ktorá sa zaoberá extrakciou predtým neznámych a zaujímavých informácií zo surových údajov. V dôsledku exponenciálneho rastu údajov, najmä v takých oblastiach, ako je podnikanie, sa ťažba údajov stala veľmi dôležitým nástrojom na premenu tohto veľkého množstva údajov na obchodné informácie, pretože manuálna extrakcia modelov sa v posledných niekoľkých desaťročiach zdá byť nemožná. Napríklad sa v súčasnosti používa na rôzne aplikácie, napríklad na analýzu sociálnych sietí, zisťovanie podvodov a marketing. Dolovanie údajov sa zvyčajne zaoberá týmito štyrmi úlohami: zoskupovanie, klasifikácia, regresia a priradenie. Zhlukovanie identifikuje podobné skupiny z neštruktúrovaných údajov. Klasifikácia sú pravidlá učenia, ktoré sa dajú použiť na nové údaje a zvyčajne zahŕňajú tieto kroky: predspracovanie údajov, navrhovanie modelovania, výber učenia / funkcií a hodnotenie / validácia. Regresia spočíva v hľadaní funkcií s minimálnymi chybami pri modelovaní údajov. Asociácia hľadá vzťahy medzi premennými. Dolovanie údajov sa zvyčajne používa na zodpovedanie otázok, ako sú hlavné produkty, ktoré by mohli v budúcom roku vo Wal-Martu pomôcť dosiahnuť vysoký zisk.
OLAP je skupina systémov, ktoré poskytujú odpovede na viacrozmerné otázky. OLAP sa zvyčajne používa na marketing, tvorbu rozpočtu, predpovedanie a podobné aplikácie. Je samozrejmé, že databázy používané pre OLAP sú nakonfigurované na komplexné a ad-hoc dotazy s ohľadom na rýchly výkon. Matica sa zvyčajne používa na zobrazenie výstupu OLAP. Riadky a stĺpce sú tvorené rozmermi dotazu. Na získanie zhrnutí často používajú metódy agregácie vo viacerých tabuľkách. Môže sa napríklad použiť na zistenie predaja tohto roku vo Wal-Mart v porovnaní s minulým rokom? Aká je predpoveď predaja v nasledujúcom štvrťroku? Čo sa dá povedať o trende pri pohľade na percentuálnu zmenu?
Aj keď je zrejmé, že dolovanie údajov a OLAP sú podobné, pretože fungujú na údajoch s cieľom získať inteligenciu, hlavný rozdiel spočíva v tom, ako fungujú na údajoch. Nástroje OLAP poskytujú viacrozmernú analýzu údajov a poskytujú zhrnutia údajov, naopak sa ťažba údajov zameriava na pomery, vzory a vplyvy v súbore údajov. Toto je dohoda OLAP o agregácii, ktorá sa obmedzuje na prevádzkovanie údajov prostredníctvom „sčítania“, ale dolovanie údajov zodpovedá „deleniu“. Ďalší pozoruhodný rozdiel je v tom, že zatiaľ čo nástroje na dolovanie údajov modelujú údaje a vracajú uplatniteľné pravidlá, OLAP bude vykonávať porovnávacie a kontrastné techniky pozdĺž podnikovej dimenzie v reálnom čase..