HBase a Hive sú štruktúry dátového skladu založené na Hadoop, ktoré sa výrazne líšia v tom, ako ukladajú a dotazujú údaje. Spravovanie a spracovanie obrovského množstva webových údajov je pomocou konvenčných nástrojov na správu databáz čoraz ťažšie. Tu prichádza HBase na obrázok. HBase je preferovanou voľbou pre spracovanie veľkého množstva údajov. Napríklad, ak potrebujete filtrovať prostredníctvom obrovského množstva e-mailov, aby ste ich mohli vytiahnuť na audit alebo na akýkoľvek iný účel, bude to pre HBase ideálny prípad použitia. Hive, na druhú stranu, je skôr ako tradičný systém hlásenia dátového skladu, ktorý beží nad Hadoop. Úľ ponúka jazyk dotazu podobný jazyku SQL, ktorý vám umožňuje dotazovať sa na pološtruktúrované údaje uložené v Hadoop. To si vyžaduje zbytočné úsilie, aby ste museli písať kód MapReduce. Aj keď sa HBase aj Hive používajú ako ukladanie údajov na ukladanie neštruktúrovaných údajov, líšia sa.
HBase je open-source, nerelačný systém správy databáz inšpirovaný architektúrou Big Table spoločnosti Google a napísaný v jazyku Java. HBase je v podstate stĺpcovo orientovaná distribuovaná databáza NoSQL, ktorá beží nad systémom Hadoop Distributed File System (HDFS). Je navrhnutý a vyvinutý mnohými inžiniermi v rámci Apache Software Foundation. Je umiestnená na Apache Hadoop a je poháňaná distribuovanou štruktúrou súborov odolnou voči poruchám známou ako HDFS. Poskytuje spôsob ukladania riedkych súborov údajov, ktoré sú bežné v prípadoch použitia veľkých údajov. Umožňuje rýchle čítanie údajov s ľubovoľným prístupom z veľkého množstva údajov na základe kľúčových hodnôt. Nie je však určený na vykonávanie agregácie údajov.
Úľ nie je presne databázou, ale balíkom dátových skladov postaveným na Hadoope. Úľ je iná technológia ako HBase; štruktúruje údaje v množine tabuliek, ktoré je možné spojiť, agregovať a dotazovať pomocou dotazovacieho jazyka s názvom Hive Query Language (HQL), ktorý je veľmi podobný SQL, ktorý sa používa na dávkové spracovanie veľkých údajov. Umožňuje vám dotazovať sa na pološtruktúrované údaje uložené v Hadoop, ktoré sa nakoniec premenia na úlohu MapReduce, ktorá sa vykonáva buď lokálne alebo na distribuovanom klastri MapReduce. Hive je v podstate dátový skladový systém pre Hadoop, ktorý umožňuje ľahké zhrnutie údajov, dotazy ad-hoc a analýzu veľkých súborov údajov uložených v súborových systémoch kompatibilných s Hadoop. Dáta je možné čítať a zapisovať z Hive a HBase a naopak. Nemôže sa však použiť na spracovanie údajov v reálnom čase.
- Aj keď HBase aj Hive sú štruktúry údajového skladu založené na Hadoope, ktoré sa používajú na ukladanie a spracovanie veľkého množstva údajov, významne sa líšia v tom, ako ukladajú a dotazujú údaje. HBase je v zásade stĺpcovo orientovaná distribuovaná databáza NoSQL, ktorá beží nad systémom Hadoop Distributed File System (HDFS) a poskytuje spôsob, ako uchovávať riedke súbory údajov, ktoré sú odolné voči chybám a ktoré sú bežné v prípadoch použitia veľkých dát. Na druhej strane Úľ nie je presne databázou, ale balíkom údajov, ktorý je postavený na Hadoope. Úľ je skôr ako tradičný systém vykazovania údajov.
- HBase je databáza NoSQL a open-source implementácia architektúry Big Table spoločnosti Google, ktorá je umiestnená na serveri Apache Hadoop a je poháňaná distribuovanou štruktúrou súborov odolnou voči chybám známej ako HDFS. Jedná sa o škálovateľné riešenie úložného priestoru, ktoré pojme doslova nekonečné množstvo údajov. Je to architektúra ukladania údajov, ktorá sa používa na ukladanie neštruktúrovaných údajov. Na druhej strane Hive je SQL engine postavený na vrchole HDFS a využíva MapReduce interne, čo umožňuje dotazovanie údajov uložených na HDFS pomocou dotazovacieho jazyka podobného SQL s názvom HQL (Hive Query Language)..
- HBase sa používa na vytváranie lacných, flexibilných a ľahko udržiavateľných služieb dlaždíc - geografický informačný systém založený na Hadoope (HBGIS) - s cieľom rozsiahleho ukladania údajov. Je to formát úložiska stĺpcov na disku, ktorý poskytuje spôsob ukladania riedkych súborov údajov, ktoré sú bežné vo veľkých prípadoch použitia údajov. Umožňuje rýchle čítanie údajov s ľubovoľným prístupom z veľkého množstva údajov na základe kľúčových hodnôt. Hive, na druhej strane, je štandardom pre dotazy SQL na petabajty údajov v Hadoop a poskytuje dotazovací jazyk podobný SQL s názvom HQL na vyhľadávanie údajov uložených v klastri Hadoop.
Aj keď HBase aj Hive sú štruktúry údajového skladu založené na Hadoope, ktoré sa používajú na ukladanie a spracovanie veľkého množstva údajov, významne sa líšia v tom, ako ukladajú a dotazujú údaje. HBase je systém správy databáz orientovaný na stĺpce, ktorý sa používa na rozsiahle ukladanie údajov a poskytuje spôsob ukladania riedkych súborov údajov, ktoré sú bežné v niekoľkých veľkých prípadoch použitia údajov. Na druhej strane Hive je skôr ako tradičný systém reportovania dátových skladov postavený na Hadoop, ktorý sa používa na spustenie spracovania prostredníctvom úloh plánovania a potom načítanie výsledkov do tabuľky súhrnných typov, na ktorú môžu klientské aplikácie ďalej odpovedať.