Rozdiel medzi pytlovaním a náhodným lesom

V priebehu rokov bolo viac klasifikačných systémov, tiež nazývaných kompletné systémy, obľúbenou témou výskumu a teší sa rastúcej pozornosti v rámci komunity výpočtovej inteligencie a strojového učenia. To priťahuje záujem vedcov z viacerých oblastí vrátane strojového učenia, štatistiky, rozpoznávania vzorov a zisťovania znalostí v databázach. Postupom času sa súborové metódy osvedčili ako veľmi efektívne a univerzálne v širokom spektre problémových domén a aplikácií v reálnom svete. Pôvodne vyvinuté na zníženie rozdielov v automatizovanom systéme rozhodovania sa od tej doby používajú komplikované metódy na riešenie rôznych problémov strojového učenia. Uvádzame prehľad dvoch najvýznamnejších algoritmov súboru - Bagging a Random Forest - a diskutujeme rozdiely medzi týmito dvoma.

V mnohých prípadoch sa ukázalo, že vrecovanie, ktoré využíva vzorkovanie bootstrapu, má klasifikačný tress vyššiu presnosť ako jediný klasifikačný strom. Bagging je jedným z najstarších a najjednoduchších algoritmov založených na súbore, ktoré možno použiť na stromové algoritmy na zvýšenie presnosti predpovedí. Existuje ešte ďalšia vylepšená verzia vrecovania nazývaná algoritmus Random Forest, ktorá je v podstate súborom rozhodovacích stromov vyškolených na vreckový mechanizmus. Pozrime sa, ako náhodný algoritmus funguje a ako sa líši od baggingu v súborových modeloch.

vrecovanie

Agregácia Bootstrap, známa tiež ako bagging, je jedným z prvých a najjednoduchších algoritmov založených na súbore, vďaka ktorým sú rozhodovacie stromy robustnejšie a dosahujú lepší výkon. Koncept, ktorý stojí za vrecovaním, je kombinovať predpovede niekoľkých žiakov základných škôl a vytvárať presnejší výstup. Leo Breiman predstavil algoritmus vrecovania v roku 1994. Ukázal, že agregácia bootstrapu môže priniesť požadované výsledky v nestabilných algoritmoch učenia, kde malé zmeny v údajoch o školení môžu spôsobiť veľké rozdiely v predpovedi. Bootstrap je vzorka súboru údajov, ktorý sa má nahradiť, a každá vzorka sa vygeneruje rovnomerným vzorkovaním tréningovej sady veľkosti m, až kým sa nezíska nový súbor s inštanciami m..

Náhodný les

Náhodný les je dohliadaný algoritmus strojového učenia založený na kompletnom učení a vývoji pôvodného Breimanovho algoritmu pytlovania. Je to veľké zlepšenie v porovnaní s rozhodovacími stromami, ktoré sú zbalené, aby sa vytvorilo viac rozhodovacích stromov a ich zoskupením sa získal presný výsledok. Breiman pridal ďalšiu náhodnú zmenu postupu vrecovania, čím sa medzi výslednými modelmi vytvorila väčšia rozmanitosť. Náhodné lesy sa líšia od pytlovaných stromov tým, že nútia strom použiť iba podmnožinu svojich dostupných prediktorov, aby sa v rastovej fáze rozdelili. Všetky rozhodovacie stromy, ktoré tvoria náhodný les, sa líšia, pretože každý strom je postavený na inej náhodnej podmnožine údajov. Pretože minimalizuje nadmerné vybavenie, má tendenciu byť presnejšia ako jediný rozhodovací strom.

Rozdiel medzi pytlovaním a náhodným lesom

základy

- Bagging aj náhodné lesy sú algoritmy založené na súboroch, ktorých cieľom je znížiť zložitosť modelov, ktoré prevyšujú údaje o tréningu. Agregácia zavádzacích zariadení, nazývaná aj vrecovanie, je jednou z najstarších a najúčinnejších metód súboru, aby sa predišlo nadmernému osadeniu. Je to meta-technika, ktorá používa viacero klasifikátorov na zlepšenie predikčnej presnosti. Pytlovanie jednoducho znamená odoberanie náhodných vzoriek z tréningovej vzorky na výmenu za účelom získania súboru rôznych modelov. Náhodný les je dohliadaný algoritmus strojového učenia založený na kompletnom učení a vývoji pôvodného Breimanovho algoritmu pytlovania.

pojem

- Koncepcia odberu vzoriek batožinového priestoru (vrecovanie) spočíva v tom, že sa vytriedi skupina nevyprataných rozhodovacích stromov o rôznych náhodných podsúboroch výcvikových údajov, pričom sa odoberie náhradný údaj s cieľom znížiť rozptyl rozhodovacích stromov. Cieľom je skombinovať predpovede niekoľkých základných študentov a vytvoriť presnejší výstup. V prípade náhodných lesov sa do postupu pytlovania pridáva ďalšia náhodná variácia, aby sa medzi výslednými modelmi vytvorila väčšia rozmanitosť. Myšlienkou náhodných lesov je zostavenie viacerých rozhodovacích stromov a ich zoskupenie tak, aby sa dosiahol presný výsledok.

Cieľ

- Stromy s vrakmi a náhodné lesy sú najbežnejšími nástrojmi na výučbu súborov používaných na riešenie rôznych problémov strojového učenia. Odber vzoriek zo zavádzacieho systému je meta-algoritmus navrhnutý na zlepšenie presnosti a stability modelov strojového učenia pomocou komplexného učenia a na zníženie zložitosti modelov s nadmerným prispôsobovaním. Algoritmus náhodných lesov je veľmi odolný proti nadmernému prispôsobovaniu a je dobrý pri nevyvážených a chýbajúcich údajoch. Je to tiež preferovaný výber algoritmu na vytváranie prediktívnych modelov. Cieľom je znížiť rozptyl spriemerovaním viacerých hlbokých rozhodovacích stromov, trénovaných na rôznych vzorkách údajov.

Bagging vs. náhodný les: porovnávacia tabuľka

zhrnutie

Stromy s vrakmi a náhodné lesy sú najbežnejšími nástrojmi na výučbu súborov používaných na riešenie rôznych problémov strojového učenia. Bagging je jedným z najstarších a najjednoduchších algoritmov založených na súbore, ktoré možno použiť na stromové algoritmy na zvýšenie presnosti predpovedí. Random Forests, na druhej strane, je dohliadaný algoritmus strojového učenia a vylepšená verzia vzorkovacieho modelu bootstrapu používaného pri regresných aj klasifikačných problémoch. Myšlienka náhodného lesa spočíva v zostavení viacerých rozhodovacích stromov a ich agregácii, aby sa dosiahol presný výsledok. Náhodný les má tendenciu byť presnejší ako jediný rozhodovací strom, pretože minimalizuje nadmerné prispôsobenie.