Pitanje:
Koja je slaba strana stabala odlučivanja?
Łukasz Lew
2010-08-05 15:42:44 UTC
view on stackexchange narkive permalink

Stabla odlučivanja čine se vrlo razumljivom metodom strojnog učenja. Jednom stvoreni, čovjek ih može lako pregledati, što je velika prednost u nekim aplikacijama.

Koje su praktične slabe strane stabala odlučivanja?

četiri odgovori:
#1
+37
Simon Byrne
2010-08-05 17:08:24 UTC
view on stackexchange narkive permalink

Evo nekoliko kojih se mogu sjetiti:

  • Oni mogu biti izuzetno osjetljivi na male poremećaje u podacima: neznatna promjena može rezultirati drastično drugačijim stablom.
  • Lako se mogu prekomjerno prespremiti. To se može negirati metodama provjere valjanosti i obrezivanjem, ali ovo je sivo područje.
  • Mogu imati problema s predviđanjem izvan uzorka (to je povezano s tim što su nesteroidne).

Neki od njih povezani su s problemom multikolinearnosti: kada obje varijable obje objašnjavaju isto, stablo odluke pohlepno će odabrati najbolju, dok će mnoge druge metode koristiti njih oboje. Metode ansambla poput slučajnih šuma to mogu do određene mjere negirati, ali gubite lakoću razumijevanja.

Međutim, najveći je problem, barem s mog stajališta, nedostatak načelnog vjerojatnosnog okvira . Mnoge druge metode imaju stvari poput intervala povjerenja, stražnjih raspodjela itd., Što nam daje neku predodžbu o tome koliko je dobar model. Stablo odluka u konačnici je ad hoc heuristika, koja i dalje može biti vrlo korisna (izvrsni su za pronalaženje izvora grešaka u obradi podataka), ali postoji opasnost da ljudi izlaz tretiraju kao "ispravan" model (iz mog iskustvo, to se puno događa u marketingu).

S gledišta ML stabla se mogu testirati na isti način kao i bilo koji drugi klasifikator (CV na primjer). Ipak pokazuje da se dogodila teška prekomjerna oprema ;-) Također RF izbjegava multikolinearnost ne zato što je cjelina, već zato što su stabla neoptimalna.
Za vjerojatni okvir drveća odluka pogledajte DTREE (url: http://www.datamining.monash.edu.au/software/dtree/index.shtml) koji se temelji na radu "Wallace CS & Patrick JD,` Coding Odlučujuća stabla ', Strojno učenje, 11, 1993, str. 7-22 ".
Također, nije li moguće dobiti CI (za predviđanja) pomoću bootstrappinga?
@Simon Byrne, imam pitanje u vezi s vašim komentarom "Međutim, najveći je problem, barem s mog stajališta, nedostatak načelnog vjerojatnosnog okvira". Oprostite na mom neznanju, ali možete li me uputiti na neke praktične načelne vjerojatnosne okvire (posebno u kontekstu klasifikacije). Jako me zanima ovo ograničenje stabala odlučivanja.
Jedan od primjera @AmV, bila bi logistička regresija: možemo koristiti činjenicu da svako promatranje dolazi iz binoma da bismo dobili intervale pouzdanosti / vjerodostojnosti i provjerili pretpostavke modela.
#2
+25
Rob Hyndman
2010-08-05 16:58:42 UTC
view on stackexchange narkive permalink

Jedan je nedostatak pretpostavka da svi pojmovi međusobno djeluju. Odnosno, ne možete imati dvije varijable objašnjenja koje se ponašaju neovisno. Svaka je varijabla na stablu prisiljena komunicirati sa svakom varijablom koja se nalazi dalje na drvetu. To je krajnje neučinkovito ako postoje varijable koje nemaju ili su slabe interakcije.

Pitam se je li to ipak praktično ograničenje - za varijablu koja samo slabo utječe na klasifikaciju, moja je intuicija da se Tree vjerojatno neće podijeliti na tu varijablu (tj. neće biti čvor) što zauzvrat znači ono je nevidljivo što se tiče klasifikacije Stabla odlučivanja.
Govorim o slabim interakcijama, a ne slabim učincima na klasifikaciju. Interakcija je odnos između dvije prediktorske varijable.
To može biti neučinkovito, ali struktura stabla to može podnijeti.
Zato sam rekao neučinkovit, a ne pristran ili netočan. Ako imate gomilu podataka, nije važno. Ali ako stablo stanete na nekoliko stotina promatranja, pretpostavljene interakcije mogu uvelike smanjiti točnost predviđanja.
Slažem se; Samo sam to želio istaknuti. Ipak mislim da se smanjenje preciznosti predviđanja može ukloniti pravilnim treningom; u filogenetici se sličan problem (pohlepnost) smanjuje Monte Carlo skeniranjem mogućeg prostora na drvetu kako bi se pronašli oni s najvećom vjerojatnošću - ne znam postoji li sličan pristup u statistici, vjerojatno nikome ovaj problem nije smetao opseg.
#3
+12
doug
2010-08-05 17:47:46 UTC
view on stackexchange narkive permalink

Moj je odgovor usmjeren na CART (implementacije C 4.5 / C 5), iako mislim da nisu ograničeni na njega. Pretpostavljam da je to ono što OP ima na umu - to obično netko misli kad kaže "Stablo odluka".

Ograničenja stabala odluka :


Niske performanse

Pod pojmom 'izvedba' ne mislim na razlučivost, već na brzinu izvršenja . Razlog zašto je siromašan je taj što trebate 'precrtati stablo' svaki put kad želite ažurirati svoj CART model - podatke klasificirane od strane već obučenog stabla, koje zatim želite dodati na drvo (tj. Koristiti kao točka podataka o treningu) zahtijeva da započnete s pretjeranim primjerima - primjeri treninga ne mogu se dodavati postupno, kao što to mogu učiniti za većinu drugih nadziranih algoritama učenja. Možda je najbolji način da se to izjavi da se stabla za odlučivanje ne mogu obučavati u mrežnom načinu rada, već samo u skupnom načinu rada. Očito nećete primijetiti ovo ograničenje ako ne ažurirate svoj klasifikator, ali tada bih očekivao da ćete primijetiti pad razlučivosti.

Ovo je značajno jer, na primjer, za višeslojne perceptone, nakon što se obuče, može započeti s klasifikacijom podataka; ti se podaci mogu koristiti i za 'podešavanje' već obučenog klasifikatora, premda se kod Drveća odluka treba prekvalificirati sa cijelim skupom podataka (izvorni podaci korišteni u treningu plus svi novi slučajevi).


Loša razlučivost podataka sa složenim odnosima između varijabli

Stabla odlučivanja klasificiraju stupnjevitom procjenom podatkovne točke nepoznate klase, po jedan čvor, počevši od korijenski čvor i završava terminalnim čvorom. I na svakom čvoru moguće su samo dvije mogućnosti (lijevo-desno), stoga postoje neke varijabilne veze koje stabla za odlučivanje jednostavno ne mogu naučiti.


Praktično ograničena na klasifikaciju jak>

Stabla za odlučivanje najbolje rade kada su obučena za dodjeljivanje podatkovne točke klasi - po mogućnosti jednoj od samo nekoliko mogućih klasa. Ne vjerujem da sam ikad imao bilo kakvog uspjeha koristeći stablo odlučivanja u regresijskom načinu (tj. Kontinuirani izlaz, poput cijene ili očekivanog životnog prihoda). To nije formalno ili inherentno ograničenje, već praktično. Stabla odlučivanja najčešće se koriste za predviđanje čimbenika ili diskretnih ishoda.


Loša razlučivost s kontinuiranim varijablama očekivanja

Opet, u principu, u redu je imati neovisne varijable poput "vrijeme preuzimanja" ili "broj dana od prethodne internetske kupnje "- samo promijenite svoj kriterij podjele na varijancu (obično je riječ o informacijskoj entropiji ili Ginijevoj nečistoći za diskretne varijable), ali prema mom iskustvu, drveća za odlučivanje rijetko rade dobro u ovim slučajevima. Iznimke su slučajevi poput "dobi učenika" koja izgleda kontinuirano, ali u praksi je raspon vrijednosti prilično malen (posebno ako se prikazuju kao cijeli brojevi).

+1 za dobar poziv na kut izvedbe, koji obično nema dovoljno igre.Vidio sam kako Drveće odluka nailazi na probleme s izvedbom na nekoliko softverskih platformi dizajniranih za velike skupove podataka (kao što je SQL Server), barem u usporedbi s drugim metodama rudarenja podataka.Ovo je osim cijelog pitanja o prekvalifikaciji koje ste pokrenuli.Čini se da se pogoršava u slučajevima kada se dogodi prekomjerna opremljenost (iako se to može reći za mnoge druge algoritme rudarstva).
#4
+11
gung - Reinstate Monica
2012-06-29 04:27:55 UTC
view on stackexchange narkive permalink

Ovdje postoje dobri odgovori, ali iznenađen sam što jedna stvar nije naglašena. CART ne donosi nikakve distribucijske pretpostavke o podacima, posebno varijabli odgovora. Suprotno tome, OLS regresija (za varijable kontinuiranog odgovora) i logistička regresija (za određene kategorijske varijable odgovora), na primjer, do čine snažne pretpostavke; konkretno, OLS regresija pretpostavlja da je odgovor uvjetno normalno raspodijeljen, a logistika pretpostavlja da je odgovor binomski ili multinomni.

CART nema takvih pretpostavki mač s dvije oštrice. Kad te pretpostavke nisu opravdane, to pristupu daje relativnu prednost. S druge strane, kada te pretpostavke vrijede, iz podataka se može izvući više informacija uzimajući u obzir te činjenice. Odnosno, standardne metode regresije mogu biti informativnije od CART-a kada su pretpostavke istinite.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 2.0 licenci pod kojom se distribuira.
Loading...