Pitanje:
Koji je najbolji klasični klasifikator 2 klase za vašu aplikaciju?
Łukasz Lew
2010-07-20 14:43:24 UTC
view on stackexchange narkive permalink

Pravila:

  • jedan klasifikator po odgovoru
  • glasajte ako se slažete
  • protiv / uklanjanje duplikata.
  • stavite svoju prijavu u komentar
Deset odgovori:
#1
+14
Łukasz Lew
2010-07-20 14:45:06 UTC
view on stackexchange narkive permalink

Slučajna šuma

  • lako bilježi složenu strukturu / nelinearni odnos
  • invarijantnu na ljestvicu varijabli
  • nema potrebe za stvaranje lažnih varijabli za kategoričke prediktore
  • odabir varijable nije previše potreban
  • relativno je teško prekomjerno opremiti
Odabir aktivnog motiva Aptamera, predviđanje vlažnosti šuma, digitalni OCR, multispektralna analiza satelitskih slika, pronalaženje glazbenih podataka, kemometrija ...
#2
+13
Amro
2010-07-21 05:09:10 UTC
view on stackexchange narkive permalink

Logistička regresija:

  • brzo i dobro se izvodi na većini skupova podataka
  • gotovo da nema parametara za podešavanje
  • ručki obje diskretne / kontinuirane značajke
  • model lako je protumačiti
  • (zapravo nije ograničen na binarne klasifikacije)
Možda nema parametara za podešavanje, ali treba doista raditi s kontinuiranim varijablama (transformacije, splajnovi itd.) Kako bi se potaknula nelinearnost.
#3
+12
Łukasz Lew
2010-07-20 14:44:12 UTC
view on stackexchange narkive permalink

Podrška za vektorski stroj

Ne postoji ništa * stvarno * posebno u vezi sa SVM-om, osim što korisnika tjera na razmišljanje o regularizaciji. Za većinu praktičnih problema [jezgra] regresija grebena djeluje jednako dobro.
@dikran mislim da je SVM izvrstan klasifikator jer je rijedak i robustan za izvanredne klijente - to ne vrijedi za Logističku regresiju! i zato je SVM najmoderniji klasifikator. Jedini problem koji može predstavljati problem je - vremenska složenost - ali mislim da je to u redu.
@suncoolsu Ako želite rijetkost, dobivate više rijetkosti regulariziranom logističkom regresijom s LASSO-om nego SVM-om. Škrtost SVM-a nusproizvod je funkcije gubitka, tako da ne dobivate onoliko koliko dobivate s algoritmom u kojem je rijetkost cilj dizajna. Također često s optimalnom vrijednošću hiper-parametra (npr. Odabranom unakrsnom provjerom valjanosti) nestaje većina oskudnosti SVM-a. SVM nije izdržljiviji od outliersa od regulirane logističke regresije - uglavnom je važna regularizacija, a ne gubitak zgloba.
@Dikran - točno kažem - važna je neka vrsta kažnjavanja. To možete dobiti pomoću Priora, dodavanja kazne itd.
@suncoolsu U tom slučaju, SVM nije izvrstan klasifikator, on je samo jedan od mnogih reguliranih klasifikatora, kao što su grebenasta regresija, regulirana logistička regresija, Gaussovi procesi. Glavna korist od SVM-a je privlačnost teorije računalnog učenja. U praksi su važnija druga razmatranja, poput toga treba li vam vjerojatni klasifikator, gdje će druge funkcije gubitaka vjerojatno biti superiornije. IMHO, previše se pažnje posvećuje SVM-u, nego široj obitelji metoda jezgre.
#4
+7
BGreene
2012-09-26 14:28:42 UTC
view on stackexchange narkive permalink

Regularizirani diskriminant za nadzirane probleme s bučnim podacima

  1. Računalno učinkovit
  2. Robustan prema buci i odstupanja u podacima
  3. Obje linearne diskriminante (LD) i kvadratni diskriminirajući (QD) klasifikatori mogu se dobiti iz iste implementacije postavljanjem parametara regularizacije '[lambda, r]' na '[1 0]' za LD klasifikator i '[0 0]' za QD klasifikator - vrlo korisno za referentne svrhe.
  4. Model je lako interpretirati i izvesti
  5. Dobro djeluje za rijetke i 'široke' skupove podataka gdje matrice kovarijancije klasa možda nisu dobro definirane.
  6. Procjena vjerojatnosti stražnje klase može se procijeniti za svaki uzorak primjenom softmax funkcije na diskriminantne vrijednosti za svaku klasu.

Veza na izvorni rad Friedman et al ovdje. Također, postoji vrlo dobro objašnjenje Kuncheve u svojoj knjizi " Kombiniranje klasifikatora uzoraka".

#5
+5
B_Miner
2011-11-17 06:00:17 UTC
view on stackexchange narkive permalink

Gradient Boosted Trees.

  • Barem jednako precizan kao RF za puno aplikacija
  • Uključuje nedostajuće vrijednosti neprimjetno
  • Važnost Var (poput RF je vjerojatno pristran u korist kontinuiranog i nominalnog na više razina)
  • Grafikoni djelomične ovisnosti
  • GBM naspram randomForest u R: obrađuje PUNO veće skupove podataka
#6
+4
Dikran Marsupial
2011-03-30 16:35:22 UTC
view on stackexchange narkive permalink

Gaussov klasifikator procesa - daje vjerojatnosna predviđanja (što je korisno kada se vaše operativne relativne frekvencije klase razlikuju od frekvencija u vašem skupu treninga, ili ekvivalentno vaši lažno pozitivni / lažno negativni troškovi su nepoznati ili varijabla). Također pruža otkrivanje nesigurnosti u predviđanjima modela zbog nesigurnosti u "procjeni modela" iz konačnog skupa podataka. Funkcija ko-varijance ekvivalentna je funkciji jezgre u SVM-u, tako da može raditi i izravno na nevektorskim podacima (npr. Nizovima ili grafikonima itd.). Matematički okvir je također uredan (ali nemojte koristiti Laplaceovu aproksimaciju). Automatizirani odabir modela povećavanjem marginalne vjerojatnosti.

U osnovi kombinira dobre značajke logističke regresije i SVM-a.

Postoji li R paket koji preporučate da to implementira? Koja je vaša preferirana implementacija ove metode? Hvala!
Bojim se da sam korisnik MATLAB-a (koristim GPML paket http://www.gaussianprocess.org/gpml/code/matlab/doc/), tako da ne mogu savjetovati o implementacijama R-a, ali možda ćete pronaći nešto prikladno ovdje http://www.gaussianprocess.org/#code. Ako R nema pristojan paket za liječnike opće prakse, netko ga mora napisati!
U redu, hvala. Omogućava li ova metodologija odabir "važnih varijabli, poput promjenjive važnosti slučajnih šuma ili rekurzivnog uklanjanja značajki sa SVM-ima?
Da, možete koristiti funkciju kovarijancije "Automatsko određivanje relevantnosti" i odabrati hiper-parametre maksimiziranjem Bayesovih dokaza za model (iako to može naići na istu vrstu previše prilagođenih problema koje imate sa SVMS-om, pa često model se bolje izvodi bez odabira značajke).
#7
+4
miura
2012-09-26 15:10:11 UTC
view on stackexchange narkive permalink

Logistička regresija regulirana L1.

  • Računarski je brza.
  • Ima intuitivnu interpretaciju.
  • Ima samo jednu lako razumljivu hiperparametar koji se može automatski podesiti unakrsnom provjerom valjanosti, što je često dobar put.
  • Njegovi su koeficijenti komadno linearni i njihov je odnos prema hiperparametru odmah i lako vidljiv u jednostavnoj crti.
  • Jedna je od manje sumnjivih metoda za odabir varijabli.
  • Također, ima stvarno cool ime.
+1 Hiper-parametar se može integrirati i analitički, tako da nema stvarne potrebe za unakrsnom provjerom valjanosti za mnoge aplikacije, vidi npr. http://theoval.cmp.uea.ac.uk/publications/pdf/nips2006a.pdf i http://bioinformatics.oxfordjournals.org/content/22/19/2348.full.pdf.
#9
+3
user88
2010-07-20 23:17:26 UTC
view on stackexchange narkive permalink

Naivni Bayes i Random Naive Bayes

Možete li opisu objasniti problem gdje vam je RNB dao dobre rezultate?
Ne ;-) Ovo je bilo samo za oživljavanje bazena.
#10
+1
berkay
2011-03-30 09:20:40 UTC
view on stackexchange narkive permalink

K-znači klasteriranje za učenje bez nadzora.

Pitanje posebno traži klasifikator.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 2.0 licenci pod kojom se distribuira.
Loading...