Pitanje:
Multivarijantna linearna regresija u odnosu na neuronsku mrežu?
Hugh Perkins
2012-10-27 13:06:24 UTC
view on stackexchange narkive permalink

Čini se da je u nekim slučajevima moguće dobiti slične rezultate neuronske mreže s multivarijantnom linearnom regresijom, a multivarijantna linearna regresija je super brza i laka.

Pod kojim okolnostima neuronske mreže mogu dati bolji rezultati od multivarijatne linearne regresije?

Tri odgovori:
Stephan Kolassa
2012-10-27 14:26:03 UTC
view on stackexchange narkive permalink

Neuronske mreže u principu mogu automatski modelirati nelinearnosti (vidi univerzalni aproksimacijski teorem), koje biste trebali izričito modelirati pomoću transformacija (splajnova itd.) u linearnoj regresiji.

Oprez: napasti prekomjerno opremanje može biti (čak) jače u neuronskim mrežama nego u regresiji, jer dodavanje skrivenih slojeva ili neurona izgleda bezazleno. Stoga budite posebno oprezni i gledajte izvedbu predviđanja izvan uzorka.

U redu. Pretpostavljam da je pitanje u mom glasu, u kojoj mjeri mogu ponoviti slično ponašanje povećavajući svoje ulazne podatke kvadratnim i kubnim pojmovima?
Zapravo, vjerojatno možete aproksimirati NN s odgovarajuće transformiranim regresorima u linearnoj regresiji koliko god želite (i obrnuto). Ipak su bolja praksa od kvadratnih i kubičnih spojeva - od srca preporučujem Harrellov udžbenik "Strategije modeliranja regresije".
U redu. Je li razumno pretpostaviti da će vrijeme treninga biti brže za linearnu regresiju na transformiranim podacima ili će vremena treninga biti približno slična? Hoće li rješenje za linearnu regresiju transformiranih podataka imati jedan globalni maksimum, ili će imati puno lokalnog minimuma kao za neuronske mreže? (Uredi: Pretpostavljam da bez obzira na to kako se transformiraju ulazi, rješenje linearne regresije samo je pseudoinverza matrice dizajna pomnožena s nečim-nečim i stoga je uvijek ili jedinstvena ili jedinstvena?)
Vrijeme treninga ovisit će naravno o ulaznim dimenzijama (malo / mnogo promatranja, malo / mnogo prediktora). Linearna regresija uključuje jedan (pseudo-) inverzni (da, jedinstvenost / singularnost čak i kod transformiranih regresora vrijedi), dok se NN obično uči na iterativni način, ali iteracije ne uključuju matrične inverzije, pa je svaka iteracija brža - tipično zaustavite trening na temelju nekog kriterija osmišljenog da vas spriječi u prekomjernoj opremi.
Bok Stephan, sjajne glave za spline. Oni su * super *. Hvala! Za vrijeme treninga, da, vidim sada, poli (2) ili poli (3) ili dva ne utječu previše na dimenzije matrice, ali ubacivanje nekoliko poli (20) i slično, ili bolje rečeno, nekoliko zavoja ovako, ubrzo stvari znatno usporava!
@StephanKolassa: Možete li, molim vas, malo više elaborirati * "Neuronske mreže u principu mogu automatski modelirati nelinearnosti" *, možda dati primjer?
@theV0ID: dobro pitanje.Uredio sam svoj post, dodavši vezu na [univerzalni teorem aproksimacije] (https://en.wikipedia.org/wiki/Universal_approximation_theorem).
Što je s multivarijantnom polinomnom regresijom?Može li neuronska mreža učiniti više od polinomske složenosti?
@Yamcha: moje razumijevanje teorema univerzalne aproksimacije jest da dimenzionalnost u principu nije bitna.(Naravno, ovo je asimptotski rezultat. Očekivao bih da će vam trebati stravične količine podataka da bi NN bio bolji od fino podešene polinomske regresije. Počinje zvučati poput dubokog učenja ...)
@StephanKolassa, niste spomenuli ništa o kovarijantnoj matrici nad ostacima, koja je prisutna u multivarijatnoj linearnoj regresiji, ali nedostaje kod multivarijantnih izlaznih neuronskih mreža.Mislim da je to važna točka, modeliranje zajedničke raspodjele (reziduala) nasuprot zajedničkom minimiziranju funkcije gubitka.
@StephanKolassa naravno nije kritičar!Samo sam isticao činjenicu da u neuronskim mrežama nema distribucijskog modeliranja nasuprot linearne regresije
Douglas Zare
2012-10-27 15:31:36 UTC
view on stackexchange narkive permalink

Spominjete linearnu regresiju. To je povezano s logističkom regresijom, koja ima sličan algoritam brze optimizacije. Ako imate ograničenja na ciljnim vrijednostima, poput problema s klasifikacijom, logističku regresiju možete promatrati kao generalizaciju linearne regresije.

Neuronske mreže strogo su općenitije od logističke regresije na izvornim ulazima, jer koji odgovara mreži preskočenog sloja (s vezama koje izravno povezuju ulaze s izlazima) sa skrivenim čvorovima $ 0 $.

Kada dodate značajke poput $ x ^ 3 $, to je slično odabiru težine nekoliko skrivenih čvorova u jednom skrivenom sloju. Ne postoji točno korespondencija $ 1-1 $, jer za modeliranje funkcije poput $ x ^ 3 $ sa sigmoidima može biti potrebno više skrivenih neurona. Kada trenirate neuronsku mrežu, dopuštate joj da pronađe vlastite skrivene utege koji se ulažu u skrivene, a koji mogu biti bolji. Može potrajati i više vremena, a može biti i nedosljedno. Možete započeti s približavanjem logističkoj regresiji s dodatnim značajkama i polako trenirati ulazno-skrivene utege, a to bi na kraju trebalo bolje nego logistička regresija s dodatnim značajkama. Ovisno o problemu, vrijeme treninga može biti zanemarivo ili zabranjivati.

Jedna srednja strategija je odabir velikog broja slučajnih čvorova, slično onome što se događa kada inicijalizirate neuronsku mrežu i popravite ulaz- do-skriveni utezi. Optimizacija preko * -izlaznih pondera ostaje linearna. To se naziva stroj za ekstremno učenje. Djeluje barem jednako dobro kao originalna logistička regresija.

"Jedna srednja strategija je odabrati velik broj slučajnih čvorova, slično onome što se događa kada inicijalizirate neuronsku mrežu, i popraviti težine ulazno-skrivenih. Optimizacija težina * -izlaznih težina ostaje linearna." => hoćete reći da će u ovom slučaju postojati jedan globalni maksimum za rješenje?
Da, za generički slučajni izbor slučajnih skrivenih čvorova.
izvrstan post - pružanje konteksta za [LR, LogR, NN, ELM].Vaš komentar o tome da je LogR preskočeni sloj NN čini se očitim nakon što je istaknuto, ali lijep je uvid.
erogol
2012-11-02 04:52:28 UTC
view on stackexchange narkive permalink

Linearna regresija želi odvojiti podatke koji se linearno mogu odvojiti, da, možete koristiti dodatne polinome trećeg> stupnja, ali ste na taj način ponovno naznačili neke pretpostavke o podacima koje imate budući da definirate strukturu ciljne funkcije. U Neural Net. općenito imate ulazni sloj koji stvara linearne separatore za podatke koje imate i skriveni sloj ANDs područja koja ograničavaju neke klase i zadnji sloj ILI sva ta područja. Na taj način svi podaci koje imate mogu se klasificirati na nelinearan način, također se svi ti procesi odvijaju s interno naučenim utezima i definiranim funkcijama. Uz to, povećanje broja značajki za Linearnu regresiju suprotstavlja se "Prokletstvu dimenzionalnosti". Pored toga, neke aplikacije trebaju više vjerojatnih rezultata nego konstantni brojevi kao izlaz. Stoga će mreža s logističkom funkcijom biti prikladnija za takve svrhe (naravno, postoji i logistička regresija zbog činjenica koje sam rekao).



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...