Pitanje:
Zašto koristimo ReLU u neuronskim mrežama i kako ga koristimo?
user2896492634
2016-08-02 22:26:10 UTC
view on stackexchange narkive permalink

Zašto koristimo ispravljene linearne jedinice (ReLU) s neuronskim mrežama? Kako to poboljšava neuronsku mrežu?

Zašto kažemo da je ReLU aktivacijska funkcija? Nije li softmax funkcija aktivacije za neuronske mreže? Pretpostavljam da koristimo i ReLU i softmax, ovako:

neuron 1 s softmax izlazom ----> ReLU na izlazu neurona 1, koji je
ulaz neurona 2 - -> neuron 2 s softmax izlazom -> ...

tako da je ulaz neurona 2 u osnovi ReLU (softmax (x1)). Je li to točno?

Pet odgovori:
Sycorax
2016-08-02 22:59:48 UTC
view on stackexchange narkive permalink

Funkcija ReLU je $ f (x) = \ max (0, x). $ Obično se to primjenjuje elementarno na izlaz neke druge funkcije , kao što je matrično-vektorski proizvod. U upotrebi MLP-a ispravljačke jedinice zamjenjuju sve ostale funkcije aktivacije, osim možda sloja očitavanja. Ali pretpostavljam da biste ih mogli miješati i kombinirati ako želite.

Jedan od načina na koji ReLU-ovi poboljšavaju neuronske mreže je ubrzavanje treninga. Izračun gradijenta vrlo je jednostavan (0 ili 1, ovisno o predznaku $ x $ ). Također, računski korak ReLU-a jednostavan je: bilo koji negativni elementi postavljeni su na 0.0 - bez eksponencijala, bez operacija množenja ili dijeljenja.

Gradijenti logističke i hiperboličke mreže tangenta manji su od pozitivnog dijela ReLU. To znači da se pozitivni dio brže ažurira kako trening napreduje. Međutim, to košta. Gradijent 0 s lijeve strane ima vlastiti problem, nazvan "mrtvi neuroni", u kojem ažuriranje gradijenta postavlja ulazne vrijednosti na ReLU tako da je izlaz uvijek nula; modificirane ReLU jedinice poput ELU (ili Leaky ReLU, ili PReLU itd.) mogu to poboljšati.

$ \ frac {d} {dx} \ text { ReLU} (x) = 1 \ forall x > 0 $ . Suprotno tome, gradijent sigmoidne jedinice iznosi najviše 0,25 USD ; s druge strane, $ \ tanh $ povoljnije cijene ulaznih podataka u regiji blizu 0 jer je 0,25 dolara < \ frac {d} {dx} \ tanh (x) \ le 1 \ forall x \ u [-1,31, 1,31] $ (približno).

Ne vidim dokaze da sam želio postaviti pitanje ili da sam sudjelovao na ovoj stranici.Iskreno, zapanjen sam koliko dobro funkcionira ReLU, ali prestao sam ga ispitivati :).
@aginensky Čini se da je komentar u međuvremenu uklonjen.
Komentar nisam uklonio niti sam obaviješten.Prestao sam odgovarati na pitanja i pretpostavljam da to znači da sam i s komentariranjem završio.
@aginensky Ne znam zašto bi zbog toga prestao komentirati.Ako imate pitanja o komentarima i moderiranju, možete postaviti pitanje na meta.stats.SE.
Eli Korvigo
2018-11-23 16:22:58 UTC
view on stackexchange narkive permalink

Jedna važna stvar koju treba istaknuti je da je ReLU idempotentan.S obzirom da je ReLU $ \ rho (x) = \ max (0, x) $ , lako je uočiti da je $\ rho \ circ \ rho \ circ \ rho \ circ \ dots \ circ \ rho = \ rho $ vrijedi za bilo koji konačni sastav.Ovo je svojstvo vrlo važno za duboke neuronske mreže, jer svaki sloj u mreži primjenjuje nelinearnost.Sada, primijenimo dvije funkcije obitelji sigmoida na isti ulaz više puta 1-3 puta:

enter image description here

Možete odmah vidjeti da sigmoidne funkcije "zgužvaju" svoje unose što rezultira problemom nestajanja gradijenta: derivati se približavaju nuli kao $ n $ (broj ponovljenih aplikacija)približava se beskonačnosti.

Randy Welt
2016-08-02 23:09:36 UTC
view on stackexchange narkive permalink

ReLU je maksimalna funkcija (x, 0) s ulazom x npr. matrica iz savijene slike. ReLU tada postavlja sve negativne vrijednosti u matrici x na nulu, a sve ostale vrijednosti održavaju se konstantnima.

ReLU izračunava se nakon konvolucije i nelinearna je aktivacijska funkcija poput tanha ili sigmoida.

Softmax je klasifikator na kraju neuronske mreže. To je logistička regresija za normalizaciju izlaza na vrijednosti između 0 i 1. (Ovdje je alternativa SVM klasifikator).

CNN prosljeđivanje, npr .: input-> conv-> ReLU-> Pool-> conv-> ReLU-> Pool-> FC-> softmax

Protiv glasa.Ovo je vrlo loš odgovor!Softmax nije klasifikator!To je funkcija koja normalizira (skalira) izlaze na raspon [0,1] i osigurava da zbroje do 1. Logistička regresija ne "regulira" ništa!Rečenica "ReLU izračunava se nakon konvolucije i prema tome nelinearna funkcija aktiviranja poput tanha ili sigmoida."nedostaje glagol ili značenje.
Odgovor nije toliko loš.Rečenica bez glagola mora biti "ReLU se izračunava nakon konvolucije i * IS *, dakle, nelinearna funkcija aktiviranja poput tanha ili sigmoida." Ima smisla i razmišljanje o softmaxu kao klasifikatoru.Može se smatrati * vjerojatnim * klasifikatorom koji svakoj klasi dodjeljuje vjerojatnost."Regularizira" / "normalizira" izlaze na interval [0,1].
Sean O'Connor
2019-10-12 05:59:28 UTC
view on stackexchange narkive permalink

ReLU je doslovni prekidač. S električnim prekidačem 1 volt ulaz daje 1 volt izlaz, n volti ulaz daje n volt van kad je uključen. Uključivanje / isključivanje kada odlučite prebaciti na nulu daje potpuno isti grafikon kao ReLU. Ponderirani zbroj (točkasti proizvod) određenog broja ponderiranih zbrojeva i dalje je linearni sustav. Za određeni ulaz ReLU prekidači su pojedinačno uključeni ili isključeni. To rezultira određenom linearnom projekcijom od ulaza do izlaza, jer su razni ponderirani zbrojevi ponderiranog zbroja ... povezani prekidačima. Za određeni ulazni i određeni izlazni neuron postoji složeni sustav ponderiranih suma koji se zapravo mogu sažeti u jedan efektivni ponderirani zbroj. Budući da se ReLU prekidači nalaze na nuli, nema naglih diskontinuiteta u izlazu za postupne promjene na ulazu.

Postoje i drugi numerički učinkoviti algoritmi sa ponderiranim zbrojem (točkasti proizvod) poput FFT i Walsh Hadamardove transformacije. Nema razloga da ih ne možete uklopiti u neuronsku mrežu temeljenu na ReLU-u i iskoristiti računske dobitke. (npr. Neuronske mreže fiksne banke filtara.)

Aksakal
2020-05-26 19:23:31 UTC
view on stackexchange narkive permalink

ReLU je vjerojatno jedna od najjednostavnijih mogućih nelinearnih funkcija.Funkcija koraka je jednostavnija.Međutim, stepeničasta funkcija ima prvu izvedenicu (gradijent) nulu svugdje, ali samo u jednoj točki, u kojoj ima beskonačni gradijent.ReLU posvuda ima konačni derivat (gradijent).Ima beskonačan drugi izvod u jednoj točki.

Mreže za prosljeđivanje feeda osposobljavaju se tražeći nulti gradijent.Ovdje je najvažnije da postoji puno prvih izvedenica koje se mogu izračunati u rutini povratnog razmnožavanja velike mreže, a pomaže im što ih je brzo izračunati poput ReLU-a.Druga je da su za razliku od funkcije koraka, gradijenti ReLU-a uvijek konačni i nisu gotovo svugdje trivijalne nule.Konačno, trebaju nam nelinearne aktivacije kako bi mreža dubokog učenja dobro funkcionirala, ali to je druga tema.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...