Pitanje:
Zašto se grebenasta regresija naziva "greben", zašto je potrebna i što se događa kada $ \ lambda $ ode u beskonačnost?
cgo
2015-05-07 23:55:00 UTC
view on stackexchange narkive permalink

Procjena koeficijenta regresijskog grebena $ \ hat {\ beta} ^ R $ vrijednosti su koje minimiziraju

$$ \ text {RSS} + \ lambda \ sum_ {j = 1} ^ p \ beta_j ^ 2. $$

Moja pitanja su:

  1. Ako je $ \ lambda = 0 $, vidimo da se gornji izraz svodi na uobičajeni RSS. Što ako $ \ lambda \ do \ infty $? Ne razumijem objašnjenje ponašanja koeficijenata u udžbeniku.

  2. Kako bi se razumio koncept koji stoji iza određenog pojma, zašto se taj pojam naziva RIDGE regresija? (Zašto greben?) I što bi moglo biti pogrešno s uobičajenom / uobičajenom regresijom da postoji potreba za uvođenjem novog koncepta nazvanog greben regresija?

Vaša bi spoznaja bila sjajna.

Dva odgovori:
Glen_b
2015-05-08 05:18:15 UTC
view on stackexchange narkive permalink

Budući da tražite uvide , pristupit ću prilično intuitivnom pristupu, a ne više matematičkom pristupu:

  1. Slijedeći koncepte u moj odgovor ovdje, možemo formulirati grebensku regresiju kao regresiju s lažnim podacima dodavanjem $ p $ (u vašoj formulaciji) opažanja, pri čemu $ y_ {n + j} = 0 $ , $ x_ {j, n + j} = \ sqrt {\ lambda } $ i $ x_ {i, n + j} = 0 $ za $ i \ neq j $ . Ako za ovaj prošireni skup podataka napišete novi RSS, vidjet ćete dodatna zapažanja kako svaki dodaje pojam oblika $ (0- \ sqrt {\ lambda} \ beta_j) ^ 2 = \ lambda \ beta_j ^ 2 $ , tako da je novi RSS izvorni $ \ text {RSS} + \ lambda \ sum_ {j = 1} ^ p \ beta_j ^ 2 $ - i minimiziranje RSS-a na ovom novom, proširenom skupu podataka isto je što i smanjivanje kriterija regresijske grebene.

    Pa, što ovdje možemo vidjeti? Kako se $ \ lambda $ povećava, dodatne $ x $ -redice imaju po jednu komponentu koja se povećava i pa se povećava i utjecaj ovih točaka. Povlače ugrađeni hiperravan prema sebi. Tada $ \ lambda $ i odgovarajuće komponente $ x $ odlaze u beskonačnost, svi uključeni koeficijenti "izravnavaju se" na $ 0 $ .

    To jest, kao $ \ lambda \ to \ infty $ , kazna će dominirati minimiziranjem, tako da će $ \ beta $ s ići na nulu. Ako presretanje nije kažnjeno (uobičajeni slučaj), tada se model sve više smanjuje prema srednjoj vrijednosti odgovora.

  2. Dati ću intuitivan osjećaj zašto prvo govorimo o grebenima (što također sugerira zašto je to potrebno), a zatim se pozabaviti malo povijesti. Prvi je prilagođen mojem odgovoru ovdje:

    Ako postoji multikolinearnost, dobit ćete "greben" u funkciji vjerojatnosti (vjerojatnost je funkcija $ \ beta $ 's). To zauzvrat daje dugačku "dolinu" u RSS-u (budući da je RSS = $ - 2 \ log \ mathcal {L} $ ).

    Grebena regresija "popravlja" greben - dodaje kaznu koja greben pretvara u lijepi vrh u prostoru vjerojatnosti, što je jednako lijepoj depresiji u kriteriju koji minimiziramo:

    ridge in LS is turned into a peak in ridge regression
    [ Jasnija slika]

    Stvarna priča koja stoji iza imena malo je složenija. 1959. A.E. Hoerl [1] uveo je analizu grebena za metodologiju površine odziva, a vrlo brzo [2] prilagodio se rješavanju multikolinearnosti u regresiji ('greben regresija'). Vidi, na primjer, raspravu RW Hoerla u [3], gdje opisuje Hoerlovu (AE ne RW) upotrebu konturnih crta odzivne površine * u identifikaciji kamo se treba uputiti kako bi se pronašli lokalni optimi (gdje se "vodi gore greben'). U loše uvjetovanim problemima postavlja se pitanje vrlo dugog grebena, a uvidi i metodologija analize grebena prilagođavaju se povezanom pitanju s vjerojatnošću / RSS u regresiji, što dovodi do regresije grebena.

  3. ol>

    * primjere kontura površinskih odziva površine (u slučaju kvadratnog odziva) možete vidjeti ovdje (slika 3.9-3.12).

    To jest, "greben "zapravo se odnosi na karakteristike funkcije koju smo pokušavali optimizirati, umjesto na dodavanje" grebena "(+ ve dijagonale) u matricu $ X ^ TX $ (pa dok se grebenasta regresija dodaje na dijagonalu, to nije razlog zašto je nazivamo 'grebenastom regresijom).

    Za neke dodatne informacije o potrebi regresije grebena, pogledajte prvu poveznicu pod stavkom popisa 2. gore.


    Literatura:

    [1]: Hoerl, A.E. (1959). Optimalno rješenje jednadžbi varijabli. Proces kemijskog inženjerstva , 55 (11) 69-78.

    [2]: Hoerl, A.E. (1962). Primjene analize grebena na regresijske probleme. Proces kemijskog inženjerstva , 58 (3) 54-59.

    [3] Hoerl, R.W. (1985). Analiza grebena 25 godina kasnije. Američki statističar , 39 (3), 186-192

Ovo je izuzetno korisno.Da, kad sam tražio uvide, tražio sam intuiciju.Naravno, matematika je važna, ali tražio sam i konceptualna objašnjenja, jer postoje neki dijelovi kad me matematika bila izvan mene.Hvala još jednom.
Zašto imate riječ "ponderirano" u metku 1?
Dobro je pitanje;nema potrebe za ponderiranjem ako nije ponderirana izvorna regresija.Uklonio sam pridjev.* To je * moguće i zapisati kao ponderiranu regresiju (što ako već radite s ponderiranom regresijom moglo bi biti vrlo malo lakše riješiti).
jld
2015-05-08 00:01:45 UTC
view on stackexchange narkive permalink
  1. Ako je $ \ lambda \ rightarrow \ infty $, tada će naš kazneni rok biti beskonačan za bilo koji $ \ beta $ osim $ \ beta = 0 $, pa ćemo taj dobiti. Ne postoji nijedan drugi vektor koji će nam dati konačnu vrijednost ciljne funkcije.

(Ažuriranje: Molimo pogledajte Glen_b-ov odgovor. Ovo nije točan povijesni razlog !)

  1. To dolazi od rješenja regresijske grebene u matričnom zapisu. Ispada da je rješenje $$ \ hat \ beta = (X ^ TX + \ lambda I) ^ {- 1} X ^ TY. $$ Termin $ \ lambda I $ dodaje "greben" glavnoj dijagonali i jamči da je rezultirajuća matrica invertibilna. To znači da ćemo, za razliku od OLS-a, uvijek dobiti rješenje.

Regresija grebena korisna je kada su prediktori povezani. U ovom slučaju OLS može dati divlje rezultate s ogromnim koeficijentima, ali ako se kazne, možemo dobiti puno razumnije rezultate. Općenito, velika prednost regresije grebena je što rješenje uvijek postoji, kao što je gore spomenuto. To se odnosi čak i na slučaj kada $ n < p $, za koji OLS ne može pružiti (jedinstveno) rješenje.

Regresija grebena također je rezultat kada se na vektor $ \ beta $ stavi normalni prior. .

Ovo je Bayesov stav o regresiji grebena: Pretpostavimo da je naš prioritet za $ \ beta $ $ \ beta \ sim N (0, \ frac {\ sigma ^ 2} {\ lambda} I_p) $. Tada zato što $ (Y | X, \ beta) \ sim N (X \ beta, \ sigma ^ 2 I_n) $ [po pretpostavci] imamo taj $$ \ pi (\ beta | y) \ propto \ pi (\ beta ) f (y | \ beta) $$

$$ \ propto \ frac {1} {(\ sigma ^ 2 / \ lambda) ^ {p / 2}} \ exp \ lijevo (- { \ lambda \ preko 2 \ sigma ^ 2} \ beta ^ T \ beta \ desno) \ puta \ frac {1} {(\ sigma ^ 2) ^ {n / 2}} \ exp \ lijevo (\ frac {-1 } {2 \ sigma ^ 2} || y - X \ beta || ^ 2 \ desno) $$

$$ \ propto \ exp \ lijevo (- {\ lambda \ preko 2 \ sigma ^ 2} \ beta ^ T \ beta - \ frac {1} {2 \ sigma ^ 2} || y - X \ beta || ^ 2 \ desno). $$

Pronađimo stražnji način rada (mogli bismo pogledati i stražnju srednju vrijednost ili neke druge stvari, ali za ovo pogledajmo način, tj. najvjerojatniju vrijednost). To znači da želimo $$ \ max _ {\ beta \ in \ mathbb R ^ p} \ \ exp \ lijevo (- {\ lambda \ over 2 \ sigma ^ 2} \ beta ^ T \ beta - \ frac {1} {2 \ sigma ^ 2} || y - X \ beta || ^ 2 \ desno) $$ što je ekvivalentno

$$ \ max _ {\ beta \ in \ mathbb R ^ p} \ - {\ lambda \ over 2 \ sigma ^ 2} \ beta ^ T \ beta - \ frac {1} {2 \ sigma ^ 2} || y - X \ beta || ^ 2 $$ jer je $ \ log $ strogo monoton, a to je pak ekvivalentno $$ \ min _ {\ beta \ in \ mathbb R ^ p} || y - X \ beta || ^ 2 + \ lambda \ beta ^ T \ beta $$

što bi trebalo izgledati prilično poznato.

Stoga vidimo da ako na naš vektor $ \ beta $ stavimo normalni prior sa srednjom vrijednosti 0 i varijancom $ \ frac {\ sigma ^ 2} {\ lambda} $, vrijednost $ \ beta $ koji maksimizira stražnji dio je procjenitelj grebena. Imajte na umu da ovo $ \ sigma ^ 2 $ više tretira kao frekvencijski parametar jer za njega nema prethodnika, ali nije poznato, pa ovo nije u potpunosti Bayesova.

Uredi: pitali ste za slučaj gdje $ n < p $ .Znamo da je hiperravnina u $ \ mathbb R ^ p $ definirana s točno $ p $ točaka. Ako izvodimo linearnu regresiju i $ n = p $, tada točno interpoliramo svoje podatke i dobivamo $ || y - X \ hat \ beta || ^ 2 = 0 $. Ovo je rješenje, ali užasno: naša izvedba budućih podataka najvjerojatnije će biti bezdana. Pretpostavimo sada $ n < p $: tim točkama više ne postoji jedinstveni hiperplan. Možemo uklopiti mnoštvo hiperravnina, svaka s 0 zaostalim zbrojem kvadrata.

Vrlo jednostavan primjer: pretpostavimo $ n = p = 2 $. Tada ćemo samo dobiti crtu između ove dvije točke. Pretpostavimo sada $ n = 2 $, ali $ p = 3 $. Zamislite avion u kojem su ove dvije točke. Ovu ravninu možemo rotirati bez promjene činjenice da su ove dvije točke u njoj, tako da postoji nebrojivo mnogo modela koji imaju savršenu vrijednost naše ciljne funkcije, pa čak i izvan pitanja prekomjerne opreme nije jasno koju odabrati. / p>

Kao konačni komentar (prema prijedlogu @ gung-a), LASSO (koji koristi kaznu od $ L_1 $) obično se koristi za visokodimenzionalne probleme jer automatski vrši odabir varijabli (postavlja neke $ \ beta_j = 0 $). Dovoljno je divno, pokazalo se da je LASSO ekvivalentan pronalaženju stražnjeg načina kada se koristi dvostruki eksponencijal (aka Laplace) prije na $ \ beta $ vektoru. LASSO također ima određena ograničenja, poput zasićenja prediktorima od $ n $ i ne nužno idealno rukovanje skupinama koreliranih prediktora, pa se elastična mreža (konveksna kombinacija kazne od L $ $ i $ L_2 $) može snositi .

(+1) Vaš bi se odgovor mogao poboljšati razrađivanjem veze između Bayesiana i grebenske regresije.
Hoće - utipkajte sada.
Cijenim vaš odgovor.Hvala vam.Ipak, samo još jedno pitanje, ne slijedim izjavu: 'ovo se odnosi čak i na slučaj kada je $ n

OLS ne može pronaći jedinstveno rješenje kada je $ n

Objašnjenje i prijedlog za pretraživanje korisnika @cgo:-a dobar je, ali radi cjelovitosti dodao sam i (nadam se) intuitivno objašnjenje.
+1, lijep odgovor.Kao n
@gung: Dobar poziv.Dodao sam riječ o tome.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...