Pitanje:
Kada trebam koristiti lasso vs greben?
Larry Wang
2010-07-28 06:10:18 UTC
view on stackexchange narkive permalink

Recimo da želim procijeniti velik broj parametara i želim kazniti neke od njih jer smatram da bi trebali imati malo učinka u usporedbi s drugima. Kako mogu odlučiti koju shemu kažnjavanja koristiti? Kada je regresija grebena prikladnija? Kada trebam koristiti laso?

"Recimo da želim procijeniti velik broj parametara" ovo bi moglo biti preciznije: Koji je okvir? Pretpostavljam da je to linearna regresija?
Slično pitanje upravo je postavljeno na metaoptimize (imajući na umu da su l1 = LASSO i l2 = greben): http://metaoptimize.com/qa/questions/5205/when-to-use-l1-regularization-and-when -l2
Kažete "laso protiv grebena" kao da su jedine dvije mogućnosti - što je s ostalim generaliziranim dvostrukim paretom, potkovom, bma, mostom?
@Gael Varoquaux veza je prekinuta.
@Idonknow: metaoptimize je zatvoren.Web mjesto koje se danas koristi je https://or.stackexchange.com/
Tri odgovori:
#1
+118
emakalic
2010-07-28 10:55:31 UTC
view on stackexchange narkive permalink

Imajte na umu da regresija grebena ne može nula koeficijente; tako, na kraju ili uključite sve koeficijente u model, ili niti jedan od njih. Suprotno tome, LASSO automatski vrši skupljanje parametara i odabir varijabli. Ako su neke od vaših kovarijacija u visokoj korelaciji, možda ćete htjeti pogledati Elastičnu mrežu [3] umjesto LASSO-a.

Osobno bih preporučio upotrebu Nenegativne garote (NNG) [1] jer je dosljedan u smislu procjene i odabira varijabli [2]. Za razliku od LASSO i regresije grebena, NNG zahtijeva početnu procjenu koja se zatim smanjuje prema ishodištu. U originalnom radu, Breiman preporučuje rješenje najmanjih kvadrata za početnu procjenu (međutim, možda biste željeli započeti pretraživanje s rješenjem regresijske grebene i koristiti nešto poput GCV za odabir parametra kazne).

U U uvjetima dostupnog softvera, implementirao sam izvorni NNG u MATLAB (na temelju Breimanovog izvornog FORTRAN koda). Možete ga preuzeti s:

http://www.emakalic.org/blog/wp-content/uploads/2010/04/nngarotte.zip

BTW, ako više volite Bayesovo rješenje, pogledajte [4,5].

Literatura:

[1] Breiman, L. Bolja regresija podsustava korištenjem nenegativne garrote tehnometrije , 1995, 37, 373-384

[2] Yuan, M. & Lin, Y. O nenegativnom procjenitelju garrotte Journal of Royal Statistical Society (Series B), 2007, 69, 143 -161

[3] Zou, H. & Hastie, T. Regularizacija i odabir varijabli putem elastične mreže Journal of Royal Statistical Society (Series B), 2005., 67, 301-320

[4] Park, T. & Casella, G. The Bayesian Lasso Journal Američkog statističkog udruženja, 2008, 103, 681-686

[5] Kyung, M .; Gill, J .; Ghosh, M. & Casella, G. Kažnjena regresija, standardne pogreške i Bayesova Lassos Bayesova analiza, 2010, 5, 369-412

Možete li biti konkretniji u vezi s grebenom i lassom?Je li automatski odabir varijabli jedini razlog da više volite laso?
#2
+48
Hbar
2010-07-28 09:26:17 UTC
view on stackexchange narkive permalink

Greben ili laso oblici su regulirane linearne regresije. Regularizacija se također može interpretirati kao prethodna u maksimumu naknadne metode procjene. Prema ovom tumačenju, greben i laso čine različite pretpostavke o klasi linearne transformacije za koju pretpostavljaju da povezuje ulazne i izlazne podatke. U grebenu su koeficijenti linearne transformacije normalno raspodijeljeni, a u lasu su Laplaceov raspoređeni. U lasso-u, ovo olakšava koeficijente da budu nula, a time i lakše uklanjanje neke vaše ulazne varijable jer ne doprinosi rezultatu.

Postoje i neka praktična razmatranja. Greben je malo lakše implementirati i brže izračunati, što može biti važno ovisno o vrsti podataka koje imate.

Ako ste oboje implementirali, upotrijebite podskupove podataka kako biste pronašli greben i laso i usporedite koliko dobro rade na izostavljenim podacima. Pogreške bi vam trebale dati ideju o tome što koristiti.

Ne razumijem - kako biste znali jesu li vaši koeficijenti laplasovi ili normalno raspodijeljeni?
Zašto se brže izračunava Ridgeova regresija?
@Hbar: "Regularizacija se također može protumačiti kao prethodna u maksimalnoj naknadnoj metodi procjene.": Biste li mogli detaljnije objasniti ovaj dio matematičkim simbolima ili barem dati referencu?Hvala!
@ihadanny Najvjerojatnije ne biste znali, i u tome je poanta.Možete samo odlučiti koji ćete zadržati _a posteriori_.
@Archie Postoji rješenje zatvorene forme za regresiju grebena, baš kao i OLS, ali LASSO se mora izračunati pomoću optimizacijskih postupaka.
#3
+35
Gary
2011-03-19 06:21:06 UTC
view on stackexchange narkive permalink

Općenito, kada imate mnogo efekata male / srednje veličine, trebali biste ići s grebenom. Ako imate samo nekoliko varijabli sa srednjim / velikim učinkom, krenite s lassom. Hastie, Tibshirani, Friedman

Ali kad imate nekoliko varijabli, možda ćete ih htjeti zadržati u svojim modelima ako imaju srednje / velike efekte, što u slučaju lasa neće biti slučaj, jer bi mogao ukloniti jednu od njih.Možete li to objasniti detaljno?Osjećam da kada imate mnogo varijabli, koristimo Lasso za uklanjanje nepotrebnih varijabli, a ne grebena.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 2.0 licenci pod kojom se distribuira.
Loading...