Pitanje:
Postoji li intuitivno objašnjenje zašto je multikolinearnost problem linearne regresije?
user28
2010-08-03 03:42:33 UTC
view on stackexchange narkive permalink

wiki raspravlja o problemima koji se javljaju kada je multikolinearnost problem linearne regresije. Osnovni problem je što multikolinearnost rezultira nestabilnim procjenama parametara što otežava procjenu učinka neovisnih varijabli na ovisne varijable.

Razumijem tehničke razloge koji stoje iza problema (možda neće moći invertirati $ X 'X $, loše uvjetovan $ X' X $ itd.), Ali tražim intuitivnije (možda geometrijsko?) Objašnjenje ovog problema.

Postoji li geometrijski ili možda neki drugi oblik lako razumljivo objašnjenje zašto je multikolinearnost problematična u kontekstu linearne regresije?

Stvarno super pitanje. Najbolji način da se nešto razumije je iz više smjerova objašnjenja.
Vidi također povezano pitanje i vizualno objašnjenje http://stats.stackexchange.com/q/70899/3277
Devet odgovori:
#1
+97
Rob Hyndman
2010-08-03 03:59:09 UTC
view on stackexchange narkive permalink

Razmotrimo najjednostavniji slučaj kada se $ Y $ regresira prema $ X $ i $ Z $ i gdje su $ X $ i $ Z $ vrlo pozitivno povezani Tada je efekt $ X $ na $ Y $ teško razlikovati od učinka $ Z $ na $ Y $ jer je svako povećanje u $ X $ obično povezano s povećanjem u $ Z $.

Drugi način da se ovo sagleda je razmatranje jednadžbe. Ako napišemo $ Y = b_0 + b_1X + b_2Z + e $, tada je koeficijent $ b_1 $ porast u $ Y $ za svaku jedinicu povećanja u $ X $, dok držimo $ Z $ konstantnom. Ali u praksi je često nemoguće držati $ Z $ konstantnim, a pozitivna korelacija između $ X $ i $ Z $ znači da je jedinstveni porast u $ X $ obično popraćen i određenim porastom u $ Z $ u isto vrijeme.

Slično, ali složenije objašnjenje vrijedi i za druge oblike multikolinearnosti.

+1 Izuzetno patološki slučaj kada $ X = Z $ ovo dodatno naglašava. $ Y = b_0 + b_1 X + b_2 Z + e $ i $ Y = b_0 + (b_1 + b_2) X + 0 Z + e $ ne bi se mogli razlikovati.
+1 Sviđa mi se ovaj odgovor jer je jedno od najčešćih pitanja pomoći zašto je onda $ b_1> 0 $ i $ b_2 <0 $. Zaključivanje mora uzeti u obzir realne ulaze.
#2
+32
Snackrifice
2010-08-10 13:04:22 UTC
view on stackexchange narkive permalink

Jednom sam jeo sushi i mislio sam da bi to mogao biti dobra intuitivna demonstracija loše uvjetovanih problema. Pretpostavimo da ste nekome htjeli pokazati avion pomoću dva štapa koji se dodiruju u njihovoj bazi.

Vjerojatno biste držali palice pravokutne jedna prema drugoj. Učinak bilo kakve drhtavice vaših ruku u zrakoplovu uzrokuje da se pomalo leluja oko onoga što ste se nadali pokazati ljudima, ali nakon što su vas neko vrijeme promatrali, oni dobro shvaćaju koji avion namjeravate demonstrirati.

Ali recimo da približite krajeve palica i gledate učinak tresenja ruku. Avion koji tvori daleko će se divlje spustiti. Vaša će publika morati dulje gledati da bi stekla dobru ideju o tome koji avion pokušavate demonstrirati.

+1 Mislim da ovo najizravnije odgovara na pitanje. Jer iako multikolinearnost utječe na interpretaciju. Zašto je to problem imho je stabilnost procjene.
+1 za objavljivanje ovog komentara (i samo ovog komentara ikad u povijesti Stackoverflow-a) pod korisničkim imenom Snackrifice.
Pročitao sam ovaj komentar vjerojatno deset puta tijekom nekoliko godina nailazeći na njega i još uvijek nisam siguran što govorite.O kakvom "avionu" govorite?Kako to mislite "avion koji ste namjeravali demonstrirati?"
#3
+21
ars
2010-08-03 04:26:03 UTC
view on stackexchange narkive permalink

Geometrijski pristup je razmatranje projekcije najmanjih kvadrata $ Y $ na potprostor obuhvaćen $ X $.

Recimo da imate model:

$ E [Y | X] = \ beta_ {1} X_ {1} + \ beta_ {2} X_ {2} $

Naš prostor za procjenu je ravnina određena vektorima $ X_ {1} $ i $ X_ { 2} $, a problem je pronaći koordinate koje odgovaraju $ (\ beta_ {1}, \ beta_ {2}) $ koje će opisati vektor $ \ hat {Y} $, projekcija najmanje kvadrata od $ Y $ na ta ravnina.

Sad pretpostavimo $ X_ {1} = 2 X_ {2} $, tj. kolinearne su. Tada je potprostor određen s $ X_ {1} $ i $ X_ {2} $ samo crta i imamo samo jedan stupanj slobode. Dakle, ne možemo odrediti dvije vrijednosti $ \ beta_ {1} $ i $ \ beta_ {2} $ kako su nas pitali.

Odavno sam se zauzeo za glas, ali ponovnim čitanjem vašeg odgovora podsjetio sam me da sam se uvijek svidio * Plane odgovorima na složena pitanja * Christensena (http://j.mp/atRp9w).
@chl: cool, definitivno ću to provjeriti tada. :)
bilo koji odgovor koji započinje s "uzmite u obzir projekciju najmanjih kvadrata na potprostor obuhvaćen" nije intuitivan.
#4
+14
Charlie
2012-08-20 22:23:47 UTC
view on stackexchange narkive permalink

Dvije osobe guraju kamenu u brdo. Želite znati koliko snažno svaki od njih gura. Pretpostavimo da ih deset minuta gledate kako se guraju, a gromada se pomiče 10 stopa. Je li prvi momak odradio sav posao, a drugi samo odglumio? Ili obrnuto? Ili 50-50? Budući da obje sile djeluju u isto vrijeme, ne možete odvojiti snagu niti jedne odvojeno. Sve što možete reći je da je njihova kombinirana sila 1 stopa u minuti.

Sad zamislite da prvi momak sam gura minutu, zatim devet minuta s drugim tipom, a zadnja minuta je samo drugi tip koji gura. Sada možete koristiti procjene sila u prvoj i posljednjoj minuti da biste utvrdili snagu svake osobe zasebno. Iako još uvijek uglavnom rade istodobno, činjenica da postoji malo razlike omogućuje vam procjenu sile za svaku.

Ako ste vidjeli kako svaki čovjek samostalno gura punih deset minuta , to bi vam dalo preciznije procjene sila nego ako postoji veliko preklapanje sila.

Čitatelju ostavljam kao vježbu da proširi ovaj slučaj na jednog čovjeka koji gura uzbrdo, a drugog koji gura nizbrdo (još uvijek djeluje).

Savršena multikolinearnost sprječava vas da zasebno procijenite sile; blizu multikolinearnosti daje vam veće standardne pogreške.

#5
+6
Abhijit
2010-08-04 20:37:41 UTC
view on stackexchange narkive permalink

Način na koji razmišljam o tome zaista je informacijski. Recimo da svaki od $ X_ {1} $ i $ X_ {2} $ ima neke informacije o $ Y $. Što su više korelirani $ X_ {1} $ i $ X_ {2} $ međusobno povezani, to je više informacija o $ Y $ iz $ X_ {1} $ i $ X_ {2} $ sličnih ili se preklapaju, poanta da je za savršeno korelirane $ X_ {1} $ i $ X_ {2} $ doista riječ o istom informacijskom sadržaju. Ako sada stavimo $ X_ {1} $ i $ X_ {2} $ u isti (regresijski) model da bismo objasnili $ Y $, model pokušava "rasporediti" podatke koji ($ X_ {1} $, $ X_ {2} $) sadrži oko $ Y $ za svaki od $ X_ {1} $ i $ X_ {2} $, na pomalo proizvoljan način. Ne postoji stvarno dobar način da se to raspodijeli, jer svako dijeljenje informacija i dalje dovodi do zadržavanja ukupnih podataka iz ($ X_ {1} $, $ X_ {2} $) u modelu (za savršeno korelirane $ X $ ') s, ovo je doista slučaj neidentificiranosti). To dovodi do nestabilnih pojedinačnih procjena za pojedinačne koeficijente od $ X_ {1} $ i $ X_ {2} $, iako ako pogledate predviđene vrijednosti $ b_ {1} X_ {1} + b_ {2} X_ {2 } $ tijekom mnogih pokretanja i procjene od $ b_ {1} $ i $ b_ {2} $, to će biti prilično stabilno.

#6
+4
Tal Galili
2010-08-03 07:28:37 UTC
view on stackexchange narkive permalink

Moja (vrlo) laička intuicija za ovo je da OLS modelu treba određena razina "signala" u X varijabli da bi je otkrio daje "dobro" predviđanje za Y. Ako se širi isti "signal" tijekom mnogih X-ova (jer su korelirani), tada niti jedan od koreliranih X-a ne može dati dovoljno "dokaza" (statistička značajnost) da je pravi prediktor.

Prethodni (prekrasni) odgovori daju sjajno djelo u objašnjavanju zašto je to slučaj.

#7
+3
Young
2012-08-20 20:24:55 UTC
view on stackexchange narkive permalink

Pretpostavimo da su dvoje ljudi surađivali i postigli znanstveno otkriće. Lako je reći njihov jedinstveni doprinos (tko je što učinio) kad su dvije potpuno različite osobe (jedna je čovjek iz teorije, a druga dobra u eksperimentima), dok je to teško razlikovati njihove jedinstvene utjecaje (koeficijente u regresiji) kada su blizanci koji djeluju slično.

#8
+2
Mitch Flax
2010-08-03 07:20:32 UTC
view on stackexchange narkive permalink

Ako su dva regresora savršeno korelirana, neće biti moguće izračunati njihove koeficijente; korisno je razmotriti zašto bi ih bilo teško protumačiti ako bismo ih mogli izračunati . Zapravo, ovo objašnjava zašto je teško protumačiti varijable koje nisu u potpunosti u korelaciji, ali koje također nisu istinski neovisne.

Pretpostavimo da je naša ovisna varijabla dnevna opskrba ribom u New Yorku i naše neovisne varijable uključite jedan za pada li kiša toga dana i jedan za količinu mamca kupljenog tog dana. Ono što ne shvaćamo kad prikupimo naše podatke jest da svaki put kad padne kiša, ribari ne kupuju mamac, a svaki put kad ne, kupe stalnu količinu mamca. Dakle, mamac i kiša su u savršenoj korelaciji, a kad izvršimo našu regresiju, ne možemo izračunati njihove koeficijente. U stvarnosti, mamac i kiša vjerojatno nisu u korelaciji, ali ne bismo ih oboje željeli uključiti u regresore, a da ih nekako ne očistimo od njihove endogenosti.

#9
+1
Christoph Hanck
2015-12-30 14:48:19 UTC
view on stackexchange narkive permalink

Mislim da prikladna zamka varijable pruža još jednu korisnu mogućnost da ilustrira zašto je multikolinearnost problem. Podsjetimo da se pojavljuje kada u modelu imamo konstantu i cijeli set lutki. Zatim se zbroj lutki zbraja u jednu, konstantu, tako multikolinearnost.

Npr., lutka za muškarce i jedna za žene:

$$ y_i = \ beta_0 + \ beta_1Man_i + \ beta_2Woman_i + u_i $$

Standardno tumačenje $ \ beta_1 $ je očekivana promjena u $ Y $ koja nastaje promjenom $ Man_i $ s 0 na 1. Isto tako, $ \ beta_2 $ je očekivana promjena u $ Y $ koja proizlazi iz promjene $ Woman_i $ s 0 na 1.

Ali, što bi $ \ beta_0 $ tada trebalo predstavljati ...? To je $ E (y_i | Man_i = 0, Woman_i = 0) $, pa je očekivani ishod za osobe koje nisu ni muškarac ni žena ... vjerojatno je sigurno reći da će za gotovo sve skupove podataka koje ćete susresti, nije korisno pitanje za postavljanje :-).



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 2.0 licenci pod kojom se distribuira.
Loading...