Pitanje:
Koji čimbenik napuhavanja varijance trebam koristiti: $ \ text {GVIF} $ ili $ \ text {GVIF} ^ {1 / (2 \ cdot \ text {df})} $?
jay
2013-09-22 09:57:22 UTC
view on stackexchange narkive permalink

Pokušavam protumačiti čimbenike napuhavanja varijance pomoću funkcije vif u paketu R car . Funkcija ispisuje i generalizirani $ \ text {VIF} $, a također i $ \ text {GVIF} ^ {1 / (2 \ cdot \ text {df})} $. Prema datoteci pomoći, ova posljednja vrijednost

Da bi se prilagodila dimenziji elipsoida pouzdanosti, funkcija također ispisuje GVIF ^ [1 / (2 * df) ] gdje je df stupnjevi slobode povezani s pojmom.

Ne razumijem značenje ovog objašnjenja u datoteci pomoći, pa nisam siguran bih li trebao koristiti $ \ text {GVIF} $ ili $ \ text {GVIF} ^ {1 / (2 \ cdot \ text {df})} $. Za moj se model ove dvije vrijednosti vrlo razlikuju (maksimalni $ \ text {GVIF} $ iznosi ~ 60 $; maksimalni $ \ text {GVIF} ^ {1 / (2 \ cdot \ text {df})} $ iznosi ~ 3 $ ).

Može li mi netko objasniti koji bih trebao koristiti i što se podrazumijeva pod prilagođavanjem dimenzije elipsoida pouzdanosti?

Tri odgovori:
John Fox
2014-05-06 18:19:42 UTC
view on stackexchange narkive permalink

Georges Monette i ja predstavili smo GVIF u radu "Generalizirana dijagnostika kolinearnosti", JASA 87: 178-183, 1992. ( veza). Kao što smo objasnili, GVIF predstavlja kvadratni omjer hipervolumena elipsoida zajedničkog povjerenja za podskup koeficijenata prema "utopijskom" elipsoidu koji bi se dobio da su regresori u ovom podskupu nekorelirani s regresorima u komplementarnom podskupu. U slučaju jednog koeficijenta, ovo se specijaliziralo za uobičajeni VIF. Da bi GVIF-ovi bili usporedivi po dimenzijama, predložili smo upotrebu GVIF ^ (1 / (2 * Df)), gdje je Df broj koeficijenata u podskupini. Zapravo, ovo smanjuje GVIF na linearnu mjeru, a za VIF, gdje je Df = 1, proporcionalan je inflaciji zbog kolinearnosti u intervalu pouzdanosti za koeficijent.

Dobrodošli na našu stranicu! Bila bi nam čast da registrirate svoj račun i povremeno dođete u posjet. Jedna mala kućna pomoć: Ne morate potpisati svoje postove, vaš identitet s vezom na vašu korisničku stranicu automatski se dodaje svakom vašem odgovoru.
Jan Philipp S
2014-05-06 17:00:42 UTC
view on stackexchange narkive permalink

Naletjela sam na potpuno isto pitanje i pokušala se probiti. Pogledajte moj detaljni odgovor u nastavku.

Prije svega, pronašao sam 4 opcije koje proizvode slične VIF vrijednosti u R:

corvif naredba iz AED paketa,

vif naredba iz automobilskog paketa,

vif naredba iz rms paketa ,

• naredba vif iz DAAG paketa.

Korištenje ovih naredbi na skupu prediktora koji ne uključuju nikakve čimbenike / kategorijalne varijable ili polinomske pojmove je strait naprijed. Sve tri naredbe daju isti numerički izlaz iako naredba corvif iz paketa AED rezultate označava kao GVIF.

Međutim, obično GVIF dolazi u obzir samo za faktore i polinomske varijable. Varijable koje zahtijevaju više od 1 koeficijenta, a time i više od 1 stupnja slobode, obično se procjenjuju pomoću GVIF-a. Za pojmove s jednim koeficijentom VIF je jednak GVIF.

Stoga možete primijeniti standardna pravila o tome može li kolinearnost predstavljati problem, poput praga 3, 5 ili 10. Međutim, mogao bi se (trebao) primijeniti određeni oprez (vidi: http://www.nkd-group.com/ghdash/mba555/PDF/VIF%20article.pdf).

U slučaju članaka s više koeficijenata, kao npr kategorički prediktori, 4 paketa daju različite izlaze. Naredbe vif iz rms i DAAG paketa proizvode VIF vrijednosti, dok ostale dvije proizvode GVIF vrijednosti.

Pogledajmo prvo VIF vrijednosti iz rms i DAAG paketa :

  TNAP ICE RegB RegC RegD RegE1.994 2.195 3.074 3.435 2.907 2.680  

TNAP i ICE kontinuirani su prediktori, a Reg je kategorična varijabla koju su lutke RegB predstavile RegE-u. U ovom je slučaju RegA osnovna vrijednost. Sve vrijednosti VIF-a prilično su umjerene i obično se ne treba brinuti. Problem s ovim rezultatom je taj što na njega utječe osnovna kategorija kategorijske varijable. Kako bismo bili sigurni da VIF vrijednost nema iznad prihvatljive razine, bilo bi potrebno ponoviti ovu analizu za svaku razinu kategorijalne varijable koja je osnovna crta. U ovom slučaju pet puta.

Primjenom naredbe corvif iz AED paketa ili vif iz paketa automobila, generiraju se GVIF vrijednosti:

  | GVIF | Df | GVIF ^ (1 / 2Df) | TNAP | 1,993964 | 1 | 1.412078 | LED | 2.195035 | 1 | 1,481565 | Reg | 55,511089 | 5 | 1.494301 |  

GVIF se izračunava za skupove srodnih regresora, kao što je za skup lažnih regresora. Za dvije kontinuirane varijable TNAP i ICE to je isto kao i VIF vrijednosti prije. Za kategorijsku varijablu Reg sada dobivamo jednu vrlo visoku GVIF vrijednost, iako su VIF vrijednosti za pojedine razine kategorijalne varijable bile umjerene (kao što je prikazano gore).

Međutim, interpretacija je drugačija . Za dvije kontinuirane varijable, $ GVIF ^ {(1 / (2 \ times Df))} $ (što je u osnovi kvadratni korijen vrijednosti VIF / GVIF kao DF = 1) proporcionalna je promjena standardne pogreške i intervala pouzdanosti njihovih koeficijenata zbog razine kolinearnosti. Vrijednost $ GVIF ^ {(1 / (2 \ times Df))} $ kategoričke varijable slična je mjera za smanjenje preciznosti procjene koeficijenata zbog kolinearnosti (iako nije spreman za citiranje, također pogledajte http://socserv2.socsci.mcmaster.ca/jfox/papers/linear-models-problems.pdf).

Ako tada jednostavno primijenimo ista standardna pravila za vrijednosti $ GVIF ^ {(1 / (2 \ times Df))} $ kako je preporučeno u literaturi za VIF, jednostavno moramo kvadrat $ GVIF ^ {(1 / (2 \ times Df))} $ .

Čitanje kroz sve postovi na forumu, kratke bilješke na webu i znanstveni radovi, čini se da se događa poprilična zabuna. U recenziranim radovima pronašao sam vrijednosti za $ GVIF ^ {(1 / (2 \ times Df))} $ zanemarene i ista standardna pravila predložena za VIF primjenjuju se na vrijednosti GVIF. U drugom radu, izuzete su vrijednosti GVIF od blizu 100 zbog relativno malog $ GVIF ^ {(1 / (2 \ times Df))} $ (zbog visoki DF). Pravilo $ GVIF ^ {(1 / (2 \ times Df))} < 2 $ primjenjuje se u nekim publikacijama, što bi bilo jednako uobičajenom VIF-u od 4 za varijable s jednim koeficijentom.

Dobrodošli na stranicu, @JanPhilippS. Ovo se čini kao novo pitanje koliko i odgovor na pitanje OP-a. Molimo koristite samo polje "Vaš odgovor" da biste pružili odgovore. Ako imate vlastito pitanje, kliknite `[Pitaj pitanje]` na vrhu i postavi ga tamo, a onda ćemo ti pomoći kako treba. Budući da ste ovdje novi, možda ćete htjeti krenuti u našu [turneju] (https://stats.stackexchange.com/about), koja sadrži informacije za nove korisnike.
Pa, zapravo nije novo pitanje. Radije detaljan odgovor.
@JanPhilippS, zahvaljuje na vezama do izvora za daljnje čitanje.Mislim da se vaš post činio kao kvalitetan odgovor koji je omogućio malo razmišljanja o stanju stvari.
acmw
2016-10-03 04:38:34 UTC
view on stackexchange narkive permalink

Fox & Monette (izvorni navod za GVIF, GVIF ^ 1 / 2df) predlaže da se GVIF preuzme u moć 1/2 1/2 čini vrijednost GVIF-a usporedivom po različitim brojevima parametara. "Analogno je uzimati kvadratni korijen uobičajenog faktora varijance-inflacije" (od An R i S-Plus Companion do primijenjene regresije Johna Foxa). Tako da, čini se kvadratnim i primjenom uobičajenog VIF-ovog "osnovnog pravila" čini se razumnim.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...