Pitanje:
Je li visoki $ R ^ 2 $ ikad beskoristan?
HBriz
2015-12-16 08:06:16 UTC
view on stackexchange narkive permalink

U statistikama radimo linearne regresije, same njihove početke. Općenito znamo da što je viši $ R ^ 2 $ to bolji, ali postoji li ikad scenarij kada bi visoki $ R ^ 2 $ bio beskoristan model?

Odgovor na http://stats.stackexchange.com/questions/13314 mogao bi vam dati neke ideje.
Postoji jedna situacija o kojoj se raspravlja [ovdje] (http://stats.stackexchange.com/questions/133155/how-to-use-pearson-correlation-correct-with-time-series/133171#133171), s primjerom.Na primjer, ako ste regresirali rezultate coin1 na coin2 u tamošnjem primjeru, dobili biste $ R ^ 2 $ preko 85%, ali ta je očita veza u potpunosti lažna.
$ R ^ 2 $ nije model.Stoga biste trebali reći "... visoki $ R ^ 2 $ dolazio bi iz beskorisnog modela" ili nešto slično, a ne "... visoki $ R ^ 2 $ bio bi beskoristan model".
provjerite ovu vezu: [Što je dobra vrijednost za R na kvadrat] (http://people.duke.edu/~rnau/rsquared.htm)
Relevantna nit: https://stats.stackexchange.com/q/414349/121522
Tri odgovori:
Matthew Gunn
2015-12-16 12:06:43 UTC
view on stackexchange narkive permalink

Da. Kriteriji za ocjenu statističkog modela ovise o konkretnom problemu i nisu neka mehanička funkcija od $ R ^ 2 $ ili statistička značajnost (iako su važni). Relevantno pitanje je, "pomaže li vam model da razumijete podatke?"

Besmislene regresije s visokim $ R ^ 2 $

  1. Najjednostavniji način da dobijete visoki $ R ^ 2 $ je napraviti neki ekvivalent regresiranju desnih cipela na lijevim cipelama. Recite mi veličinu vaše desne cipele i mogu s velikom točnošću predvidjeti veličinu vaše lijeve cipele. Ogroman $ R ^ 2 $! Kakav sjajan statistički model! Osim što to znači dodly poo. Možete dobiti sjajnih $ R ^ 2 $ stavljanjem iste varijable na lijevu i desnu stranu regresije, ali ova ogromna regresija $ R ^ 2 $ gotovo bi sigurno bila beskorisna.

  2. Postoje i drugi slučajevi u kojima je uključivanje varijable s desne strane konceptualno pogrešno što treba učiniti (čak i ako povisi $ R ^ 2 $). Recimo da pokušavate procijeniti je li neka manjinska skupina diskriminirana i manje vjerojatno da će dobiti posao. Ne biste trebali kontrolirati hoće li tvrtka nazvati nakon poziva za posao, jer je manja vjerojatnost da će odgovoriti na molbe za posao manjina možda kanal putem kojeg se događa diskriminacija! Dodavanje pogrešne kontrole može vašu regresiju učiniti besmislenom.

  3. Možete uvijek povećati $ R ^ 2 $ dodavanjem dodatnih regresora! Mogu nastaviti dodavati regresore s desne strane dok ne dobijem sve što mi se sviđa R $ ^ 2 $. Da bih predvidio zaradu od rada, mogao bih dodati kontrole obrazovanja, dobne kontrole, fiksne efekte na četvrtine, fiksne efekte na poštanski broj, fiksne efekte zanimanja, čvrste fiksne efekte, obiteljske fiksne efekte, fiksne efekte za kućne ljubimce, duljinu dlake itd ... u nekom trenutku kontrole prestati imati smisla, ali $ R ^ 2 $ nastavlja rasti. Dodavanje svega kao regresora poznato je kao regresija "kuhinjskog sudopera". Možete dobiti visokih $ R ^ 2 $, ali možete masovno pretjerati s podacima: vaš model savršeno predviđa uzorak koji se koristi za procjenu modela (ima visokih $ R ^ 2 $), ali procijenjeni model strašno ne uspijeva na novim podacima.

  4. Ista ideja može se pojaviti u ugradnji polinomske krivulje. Dajte mi slučajne podatke i vjerojatno mogu dobiti sjajnih $ R ^ 2 $ postavljanjem polinoma od 200 stupnjeva. Na novim podacima, međutim, procijenjeni polinom neće uspjeti zbog prekomjerne prilagodbe. Opet, visokih $ R ^ 2 $ za procijenjeni model, ali procijenjeni model je beskoristan.

  5. Točka (3-4) je razlog zašto smo prilagodili $ R ^ 2 $, što je pruža određenu kaznu za dodavanje dodatnih regresora, ali prilagođeni $ R ^ 2 $ obično se još uvijek može usisati prekomjernim uklapanjem podataka. Također ima čudesno besmislenu značajku da može postati negativna.

Također bih mogao dati primjere u kojima je niskih $ R ^ 2 $ sasvim u redu (npr. Procjena beta u cijeni imovine modeli), ali ovaj je post već postao prilično dugačak. Da rezimiramo, cjelokupno pitanje trebalo bi biti otprilike poput: "Znajući što znam o problemu i statistikama, pomaže li mi ovaj model da razumijem / objasnim podatke?" $ R ^ 2 $ može vam pomoći u odgovoru na ovo pitanje, ali nije tako jednostavno jer su modeli s višim $ R ^ 2 $ uvijek bolji.

+1 za puno dobrih bodova.Pokušavam shvatiti što reći o tonu ....
+1.Budući da ste pomalo pedantni, iako je vaše "uvijek povećavanje" trebalo biti "nikad se smanjiti".Pod pretpostavkom da se doda varijabla objašnjenja koja je neovisna o zavisnoj varijabli, $ R ^ 2 $ bi ostao isti.: D
biti još pedantniji: čak i ako je dodatna objašnjavajuća varijabla neovisna, tipično će i dalje dodati malo na $ R ^ 2 $, jer će uzorkovana djelomična korelacija općenito biti negativna čak i pod neovisnošću.
Mike Hunter
2015-12-16 19:25:20 UTC
view on stackexchange narkive permalink

"Više je bolje" loše je pravilo za R-kvadrat.

Don Morrison napisao je nekoliko poznatih članaka prije nekoliko godina pokazujući da R-kvadrati koji se približavaju nuli i dalje mogu biti djelotvorni i profitabilni, ovisno o industriji. Na primjer, u izravnom marketinškom predviđanju odgovora na pretplatu na časopis slanjem 10 milijuna kućanstava, R-kvadratići s malim jednoznamenkastim vrijednostima mogu proizvesti profitabilne kampanje (na osnovi ROI) ako se slanje temelji na gornja 2 ili 3 decila odgovora vjerojatnost.

Još jedan sociolog (čije mi ime izmiče) segmentirao je R-kvadrate prema tipu podataka, napominjući da su wrt anketna istraživanja R-kvadrati u rasponu od 10-20% bili norma, dok su za poslovne podatke R-kvadrati očekivalo se u rasponu od 40-60%. Dalje su primijetili da R-kvadrati od 80-90% ili više vjerojatno krše temeljne regresijske pretpostavke. Međutim, ovaj autor nije imao iskustva s marketinškim miksom, podacima o vremenskim serijama ili modelima koji sadrže čitav niz "uzročnih" značajki (npr. Klasičnih 4 "Ps" cijene, promocije, mjesta i proizvoda) koji mogu i hoće proizvesti R- kvadrati koji se približavaju 100%.

Takva, čak i razumna, referentna pravila poput ovih nisu od velike pomoći kada se radi o tehnički nepismenima čije će prvo pitanje o prediktivnom modelu uvijek biti "Koji je R-kvadrat?"

Adam C
2015-12-16 23:55:22 UTC
view on stackexchange narkive permalink

Ostali odgovori nude sjajna teorijska objašnjenja mnogih načina na koje se vrijednosti R-kvadrata mogu popraviti / lažirati / obmanuti / itd. Evo praktične demonstracije koja je uvijek ostala uz mene, kodirana u r :

  y <- rnorm (10) x <- sapply (rep (10,8), rnorm) sažetak (lm (y ~ x))  

To može pružiti R-kvadratne vrijednosti> 0,90. Dodajte dovoljno regresora, pa čak i slučajne vrijednosti mogu "predvidjeti" slučajne vrijednosti.

Zanimljivo: kontrast `` set.seed (1) `` i `` set.seed (2) ``.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...