Pitanje:
Što se događa kad u svoju regresiju uključim kvadratnu varijablu?
seini
2013-03-18 18:07:51 UTC
view on stackexchange narkive permalink

Počinjem s mojom OLS regresijom: $$ y = \ beta _0 + \ beta_1x_1 + \ beta_2 D + \ varepsilon $$ gdje je D lažna varijabla, procjene se razlikuju od nule s malom vrijednosti p. izradite Ramsey RESET test i utvrdite da imam pogrešnu interpretaciju jednadžbe, tako da uključujem kvadrat x: $$ y = \ beta _0 + \ beta_1x_1 + \ beta_2x_1 ^ 2 + \ beta_3 D + \ varepsilon $$

  • Što objašnjava pojam na kvadrat? (Nelinearno povećanje Y?)
  • Radeći to, moja procjena D više ne varira od nule, s visokom vrijednosti p.Kako tumačiti kvadratni pojam u svojoj jednadžbi (općenito )?
  • Uredi: Poboljšanje pitanja.

    mogući duplikat [Zašto se rezultati ANOVA / regresije mijenjaju kada se kontrolira druga varijabla] (http://stats.stackexchange.com/questions/25605/why-anova-regression-results-change-when-controlling-for-another-variable )
    Vjerojatni razlog: čini se da $ x_ {1} ^ 2 $ i $ D $ objašnjavaju istu varijabilnost u $ y $
    Jedna stvar koja bi mogla pomoći je centriranje $ x $ * prije * stvaranja vašeg izraza na kvadrat (pogledajte [ovdje] (http://stats.stackexchange.com/questions/29781/when-should-you-center-your-data- kada-biste-trebali-standardizirati / 29782 # 29782)). Što se tiče tumačenja vašeg izraza na kvadrat, tvrdim da je najbolje protumačiti $ \ beta_1x_1 + \ beta_2x_1 ^ 2 $ * u cjelini * (pogledajte [ovdje] (http://stats.stackexchange.com/questions/28730/does -misliti-smislom-dodati-kvadratni-pojam-ali-ne-linearni-pojam-modelu / 28750 # 28750)). Druga stvar je da će vam možda trebati interakcija, što znači da dodate $ \ beta_4x_1D + \ beta_5x_1 ^ 2D $.
    Mislim da to zapravo nije duplikat tog pitanja; rješenje je drugačije (varijable za centriranje rade ovdje, ali ne i tamo, osim ako se ne varam)
    @Peter, Ovo pitanje tumačim kao podskup "Zašto se, kad dodam varijablu u svoj model, procjena učinka / $ p $ -vrijednost za neke druge varijable mijenja?", O čemu se govori u drugom pitanju. Među odgovorima na ta pitanja su kolinearnost (na što gung aludira u svom odgovoru na _to_ pitanje) / preklapanje sadržaja između prediktora (tj. Između $ D $ i $ (x_1, x_1 ^ 2) $, što je, pretpostavljam, krivac za ovaj slučaj). Ista logika vrijedi i ovdje. Nisam siguran u čemu je kontroverza, ali to je u redu ako se vi i drugi ne slažete. Živjeli.
    @Macro Slažem se da je ovdje vjerojatno problem kolinearnost, ali kada je problem uzrokovan kvadratnom varijablom, centriranje uklanja problem. Mislim da ovo ne djeluje za dvije povezane varijable (kao u drugom problemu). Jesam li u krivu?
    @Peter,, jer je odgovor kolinearnost / preklapanje sadržaja, mislim da to čini podskup drugog pitanja. Ispravci kolinearnosti mogu ovisiti o kontekstu, ali mislim da to ne postavlja drugačije pitanje. Da biste se izravno obratili komentaru - centriranje _može_ ublažiti problem, ali ako je $ D $ (ili $ P (D = 1) $) funkcija od $ x_1 $, onda to gotovo sigurno neće, u tom slučaju ste i više usko natrag na sadržaj prenesen u povezanom pitanju. Još uvijek ne vidim kontroverzu, ali ne trebamo se oko toga slagati, pa završimo ovdje dvostruki i ne duplicirani konvoj. Živjeli.
    Macro i Peter su obojica točni. Naša je politika identificirati * bliske * duplikate; ako bi moglo biti poteškoća s odlukom je li pitanje uistinu duplikat, onda nije dovoljno blizu. Međutim, na ovo je pitanje odgovoreno u mnogim nitima na ovom mjestu: malo više marljivosti u pretraživanju vjerojatno će proizvesti mnogo korisnog i relevantnog materijala.
    ** Vrlo ** usko povezano: [Dodavanje kvadratnih i interakcijskih pojmova modelu utječe na značaj] (http://stats.stackexchange.com/questions/34488/adding-both-quadratic-and-interaction-terms-to- model-utječe-na-značaj) ...
    Pogledajte moj post na blogu za jednostavan vodič korak po korak i kako protumačiti varijablu dobi i dobi na kvadrat. Primjer slijedi jednadžbu plaća spomenute u gornjem postu. http://www.excel-with-data.co.uk/blog-1/how-to-regression-analysis-in-excel/
    U ovom trenutku veza do posta na blogu koji je upravo spomenuo @user34889 više nije aktivna, što podcrtava ovdje česte savjete da budu oprezni pri objavljivanju takvih veza, osim ako se zna da su stabilne.
    Dva odgovori:
    altabq
    2013-03-19 20:35:03 UTC
    view on stackexchange narkive permalink

    Pa, prvo, lažna varijabla se tumači kao promjena u presretanju. Odnosno, vaš koeficijent $ \ beta_3 $ daje vam razliku u presretanju kada je $ D = 1 $, tj. Kada je $ D = 1 $, presretanje je $ \ beta_0 + \ beta_3 $. Ta se interpretacija ne mijenja dodavanjem kvadrata $ x_1 $.

    Sada je poanta dodavanja kvadrata seriji pretpostavka da veza u određenom trenutku prestaje. Gledajući vašu drugu jednadžbu

    $$ y = \ beta _0 + \ beta_1x_1 + \ beta_2x_1 ^ 2 + \ beta_3 D + \ varepsilon $$

    Uzimanje derivata w.r.t. $ x_1 $ donosi

    $$ \ frac {\ delta y} {\ delta x_1} = \ beta_1 + 2 \ beta_2 x_1 $$

    Rješenjem ove jednadžbe dobivate prekretnicu veze. Kao što je objasnio user1493368, ovo doista odražava inverzni U-oblik ako $ \ beta_1<0 $ i obrnuto. Uzmimo sljedeći primjer:

    $$ \ hat {y} = 1,3 + 0,42 x_1 - 0,32 x_1 ^ 2 + 0,14D $$

    Derivat w.r.t. $ x_1 $ je

    $$ \ frac {\ delta y} {\ delta x_1} = 0,42 - 2 * 0,32 x_1 $$

    Rješenje za $ x_1 $ daje vam

    $$ \ frac {\ delta y} {\ delta x_1} = 0 \ iff x_1 \ približno 0,66 $$

    To je točka u kojoj odnos ima svoju prekretnicu. Možete pogledati izlaz Wolfram-Alpha-e za gornju funkciju radi neke vizualizacije vašeg problema.

    Zapamtite, prilikom tumačenja efekta ceteris paribus promjene promjene u $ x_1 $ na $ y $, morate pogledati jednadžbu:

    $$ \ Delta y = (\ beta_1 + 2 \ beta_2x_1) \ Delta x $$

    To jest, ne možete protumačiti $ \ beta_1 $ izolirano, nakon što dodate kvadratni regresor $ x_1 ^ 2 $!

    Što se tiče vaših beznačajnih $ D $ nakon uključivanja kvadrata $ x_1 $, to ukazuje na pristranost pogrešne specifikacije.

    Bok.Ako ste imali nekoliko prediktora, biste li trebali koristiti djelomične derivate ili ukupne derivate (diferencijale)?
    Djelomična izvedenica još je uvijek pravi put.Tumačenje svih koeficijenata je * ceteris paribus *, tj. Držanje svega ostalog konstantnim.Upravo to radite kad uzmete djelomičnu izvedenicu.
    Pogledajte ovu [UCLA IDRE stranicu] (https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faqhow-do-i-interpret-the-sign-of-the-quadratic-term-in-a-polinom-regresija /) nadopuniti @altabq's sjajan odgovor.
    Metrics
    2013-03-19 06:50:59 UTC
    view on stackexchange narkive permalink

    Dobar primjer uključivanja kvadrata varijable dolazi iz ekonomije rada. Ako pretpostavite y kao plaću (ili zapisnik o plaći) i x kao dob, tada uključivanje x ^ 2 znači da testirate kvadratni odnos između dobi i zarade. Plaće se s godinama povećavaju kako ljudi postaju iskusniji, ali u višim godinama plaća počinje rasti sve manjom brzinom (ljudi postaju stariji i neće biti toliko zdravi za rad kao prije), a u nekom trenutku plaća ne raste ( dosegne optimalnu razinu plaće), a zatim počinje padati (odlaze u mirovinu i zarada im se počinje smanjivati). Dakle, odnos između nadnice i dobi obrnut je u obliku slova U (učinak životnog ciklusa). Općenito, za ovdje spomenuti primjer očekuje se da će koeficijent na age biti pozitivan, a na age ^ 2 negativan. Poanta je ovdje da bi trebalo postojati teorijska osnova / empirijsko opravdanje za uključivanje kvadrata varijable. Ovdje se pod lažnom varijablom može smatrati da predstavlja spol radnika. Također možete uključiti pojam interakcije spola i dobi kako biste ispitali varira li razlika u spolu ovisno o dobi.



    Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
    Loading...