Pitanje:
Višestruka linearna regresija za ispitivanje hipoteza
cryptic_star
2012-04-02 17:28:55 UTC
view on stackexchange narkive permalink

Upoznat sam s korištenjem više linearnih regresija za stvaranje modela različitih varijabli. Međutim, bio sam znatiželjan koriste li se regresijski testovi ikad za provođenje bilo kakve osnovne provjere hipoteza. Ako da, kako bi izgledali ti scenariji / hipoteze?

Možete li objasniti dalje na što mislite? Vrlo je često testirati razlikuje li se parametar nagiba varijable od nule. To bih nazvao "provjerom hipoteza". Jeste li toga nesvjesni ili mislite na nešto drugo? Što predstavlja scenarij za vaše svrhe?
Ja toga nisam svjestan. Također nisam bio siguran koristi li se analiza zasnovana na regresiji za bilo koju drugu vrstu testiranja hipoteza (možda o značaju jedne varijable nad drugom, itd.).
Dva odgovori:
gung - Reinstate Monica
2012-04-02 21:12:54 UTC
view on stackexchange narkive permalink

Evo jednostavnog primjera. Ne znam jeste li upoznati s R, ali nadam se da je kod dovoljno objašnjen.

  set.seed (9) # ovo čini primjer ponovljivimN = 36 # sljedeće generira 3 varijable: x1 = rep (seq (from = 11 , do = 13), svaki = 12) x2 = rep (rep (seq (od = 90, do = 150, do = 20), svaki = 3), puta = 3) x3 = rep (seq (od = 6, do = 18, prema = 6), puta = 12) cbind (x1, x2, x3) [1: 7,] # 1st 7 slučajeva, samo da se vidi uzorak x1 x2 x3 [1,] 11 90 6 [2, ] 11 90 12 [3,] 11 90 18 [4,] 11 110 6 [5,] 11 110 12 [6,] 11 110 18 [7,] 11 130 6 # Slijedi istinski postupak generiranja podataka, napomena da je y funkcija # x1 & x2, ali ne i x3, imajte na umu i da je x1 dizajniran iznad ograničenog raspona, # & koji x2 ima manje utjecaja na varijablu odziva od x1: y = 15 + 2 * x1 + .2 * x2 + rnorm (N, srednje = 0, sd = 10) reg.Model = lm (y ~ x1 + x2 + x3) # odgovara regresijskom modelu za ove podatke  

Sada, da vidimo kako ovo izgleda:

 . . . Koeficijenti: Procjena std. Vrijednost pogreške t Pr (> | t |) (Presretanje) -1.76232 27.18170 -0.065 0.94871 x1 3.11683 2.09795 1.486 0.14716 x2 0.21214 0.07661 2.769 0.00927 ** x3 0.17748 0.34966 0.508 0.61524 --- Značaj. kodovi: 0 ‘***’ 0,001 ‘**’ 0,01 ‘*’ 0,05 ‘.’ 0,1 ‘’ 1. . . F-statistika: 3,378 na 3 i 32 DF, p-vrijednost: 0,03016  

Možemo se usredotočiti na odjeljak "Koeficijenti" rezultata. Svaki parametar koji procijeni model dobiva svoj redak. Stvarna procjena navedena je u prvom stupcu. U drugom je stupcu navedena standardna pogreška procjena, odnosno procjena koliko bi procjena 'poskakivalo' od uzorka do uzorka, ako bismo taj postupak ponavljali iznova i iznova . Točnije, to je procjena standardnog odstupanja distribucije uzorkovanja procjene. Podijelimo li procjenu svakog parametra sa SE, dobit ćemo t-rezultat, koji je naveden u trećem stupcu; ovo se koristi za testiranje hipoteza, posebno za ispitivanje je li procjena parametra 'značajno' različita od 0. Posljednji je stupac p-vrijednost povezana s tim t-rezultatom. Vjerojatnost je pronalaska procijenjene vrijednosti toliko daleko ili dalje od 0, ako je nulta hipoteza istinita. Imajte na umu da ako nulta hipoteza nije istinita, nije jasno da li nam ta vrijednost uopće govori nešto značajno.

Ako pogledamo naprijed-natrag između tablice koeficijenata i gore navedenog istinskog postupka generiranja podataka, možemo vidjeti nekoliko zanimljivih stvari. Procijenjeno je da je presjek -1,8, a njegova SE 27, dok je prava vrijednost 15. Budući da je pridružena p-vrijednost 0,95, ne bi se smatrala 'značajno drugačijom' od 0 (pogreška tipa II), ali je ipak unutar jedne SE od prave vrijednosti. Stoga u ovoj procjeni nema ničeg užasno ekstremnog iz perspektive stvarne vrijednosti i iznosa koji bi trebao varirati; jednostavno nemamo dovoljno snage da bismo je razlikovali od 0. Ista priča vrijedi, više ili manje, za x1 . Analitičari podataka obično bi rekli da nije čak ni „marginalno značajan“ jer je njegova vrijednost p> .10, međutim, ovo je još jedna pogreška tipa II. Procjena za x2 prilično je točna $ .21214 \ približno 2 $, a p-vrijednost je "vrlo značajna", ispravna odluka. x3 se također ne može razlikovati od 0, p = .62, još jedna ispravna odluka (x3 se ne prikazuje u gore navedenom pravom procesu generiranja podataka). Zanimljivo je da je vrijednost p veća od vrijednosti za x1 , ali manja od vrijednosti za presretanje, a obje su pogreške tipa II. Konačno, ako pogledamo ispod tablice Koeficijenti vidimo F-vrijednost za model, što je istodobni test. Ovim se testom provjerava predviđa li model u cjelini varijablu odgovora bolje od same slučajnosti. Drugi način da se to kaže je da li sve procjene treba smatrati nesposobnima za razlikovanje od 0. Rezultati ovog testa sugeriraju da barem neke od procjena parametara nisu jednake 0, antera ispravna odluka. Budući da su gore navedena 4 testa, bez toga ne bismo imali zaštitu od problema višestruke usporedbe. (Imajte na umu da, budući da su p-vrijednosti slučajne varijable - hoće li se nešto značajno razlikovati od eksperimenta do eksperimenta, ako se eksperiment ponovno pokrene - moguće je da one međusobno nisu u skladu. O tome se raspravlja CV ovdje: Značaj koeficijenata u višestrukoj regresiji: značajan t-test nasuprot neznačajnoj F-statistici, i suprotna situacija ovdje: Kako regresija može biti značajna, ali svi prediktori ne moraju biti -značajno, & ovdje: F i t statistika u regresiji.) Možda je zanimljivo da u ovom primjeru nema pogrešaka tipa I. U svakom slučaju, svih 5 testova raspravljenih u ovom odlomku testovi su hipoteza.

Iz vašeg komentara, čini mi se da biste se također mogli zapitati kako odrediti je li jedna objašnjavajuća varijabla važnija od druge. Ovo je vrlo često pitanje, ali prilično je škakljivo. Zamislite da želite predvidjeti potencijal za uspjeh u sportu na temelju sportaševe visine i težine i pitate se što je važnije. Uobičajena strategija je promatrati koji je procijenjeni koeficijent veći. Međutim, ove procjene specifične su za jedinice koje su korištene: na primjer, koeficijent težine promijenit će se ovisno o tome koriste li se kilogrami ili kilogrami. Uz to, nije ni izdaleka jasno kako izjednačiti / usporediti kilograme i centimetre ili kilograme i centimetre. Jedna od strategija koju ljudi koriste je prvo standardizirati (tj. Pretvoriti u z-rezultate) svoje podatke. Tada su ove dimenzije u zajedničkim jedinicama (naime, standardna odstupanja), a koeficijenti su slični r-rezultatima. Štoviše, moguće je testirati je li jedan r-rezultat veći od drugog. Nažalost, ovo vas ne izvodi iz šume; osim ako točno r nije točno 0, procijenjeni r velikim dijelom pokreće raspon korištenih kovarijantnih vrijednosti. (Ne znam koliko će to biti lako prepoznati, ali izvrstan odgovor @ whubera ovdje: Je li $ R ^ 2 $ koristan ili opasan ilustrira ovu poantu; da biste je vidjeli, razmislite samo o tome kako $ r = \ sqrt {r ^ 2} $.) Dakle, najbolje što se ikad može reći je da je varijabilnost u jednoj objašnjenoj varijabli unutar određenog raspona važnija za određivanje razine odgovora nego varijabilnost u drugoj objašnjenoj varijabli unutar drugi navedeni raspon.

Greg Snow
2012-09-13 21:30:21 UTC
view on stackexchange narkive permalink

Osnovni test u regresijskim modelima je Full-Reduced test. Ovdje uspoređujete 2 regresijska modela, puni model sadrži sve pojmove, a reducirani test ima podskup tih izraza (reducirani model treba ugniježditi u puni model). Test zatim testira nultu hipotezu da reducirani model odgovara jednako dobrom modelu i da je svaka razlika slučajna.

Uobičajeni ispisi iz statističkog softvera uključuju ukupni F test, ovo je samo Full -Smanjen test gdje je smanjeni test model samo presretanja. Oni također često ispisuju p-vrijednost za svakog pojedinog prediktora, ovo je samo niz testova s ​​potpuno smanjenim modelom, u svaki smanjeni model ne uključuje taj određeni pojam. Postoji mnogo načina da se pomoću ovih testova odgovore na pitanja koja vas zanimaju. Zapravo se gotovo svaki test koji se predaje na uvodnom tečaju statistike može izračunati pomoću regresijskih modela i Full-Reduced testa, a rezultati će u mnogim slučajevima biti identični, a u malobrojnim drugima vrlo blizu.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...