Pitanje:
Zašto ne koristimo t-raspodjelu za konstrukciju intervala pouzdanosti za udio?
Abhijit
2019-06-05 23:57:02 UTC
view on stackexchange narkive permalink

Da bismo izračunali interval pouzdanosti (CI) za srednju vrijednost sa nepoznatim standardnim odstupanjem populacije (sd), procjenjujemo standardno odstupanje stanovništva primjenom t-raspodjele. Značajno, $ CI = \ bar {X} \ pm Z_ {95 \%} \ sigma _ {\ bar X} $ gdje $ \ sigma _ {\ bar X} = \ frac {\ sigma} {\ sqrt n} $ . Ali budući da nemamo bodovnu procjenu standardne devijacije populacije, procjenjujemo kroz aproksimaciju $ CI = \ bar {X} \ pm t_ {95 \%} (se ) $ gdje $ se = \ frac {s} {\ sqrt n} $

Nasuprot tome, za udio populacije, za izračunavanje CI, približujemo kao $ CI = \ hat {p} \ pm Z_ {95 \%} (se) $ span > gdje je $ se = \ sqrt \ frac {\ hat {p} (1- \ hat {p})} {n} $ pod uvjetom $ n \ hat {p} \ ge 15 $ i $ n (1- \ hat {p}) \ ge 15 $

Moje pitanje je, zašto smo zadovoljni standardnom raspodjelom udjela stanovništva?

Moja intuicija kaže da je to zato što za dobivanje standardne pogreške srednje vrijednosti imate drugu nepoznatu, $ \ sigma $, koja se procjenjuje iz uzorka za dovršetak izračuna.Standardna pogreška omjera ne uključuje dodatne nepoznanice.
@GavinSimpson Zvuči uvjerljivo.Zapravo je razlog zbog kojeg smo uveli distribuciju t nadoknađivanje pogreške uvedene za kompenzaciju aproksimacije standardne devijacije.
Smatram da je to dijelom manje nego uvjerljivo jer raspodjela $ t $ proizlazi iz * neovisnosti * varijance uzorka i srednje vrijednosti uzorka u uzorcima iz normalne raspodjele, dok za uzorke iz binomne raspodjele te dvije veličine nisu neovisne.
@Abhijit Neki udžbenici koriste t-raspodjelu kao aproksimaciju ove statistike (pod određenim uvjetima) - čini se da koriste n-1 kao df. Iako još nisam vidio dobar formalni argument za to, aproksimacija se čini čestoraditi prilično dobro;za slučajeve koje sam provjerio obično je nešto bolji od normalne aproksimacije (ali za to postoji čvrst asimptotski argument koji nedostaje t-aproksimaciji).[Uredi: moji vlastiti čekovi bili su više-manje slični onim whuber emisijama;razlika između z i t je daleko manja od njihovog odstupanja od statistike]
Može biti da postoji mogući argument (možda zasnovan na ranim terminima proširenja serije) koji bi mogao utvrditi da se gotovo uvijek očekuje da t bude bolji ili možda da bi trebao biti bolji pod nekim specifičnim uvjetima, ali janisam vidio nijedan argument ove vrste.Osobno se uglavnom držim z-a, ali ne brinem se koristi li netko t.
@Glen_b.Jedini argumenti koje sam vidio temelje se na vjerojatnosti pokrivenosti, koja je nažalost funkcija n i p.To je općenito razlog zašto ne postoje opći uvjeti pod kojima je jedan općenito bolji od drugog, premda biste mogli argumentirati potporu t preko z koristeći prosječnu vjerojatnost pokrića u rasponu od p ako ste prethodno znali p.
[Obavezno xkcd] (https://xkcd.com/2110/)
Pet odgovori:
whuber
2019-06-06 01:55:16 UTC
view on stackexchange narkive permalink

I standardna normalna i Studentova t distribucija prilično su slabe aproksimacije distribucije

$$ Z = \ frac {\ hat p - p} {\ sqrt {\ hat p (1- \ hat p) / n}} $$

za male $ n, $ toliko loše da pogreška umanjuje razlike između ove dvije distribucije.

Evo usporedbe sve tri distribucije (izostavljajući slučajeve kada $ \ hat p $ ili $ 1- \ hat p $ su nula, gdje omjer nije definiran) za $ n = 10, p = 1/2: $

Figure 1

"Empirijska" raspodjela je ona $ Z, $ koja mora biti diskretna jer procjene $ \ hat p $ ograničeni su na konačni skup $ \ {0, 1 / n, 2 / n, \ ldots, n / n \}. $

Čini se da distribucija $ t $ daje bolji posao aproksimacije.

Za $ n = 30 $ i $ p = 1/2, $ možete vidjeti razlika između standardne normalne i Student t distribucije potpuno je zanemariva:

Figure 2

B Budući da je Studentova t distribucija složenija od standardne Normal (to je zapravo cijela obitelj distribucija indeksirana "stupnjevima slobode", koja je prije zahtijevala čitava poglavlja tablica, a ne jednu stranicu), koristi se standardni Normal za gotovo sve aproksimacije.

Kvalitetan odgovor.+1
jsk
2019-06-06 01:55:06 UTC
view on stackexchange narkive permalink

Opravdanje za upotrebu raspodjele t u intervalu pouzdanosti srednje vrijednosti oslanja se na pretpostavku da osnovni podaci slijede normalnu raspodjelu, što dovodi do hi-kvadrat distribucije pri procjeni standardne devijacije, a time i $ \ frac {\ bar {x} - \ mu} {s / \ sqrt {n}} \ sim t_ {n-1} $ . To je točan rezultat pod pretpostavkom da su podaci potpuno normalni što dovodi do intervala pouzdanosti s točno 95% pokrivenosti kada se koristi $ t $ i manje od 95% pokrivenosti ako koristite $ z $ .

U slučaju Waldovih intervala za proporcije, asimptotsku normalnost dobivate samo za $ \ frac {\ hat {p} - p} {\ sqrt {\ hat {p} ( 1- \ hat {p}) / n}} $ kada je n dovoljno velik, što ovisi o str. Stvarna vjerojatnost pokrivenosti postupka, budući da su osnovni brojevi uspjeha diskretni, ponekad je ispod, a ponekad i iznad nominalne vjerojatnosti pokrivenosti od 95%, ovisno o nepoznatom $ p $ span >. Dakle, ne postoji teoretsko opravdanje za upotrebu $ t $ , a ne postoji ni jamstvo da se iz praktične perspektive može koristiti $ t $ samo da bi se intervali proširili zapravo bi pomoglo postići nominalnu pokrivenost od 95%.

Vjerojatnost pokrivenosti može se točno izračunati, iako je prilično jednostavno simulirati je. Sljedeći primjer prikazuje simuliranu vjerojatnost pokrića kada je n = 35. Dokazuje da je vjerojatnost pokrivenosti za upotrebu z-intervala uglavnom nešto manja od 0,95, dok vjerojatnost pokrivenosti za t-interval može općenito biti manja bliže 0,95 u prosjeku, ovisno o vašim prethodnim uvjerenjima o vjerojatnim vrijednostima p .

enter image description here

enter image description here

+1 Ovo su izvrsne ilustracije tvrdnji koje sam iznio (temeljene samo na uvidu u grafikone CDF-ova, a ne na rigoroznim demonstracijama) o relativnoj točnosti studentskih t i normalnih CI-a.
Qilin Wang
2019-06-06 05:15:15 UTC
view on stackexchange narkive permalink

I AdamO i jsk daju sjajan odgovor.

Pokušao bih ponoviti njihove točke s običnim engleskim jezikom:

Kad je osnovna distribucija normalna, znate da postoje dva parametra: srednja vrijednost i varijansa . T-distribucija nudi način zaključivanja o srednjoj vrijednosti bez poznavanja točne vrijednosti varijanci. Umjesto da se koriste stvarne varijance, potrebna su samo uzorak sredstva i uzorak odstupanja. Budući da se radi o točnoj distribuciji, vi točno znate što dobivate. Drugim riječima, vjerojatnost pokrića je točna. Upotreba t jednostavno odražava želju da se zaobiđe nepoznata varijansa stanovništva.

Međutim, kad zaključimo o proporciji, temeljna je raspodjela binomna. Da biste dobili točnu raspodjelu, trebate pogledati intervale pouzdanosti Clopper-Pearson. Formula koju pružate je formula za Waldov interval povjerenja. Koristi normalnu raspodjelu da bi približio binomnu raspodjelu, jer je normalna raspodjela ograničavajući raspored binomske raspodjele. U ovom slučaju, budući da se samo približavate, dodatna razina preciznosti korištenja t statistika postaje nepotrebna, sve se svodi na empirijske performanse. Kao što je predloženo u odgovoru BruceET-a, Agresti-Coull danas je jednostavna i standardna formula za takvu aproksimaciju.

Moj profesor dr. Longnecker iz Teksasa A&M izveo je jednostavnu simulaciju kako bi ilustrirao kako funkcionira različita aproksimacija u usporedbi s CI temeljenim na binomu.

Comparison of Various 95% C.I.’s for Proportion

Daljnje informacije mogu se naći u članku Interval Estimation for Binomial Proportion u Statistička znanost , sv. 16, str.101-133, L. Brown, T. Cai i A. DasGupta. U osnovi se preporuča A-C CI za n> = 40.

enter image description here

BruceET
2019-06-06 02:19:13 UTC
view on stackexchange narkive permalink

Interval pouzdanosti Cza normalnu sredinu. Pretpostavimo da imamo slučajni uzorak $ X_1, X_2, \ dots X_n $ iz normalne populacije. Pogledajmo interval pouzdanosti normalne srednje vrijednosti $ \ mu $ u smislu ispitivanja hipoteza. Ako je poznat $ \ sigma $ , tada se vrši dvostrani test $ H_0: \ mu = \ mu_0 $ span> protiv $ H_a: \ mu \ ne \ mu_0 $ temelji se na statistici $ Z = \ frac {\ bar X - \ mu_0} {\ sigma / \ sqrt {n}}. $ Kada je $ H_0 $ tačno, $ Z \ sim \ mathsf {Norm} (0,1), $ pa odbijamo $ H_0 $ na razini od 5% ako je $ | Z | \ ge 1.96. $

Zatim 'invertiranje testa', kažemo da se 95% CI za $ \ mu $ sastoji od vrijednosti $ \ mu_0 $ koje ne dovode do odbijanja - 'vjerodostojne' vrijednosti $ \ mu. $ CI je oblika $ \ bar X \ pm 1,96 \ sigma / \ sqrt {n}, $ gdje $ \ pm 1,96 $ smanjuje vjerojatnost 0,025 od gornjeg, odnosno donjeg repa, standardne normalne raspodjele.

Ako je standardna devijacija populacije $ \ sigma $ nepoznata i procijenjena prema uzorku standardne devijacije $ S, $ tada koristimo statistiku $ T = \ frac {\ bar X - \ mu_0} {S / \ sqrt {n}}. $ Prije početka Ljudi iz 1900. pretpostavljali su da je $ T $ približno standardno za $ n $ dovoljno veliko i da se koristi $ S $ kao zamjena za nepoznati $ \ sigma. $ Raspravljalo se o koliko broji kao dovoljno velik.

Na kraju je bilo poznato da $ T \ sim \ mathsf {T} (\ nu = n-1), $ t-ova distribucija učenika s $ n-1 $ stupnjeva od sloboda. Sukladno tome, kada $ \ sigma $ nije poznato, koristimo $ \ bar X \ pm t ^ * S / \ sqrt {n}, $ gdje $ \ pm t ^ * $ smanjuje vjerojatnost 0,025 s gornjeg i donjeg repa, $ \ mathsf {T} (n-1). $

[ Napomena: Za $ n > 30, $ ljudi su primijetili da za 95% CI $ t ^ * \ približno 2 \ približno 1,96. $ Stoga je stoljetna ideja koju možete" dobiti "samo zamjenom $ S $ za $ \ sigma $ kada je $ \ sigma $ nepoznata i $ n > 30, $ zadržao se čak i u nekim nedavno objavljenim knjigama.]

Interval pouzdanosti C za binomni omjer., pretpostavimo da smo u binomskom slučaju promatrali uspjehe $ X $ u binomnom eksperimentu s $ n $ neovisna ispitivanja. Tada koristimo $ \ hat p = X / n $ kao procjenu vjerojatnosti binomnog uspjeha $ p. $ raspon> Da bismo testirali $ H_0: p = p_0 $ vs $ H_a: p \ ne p>0, $ mi koristite statitic $ Z = \ frac {\ hat p - p_0} {\ sqrt {p_0 (1-p_0) / n}}. $ Ispod $ H_0, $ znamo da je $ Z \ stackrel {aprx} {\ sim} \ mathsf {Norm} (0,1). $ Dakle, odbijamo $ H_0 $ ako $ | Z | \ ge 1.96. $

Ako želimo invertirati ovaj test da bismo dobili 95% CI za $ p, $ , nailazimo na neke poteškoće. 'Jednostavan' način za inverziju testa je započnite s pisanjem $ \ hat p \ pm 1,96 \ sqrt {\ frac {p (1-p)} {n}}. $ Ali njegov je beskoristan jer vrijednost od $ p $ ispod kvadratnog korijena nepoznat je. Tradicionalni Wald CI pretpostavlja da je za dovoljno velike $ n, $ u redu zamijeniti $ \ hat p $ span> za nepoznati $ p. $ Stoga je Wald CI oblika $ \ hat p \ pm 1,96 \ sqrt { \ frac {\ hat p (1- \ hat p)} {n}}. $ [Nažalost, Waldov interval dobro funkcionira samo ako je broj pokusa $ n $ iznosi najmanje nekoliko stotina.]

Pažljivije se može riješiti pomalo neuredna kvadratna nejednakost da bi se "inverzirao test". Rezultat je Wilsonov interval. (Pogledajte Wikipediju.) Za interval pouzdanosti od 95% potječe donekle pojednostavljena verzija ovog rezultata definiranje $ \ check n = n + 4 $ i $ \ check p = (X + 2) / \ check n $ a zatim izračunavanje intervala kao $ \ check p \ pm 1.96 \ sqrt {\ frac {\ check p (1- \ check p)} {\ check n}} . $ Ovaj stil binomnog intervala pouzdanosti nadaleko je poznat kao Agresti-Coullov interval; široko se zagovara u osnovnim udžbenicima otprilike posljednjih 20 godina.

Ukratko, jedan od načina da pogleda vaše pitanje je da su CI-ovi za normalne $ \ mu $ i binomne $ p $ može se promatrati kao inverzija testova.

(a) Distribucija t pruža točno rješenje problema potrebe korištenja $ S $ za $ \ sigma $ kada je $ \ sigma $ nepoznata.

(b) Korištenje $ \ hat p $ za $ p $ zahtijeva određenu pažnju jer srednja vrijednost i varijansa $ \ hat p $ ovise o $ p. $ Agresti-Coull CI nudi jedan uslužni način za dobivanje CI-ja za binomne $ p $ koji su razumno točni čak i za umjereno male $ n. $

AdamO
2019-06-06 01:05:23 UTC
view on stackexchange narkive permalink

Obratite pažnju na upotrebu oznake $ \ sigma $ , što znači (poznato) standardno odstupanje populacije.

T-distribucija nastala je kao odgovor na pitanje: što se događa kad ne znate $ \ sigma $ ?

Primijetio je da su vam varalice u prosjeku preuske kada varate procjenjujući $ \ sigma $ iz uzorka kao procjenu dodataka.To je zahtijevalo T-distribuciju.

Suprotno tome, ako koristite distribuciju T kad zapravo znate $ \ sigma $ , vaši intervali povjerenja u prosjeku će biti previšeširoko.

Također, valja napomenuti da ovo pitanje odražava odgovor koji traži ovo pitanje.

Pseudonim Gosset objavljen pod bio je "Student", a ne "Student-T".Također zapravo nije smislio samu standardnu t-raspodjelu, niti je statistika s kojom se bavio zapravo bila t-statistika (radio je ekvivalentne stvari, u osnovi se baveći skalom t, ali gotovo sav formalizam koji imamo sada dolaziiz Fisherovog djela).Fisher je statistiku napisao onako kako mi pišemo.Fisher ga je nazvao t.Fisher je formalno izveo raspodjelu statistike (pokazujući da je Gossetova kombinacija algebre, intuicije i prateće simulacije-argument o njegovoj verziji statistike bila točna)
Pogledajte Gossetov članak iz 1908. ovdje: https://archive.org/details/biometrika619081909pear/page/n13 - tu je i lijepo čitljiv pdf rada preuređenog u LaTeX-u [ovdje] (https://www.york.ac.uk/depts / maths / histstat / student.pdf).Imajte na umu da ovo nije zaštićeno autorskim pravima jer dolazi više od nekoliko godina prije * Steamboat Willie *.
@Glen_b Hvala!Izbrisao sam očito pogrešne anegdote iz povijesti.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 4.0 licenci pod kojom se distribuira.
Loading...