Pitanje:
Izbor između $ z $ -testa i $ t $ -testa
Hatti
2014-02-08 01:29:12 UTC
view on stackexchange narkive permalink

Pozadina: Izlažem prezentaciju kolegama na poslu na ispitivanju hipoteza i većinu toga dobro razumijem, ali postoji jedan aspekt koji vežem u čvorove pokušavajući razumjeti i objasniti drugima.

To mislim da znam (molim ispravite ako je pogrešno!)

  • Statistika koja bi bila normalna da je varijansa poznata, slijedite $ t $ -distribuciju ako varijance je nepoznat
  • CLT (središnji granični teorem): Raspodjela uzorka srednje vrijednosti uzorka približno je normalna za dovoljno velike $ n $ (može biti 30 $, a može biti i do 300 $ za jako iskrivljene raspodjele)
  • $ t $ -distribucija se može smatrati normalnom za stupnjeve slobode $ > 30 $

$ z $ -test koristite ako:

  • Populacija normalna i varijanca je poznata (za bilo koju veličinu uzorka)
  • Normalna je populacija, varijansa je nepoznata i $ n>30 $ (zbog CLT-a)
  • Binom populacije, $ np>10 $ , $ nq>10 $
  • Koristite $ t $ -test ako:

    1. Stanovništvo normalno, varijansa nepoznata i $ n<30 $
    2. Nema znanja o populaciji ili varijansi i $ n<30 $, ali podaci uzorka izgledaju normalno / prolaze testove itd., tako da se populacija može pretpostaviti normalnom

    Preostalo mi je:

    • Za uzorke $ >30 $ i $ < \ približno 300 $ (?), nije poznato znanje o populaciji i varijansi / nepoznato.

    Dakle, moja pitanja su:

    1. Na kojoj veličini uzorka možete pretpostaviti (gdje nema znanja o raspodjeli ili varijansi populacije) da je raspodjela uzorka srednje vrijednosti je normalna (tj CLT je započeo) kada raspodjela uzorka izgleda ne normalno? Znam da nekim distribucijama treba $ n>300 $, ali čini se da neki resursi kažu da koriste $ z $ -test kad god $ n>30 $ ...

    2. U slučajevima u koje nisam siguran, pretpostavljam da podatke gledam radi normalnosti. Sada, ako podaci uzorka izgledaju normalno, da li koristim $ z $ -test (budući da pretpostavljamo da je populacija normalna i budući da $ n>30 $)?

    3. Što je s uzorkom podaci za slučajeve oko kojih sam nesigurna ne izgledaju normalno? Postoje li okolnosti u kojima biste i dalje koristili $ t $ -test ili $ z $ -test ili uvijek želite transformirati / koristiti neparametarske testove? Znam da će se zbog CLT-a pri nekoj vrijednosti od $ n $ raspodjela uzorka srednje vrijednosti približiti normalnoj vrijednosti, ali podaci uzorka neće mi reći kolika je ta vrijednost od $ n $; podaci uzorka mogu biti nenormalni, dok srednja vrijednost uzorka slijedi normalu / $ t $. Postoje li slučajevi u kojima biste transformirali / koristili neparametarski test dok je zapravo raspodjela uzorka srednje vrijednosti bila normalna / $ t $, ali niste mogli reći?

    "* može biti i do 300 za vrlo iskrivljene distribucije *" ... u nekim slučajevima može biti puno više; ili se to možda nikad neće dogoditi. Odaberite bilo koji $ n $, a ja ću vam pokazati slučaj u kojem to nije dovoljno.
    Hvala Glen_b - pa uvijek provjeravajte da li uzorci podataka izgledaju normalno za upotrebu parametarskih?
    @Hatti ne! T-test valjan je kada se podaci čine ne-normalnima.
    Dva odgovori:
    gung - Reinstate Monica
    2014-02-08 01:58:16 UTC
    view on stackexchange narkive permalink

    @AdamO je u pravu, jednostavno uvijek koristite $ t $ -test ako a-priori ne znate standardno odstupanje populacije. Ne morate brinuti kada prebaciti na $ z $ -test, jer $ t $ span> -distribucija 'prekidači' za vas. Preciznije, $ t $ -distribution konvergira u normalu, pa je to ispravna raspodjela za svaku $ N $ .

    Ovdje postoji i zabuna oko značenja tradicionalne linije na $ N = 30 $ . Postoje dvije vrste konvergencije o kojima ljudi govore:

    1. Prva je ta da je distribucija uzorka testne statistike (tj. $ t $ raspon>) izračunat iz normalno distribuiranih (unutar grupe) sirovih podataka konvergira u normalnu distribuciju kao $ N \ rightarrow \ infty $ unatoč činjenici da se SD procjenjuje iz podaci. ( $ t $ -distribution brine se za vas, kao što je gore spomenuto.)
    2. Druga je da raspodjela uzorka srednje vrijednosti ne-normalno raspoređenih (unutar grupe) sirovih podataka konvergira u normalnu raspodjelu (sporije nego gore) kao $ N \ rightarrow \ infty $ . Ljudi računaju na centralni granični teorem da će se za to pobrinuti za njih. Međutim, ne postoji jamstvo da će se konvergirati unutar bilo koje razumne veličine uzorka - zasigurno nema razloga vjerovati u $ 30 $ (ili $ 300 $ ) čarobni je broj. Ovisno o veličini i prirodi nenormalnosti, može potrajati jako dugo (usp. @ Macroov odgovor ovdje: Regresija kad se ostaci OLS-a obično ne distribuiraju). Ako vjerujete da vaši (unutar grupe) sirovi podaci nisu baš normalni, možda bi bilo bolje koristiti drugu vrstu testa, poput Mann-Whitney $ U $ -test. Imajte na umu da će s neuobičajenim podacima Mann-Whitney $ U $ -test vjerojatno biti snažniji od $ t $ -test, a može biti čak i ako je CLT pokrenuo. (Vrijedno je istaknuti i da će vas ispitivanje normalnosti zalutati, pogledajte: Je li testiranje normalnosti u osnovi beskorisno '?)

    U svakom slučaju, da biste eksplicitnije odgovorili na svoja pitanja, ako smatrate da se vaši (unutar grupe) sirovi podaci obično ne distribuiraju, upotrijebite Mann-Whitney $ U $ -test; ako vjerujete da se podaci normalno distribuiraju, ali a priori ne znate SD, upotrijebite $ t $ -test; i ako smatrate da se vaši podaci normalno distribuiraju i unaprijed znate SD, upotrijebite $ z $ -test.

    Možda će vam ovdje pomoći da pročitate nedavni odgovor @ GregSnow-a: Tumačenje vrijednosti p u usporedbi proporcija između dvije male skupine u R u vezi s tim problemima.

    Hvala, ovo je stvarno bilo korisno, znao sam da pretjerano kompliciram jer se t-test za veće n približava normi. Dakle, strogo govoreći, čak i ako je n bilo 1000, t-test bi se trebao koristiti ako SD a priori nije poznat?
    Molim. Strogo govoreći, * da *, ali imajte na umu da će biti vrlo teško razlikovati razliku između $ t $ -raspodjele i normalne distribucije u tom trenutku.
    Da definitivno. Žao mi je što sam bio tako fin, ali teško mi je bilo pokušati smisliti kako to objasniti drugima na prilično crno-bijeli način. Zahvaljujem na vašoj pomoći!
    Također imajte na umu da je izračunavanje rezultata t-testa za sve namjere i svrhe bez značajnih dodatnih računskih troškova u današnje vrijeme.Više ne tražimo statistiku ispitivanja u nekim papirnatim tablicama koje ne mogu pokriti sve slučajeve, samo tražimo računalo.Pa, zašto se mučiti i brinuti hoćete li možda također dobiti iste rezultate pomoću z-testa?
    AdamO
    2014-02-08 01:43:16 UTC
    view on stackexchange narkive permalink

    Po tom pitanju nema se o čemu raspravljati. Koristite $ t $ -test uvijek za neparametrijski test razlika u sredinama, osim ako je sofisticiraniji alat za ponovno uzorkovanje - npr. permutacija ili bootstrap - poziva se (korisno u vrlo malim uzorcima s velikim odstupanjima od normalnosti).

    Ako su stupnjevi slobode zapravo važni, tada će $ t $ -test pružiti dosljednu procjenu kritičnih vrijednosti i standardnih pogrešaka za raspodjelu testne statistike pod nultom hipotezom. Inače, $ t $ -test približno je isti kao $ z $ -test.

    Uobičajena aproksimacija testova parametara parametarskog modela, poput testa proporcije populacije, nekako je nestala. Kad su podaci dovoljno mali da stvarno postoji razlika između kritičnih vrijednosti generiranih iz $ t $ ili $ z $ raspodjele, doista biste trebali koristiti točan test proporcija na temelju skalirane binomne raspodjele testne statistike. Testovi ponovnog uzorkovanja djeluju i na ovaj način. Donošenje proizvoljnih pretpostavki o pravilu palca o veličini uzorka i prevalenciji slučajeva / kontrola u procjeni Bernoullijevih parametara zbunjujuće je i vrlo sklono pogreškama.

    Koncept $ z $ -testa ("poznata" varijansa ) zbunjuje jer nikad ne znate "varijansu" niti trošite puno na njezinu procjenu. Kad je taj trošak važan, samo $ t $ -test odražava njegov utjecaj na stupnjeve slobode.

    Uvijek koristite t-test za neparametrijski test razlika u srednjim vrijednostima .. mislite parametarski, zar ne?
    @XavierBourretSicotte br. Srednja vrijednost uzorka je asimptotski normalna u uvjetima teorema o središnjoj granici.Kada je model vjerojatnosti za odgovor normalan, t-test ima dodatnu prednost što je točan test.To je rijetko važno u praksi, jer egzaktni testovi rijetko dodaju mnogo dodatne preciznosti granicama pouzdanosti ili zaključivanju.


    Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
    Loading...