Pitanje:
Koje reference treba navesti kao potporu korištenju 30 kao dovoljno velike veličine uzorka?
Lan
2010-09-10 22:07:39 UTC
view on stackexchange narkive permalink

Puno sam puta pročitao / čuo da se veličina uzorka od najmanje 30 jedinica smatra "velikim uzorkom" (pretpostavke o normalnosti sredstava obično približno vrijede zbog CLT-a, ...). Stoga u svojim eksperimentima obično generiram uzorke od 30 jedinica. Možete li mi dati neke reference koje treba navesti kada se koristi uzorak veličine 30?

Bez pozivanja na broj parametara koje pokušavate procijeniti ili na sličan model s kojim radite, čini vam se prilično teškim dati jasan odgovor.
Prihvaćanje n = 30 kao granice malih i velikih uzoraka nije dobro podržano niti jednom statističkom tehnikom.
četiri odgovori:
#1
+43
Carlos Accioly
2010-09-11 00:42:17 UTC
view on stackexchange narkive permalink

Zapravo je "čarobni broj" 30 zabluda. Pogledajte divan članak Jacoba Cohena, Stvari koje sam naučio (do sada) (Am. Psych. Prosinac 1990. 45 # 12, str. 1304-1312). Ovaj je mit njegov prvi primjer kako "neke stvari koje naučiš nisu tako".

[O] mojih kolega doktorskih kandidata poduzeli su disertaciju [s] uzorkom od samo 20 slučajeva po grupi. ... [L] atar kasnije otkrio sam ... da je za usporedbu s dvije neovisne skupine značilo srednje vrijednosti s $ n = 30 $ po grupi na posvećenom dvo- tailed $. 05 $ razina, vjerojatnost da će efekt srednje veličine biti označen kao značajan ... test t bio je samo $. 47 $ . Dakle, približno je bilo okretanje novčića hoće li se dobiti značajan rezultat, iako je u stvarnosti veličina učinka bila značajna. ... [Moj prijatelj] je završio s beznačajnim rezultatima - čime je nastavio rušiti važnu granu psihoanalitičke teorije.

Prekrasna referenca - i mjesto na relevantnom. Hvala vam.
@whuber Sjećate li se koji je to papir bio?Poveznica je do sada prekinuta.Možda ovo http://psych.colorado.edu/~willcutt/pdfs/Cohen_1990.pdf, "Stvari koje sam naučio (do sada)"?Godina se podudara s onom u URL-u neispravne veze.
@Amoeba Spremio sam ovaj članak kad sam ga pročitao, tako da mogu potvrditi ono za što ste utvrdili da je namijenjen.Ažurirao sam ovaj odgovor tako da uz vašu vezu uključuje i navod.
@Carlos Accioly Ažurirao sam ga novom vezom jer je prethodna prekinuta.
#2
+39
user1108
2010-09-10 22:44:59 UTC
view on stackexchange narkive permalink

Izbor n = 30 za granicu između malih i velikih uzoraka samo je pravilo. Postoji velik broj knjiga koje citiraju (oko) ovu vrijednost, na primjer, Hogg i Tanisova Vjerojatnost i statističko zaključivanje (7e) kaže "veća od 25 ili 30".

U tom slučaju, priča koja mi je ispričana bila je da je jedini razlog zbog kojeg se 30 smatrala dobrom granicom taj što je omogućio da lijepe studentske t tablice u stražnjem dijelu udžbenika lijepo stanu na jednu stranicu. Ta i kritične vrijednosti (između Studentova t i Normalnog) ionako su isključene za otprilike do 0,25, od df = 30 do df = beskonačnost. Za ručno računanje razlika zapravo nije bila važna.

U današnje vrijeme lako je izračunati kritične vrijednosti za sve vrste stvari na 15 decimalnih mjesta. Povrh toga imamo metode ponovnog uzorkovanja i permutacije za koje nismo ograničeni ni na parametarske raspodjele populacije.

U praksi se nikad ne oslanjam na n = 30. Ucrtajte podatke . Ako želite, postavite normalnu raspodjelu. Vizualno procijenite je li normalna aproksimacija prikladna (i pitajte je li aproksimacija uopće potrebna). Ako je generiranje uzoraka za istraživanje i aproksimacija obavezno, generirajte dovoljno veličine uzorka kako bi aproksimacija bila što bliža želji (ili što bliže računski izvedivoj).

Evo stranice o tome koliko je točno normalna aproksimacija distribucije t dobra za n = 30. http://www.johndcook.com/normal_approx_to_t.html
#3
+9
bhm
2010-09-10 23:41:43 UTC
view on stackexchange narkive permalink

IMO, sve ovisi o tome za što želite koristiti svoj uzorak. Dva "glupa" primjera koja ilustriraju što mislim: Ako trebate procijeniti prosjek, 30 promatranja više je nego dovoljno. Ako trebate procijeniti linearnu regresiju sa 100 prediktora, 30 promatranja neće biti dovoljno blizu.

#4
+9
user603
2010-09-11 00:05:05 UTC
view on stackexchange narkive permalink

Uglavnom proizvoljno pravilo. Ova izjava ovisi o nizu čimbenika da bi bila istinita. Primjerice o distribuciji podataka. Na primjer, ako podaci dolaze iz Cauchyja, čak 30 ^ 30 promatranja nisu dovoljna za procjenu srednje vrijednosti (u tom slučaju ni beskonačan broj opažanja ne bi bio dovoljan da uzrokuje $ \ bar {\ mu} ^ {(n)} $ konvergirati). Ovaj je broj (30) također lažan ako vrijednosti koje ste nacrtali nisu neovisne jedna o drugoj (opet možete imati pretpostavku da uopće nema konvergencije, bez obzira na veličinu uzorka).

Općenito, CLT trebaju u osnovi dva stupa za držanje:

  1. Da su slučajne varijable neovisne: da možete preurediti svoja zapažanja bez gubitka podataka *.
  2. Da rv potječu iz raspodjele s konačnim sekundama: što znači da klasični procjenitelji srednje i s.d. imaju tendenciju konvergirati se kako se veličina uzorka povećava.

(Oba ova stanja mogu biti donekle oslabljena, ali razlike su uglavnom teorijske prirode)

Vaš primjer ilustrira vrijednost robusnih statistika. * Medijana uzorka * procjenjuje parametar lokacije dobrog raspona Cauchyja. Moglo bi se tvrditi da je najslabija karika u korištenju t-testa s 30 uzoraka t-test, a ne 30 uzoraka.
John:> "Moglo bi se tvrditi da je najslabija karika u korištenju t-testa s 30 uzoraka t-test, a ne 30 uzoraka". Vrlo točno, a također i pretpostavka da su podaci * iid *. Također, medijan je MLE za Cauchyjeve distribuirane slučajne varijable (i samim time učinkovite), ali općenito bi vam trebalo više od 30 promatranja.
Ne oslanjaju se sve verzije CLT-a na identičnu distribuciju, pa čak ni na neovisnost. Često to rade oni osnovni koji se podučavaju studentima, no postoje verzije koje ne čine obje pretpostavke, na pr. [CLT Lyapunov] (http://en.wikipedia.org/wiki/Central_limit_theorem#Lyapunov_CLT) pretpostavlja neovisnost, ali ne i identične raspodjele, a uvjet neovisnosti također se može ublažiti, na primjer [vidi ovdje] (http: // en .wikipedia.org / wiki / Central_limit_theorem # CLT_ under_weak_dependence). Ta stvar s "preuređivanjem" također nije isto što i neovisnost. Neki se oblici ovisnosti ne oslanjaju na poredak.
Veličina uzorka 50 000 nije dovoljna da CLT radi dovoljno dobro da izračuna interval pouzdanosti za sredinu log-normalne raspodjele.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 2.0 licenci pod kojom se distribuira.
Loading...