Pitanje:
Statističko zaključivanje kada je uzorak populacija
pbneau
2010-09-13 23:35:24 UTC
view on stackexchange narkive permalink

Zamislite da morate izvještavati o broju kandidata koji godišnje polažu određeni test. Čini se da je prilično teško zaključiti primijećeni% uspjeha, na primjer, na široj populaciji zbog specifičnosti ciljne populacije. Stoga možete smatrati da ti podaci predstavljaju cijelu populaciju.

Jesu li rezultati ispitivanja koji pokazuju da su udjeli muškaraca i žena različiti zaista točni? Čini li se da je test koji uspoređuje promatrane i teoretske proporcije ispravan, budući da u obzir uzimate cijelu populaciju (a ne uzorak)?

Pet odgovori:
#1
+32
ars
2010-09-14 00:30:10 UTC
view on stackexchange narkive permalink

O tome mogu postojati različita mišljenja, ali ja bih podatke o populaciji tretirao kao uzorak i pretpostavio hipotetičku populaciju, a zatim donosio zaključke na uobičajeni način. Jedan od načina da se o tome razmišlja je da postoji temeljni postupak generiranja podataka odgovoran za prikupljene podatke, distribucija "stanovništva".

U vašem konkretnom slučaju ovo može imati još više smisla jer ćete u budućnosti imati kohorte. Tada su vaša populacija stvarno kohorte koje polažu test i u budućnosti. Na taj biste način mogli uzeti u obzir vremenske varijacije ako imate podatke dulje od godinu dana ili pokušati objasniti latentne čimbenike putem svog modela pogreške. Ukratko, možete razviti bogatije modele s većom snagom objašnjenja.

Upravo sam naišao na ovaj post od A Gelmana, * Kako se statistička analiza razlikuje kada analizira cijelu populaciju, a ne uzorak? *, Http://j.mp/cZ1WSI. Dobro polazište o različitim mišljenjima o konceptu "super-populacije".
@chl: zanimljiv - podsjeća me da je Gelman u svom radu o ANOVI [http://www.stat.columbia.edu/~gelman/research/published] raspravljao o konačnom / super zaključku populacije koji je usporediv s fiksnim / slučajnim efektima /econanova3.pdf].
+1 Upravo sam se vratio na ovo ponovo (putem google). Mislim da je vaš odgovor na mjestu.
#2
+26
Joris Meys
2010-09-14 01:12:57 UTC
view on stackexchange narkive permalink

Zapravo, ako ste stvarno sigurni da imate cijelu populaciju, čak i ne treba ulaziti u statistiku. Tada točno znate kolika je razlika i više nema razloga da je više testirate. Klasična pogreška je korištenje statističke značajnosti kao "relevantne" važnosti. Ako ste uzorkovali populaciju, razlika je kakva je.

S druge strane, ako preformulirate svoju hipotezu, tada se kandidati mogu smatrati uzorkom mogućih kandidata, što bi omogućilo statističko ispitivanje . U ovom biste slučaju općenito testirali razlikuju li se muškarci i žene na ispitivanju.

Kao što je već rečeno, možete koristiti višegodišnje testove i dodati vrijeme kao slučajni faktor. Ali ako vas zaista zanimaju razlike između ovih kandidata na ovom određenom testu, ne možete se služiti generalizacijom i testiranje je besmisleno.

#3
+17
Brett
2010-09-14 23:15:21 UTC
view on stackexchange narkive permalink

Tradicionalno se statističko zaključivanje podučava u kontekstu uzoraka vjerojatnosti i prirode pogreške uzorkovanja. Ovaj model je osnova za test značajnosti. Međutim, postoje i drugi načini za modeliranje sustavnih odstupanja od slučajnosti i ispostavlja se da su naši parametarski testovi (temeljeni na uzorkovanju) obično dobra aproksimacija tih alternativa.

Parametarski testovi hipoteza oslanjaju se na teoriju uzorkovanja kako bi se proizvele procjene vjerojatne pogreške. Ako se uzorak određene veličine uzima iz populacije, poznavanje sustavne prirode uzorkovanja čini ispitivanje i intervale pouzdanosti značajnim. Kod populacije teorija uzorkovanja jednostavno nije relevantna, a testovi nisu značajni u tradicionalnom smislu. Zaključivanje je beskorisno, nema se na što zaključiti, postoji samo stvar ... sam parametar.

Neki to zaobilaze apelirajući na super-populacije koje trenutni popis predstavlja. Smatram da su ove žalbe neuvjerljive - parametarska ispitivanja temelje se na uzorkovanju vjerojatnosti i njegovim karakteristikama. Populacija u određeno vrijeme može biti uzorak veće populacije tijekom vremena i mjesta. Međutim, ne vidim način na koji bi se moglo legitimno tvrditi da je ovo slučajan (ili općenito bilo koji oblik oblika vjerojatnosti) uzorak. Bez uzorka vjerojatnosti, teorija uzorkovanja i tradicionalna logika testiranja jednostavno se ne primjenjuju. Možete podjednako dobro testirati i na temelju praktičnog uzorka.

Jasno je da, da bismo prihvatili testiranje kada koristimo populaciju, u postupcima uzorkovanja moramo se odreći osnove tih testova. Jedan od načina da se to učini jest prepoznati usku vezu između naših teorijskih testova - poput t, Z i F - i postupaka randomizacije. Randomizacijski testovi temelje se na dotičnom uzorku. Ako skupim Podaci o dohotku muškaraca i žena, model vjerojatnosti i osnova za naše procjene pogreške ponavljaju se slučajnim rasporedima stvarnih vrijednosti podataka. Mogao bih usporediti uočene razlike među skupinama s raspodjelom na temelju ove randomizacije. (Inače to radimo cijelo vrijeme u eksperimentima, gdje je slučajno uzorkovanje iz populacijskog modela rijetko prikladno).

Sad se ispostavlja da su teorijski testovi često dobra aproksimacija randomizacije. testovi. U konačnici, mislim da su testovi iz populacije korisni i smisleni u ovom okviru i mogu pomoći u razlikovanju sustavnih i slučajnih varijacija - baš kao i kod testova temeljenih na uzorcima. Logika koja se koristi za dolazak malo je drugačija, ali nema puno utjecaja na praktično značenje i upotrebu testova. Naravno, možda bi bilo bolje samo koristiti testove randomizacije i permutacije pod uvjetom da su lako dostupni sa svim našim modernim računalnim mogućnostima.

+1 za razumnu raspravu; nekoliko bodova ipak. Inferencijalni strojevi nisu dostupni za analizu populacije, ali u mnogim slučajevima modeliranja postavio bih pitanje ima li netko za početak * podatke * o stanovništvu - često nije teško probiti rupe. Dakle, nije * uvijek * apel super populaciji kao sredstvo za raspoređivanje zaključaka. Umjesto "super populacije", bolji način je pretpostaviti postupak stvaranja podataka koji daje, na primjer, test iz godine u godinu koji uzima dotične kohorte. Tu nastaje stohastička komponenta.
Mislim da ovdje nema nikakvih nesuglasica, osim nedostatka mehanizma za analizu stanovništva. Randomizacijski testovi primjenjivi su na populacije i mogu razumno testirati je li postupak stvaranja podataka vjerojatan zbog slučajnog procesa generiranja naspram sustavnog procesa generiranja. Oni ne pretpostavljaju slučajno uzorkovanje i prilično su izravan test slučajnosti nasuprot sustavnim varijacijama. Naši tradicionalni testovi prilično im dobro stoje.
To je istinsko pitanje: "nedostatak inferencijalne mehanizacije". Neoprezno formuliranje s moje strane, pogotovo jer mi se svidjela tačka koju ste naveli o testovima randomizacije u svom odgovoru.
Oprosti. Imam poteškoća s razumijevanjem kako bih izračunao permutacije i kakve ću zaključke za njih moći donijeti.
Nije li bootstrapping valjana alternativa?Kako bootstrapping ne uspijeva riješiti potrebu za bilo kojom od ovih pretpostavki?
#4
+4
dca
2016-06-19 22:43:18 UTC
view on stackexchange narkive permalink

Pretpostavimo da rezultati ukazuju na to da se kandidati razlikuju po spolu. Na primjer, udio onih koji su završili testove je sljedeći: 40% žena i 60% muškaraca. Sugerirajući očito, 40% se razlikuje od 60%. Sada je važno odlučiti: 1) vašu populaciju koja vas zanima; 2) kako se vaša zapažanja odnose na populaciju koja vas zanima. Evo nekoliko detalja o ova dva pitanja:

  1. Ako ste populacija koja vas zanima samo kandidati koje ste promatrali (npr. 100 kandidata koji su se prijavili na sveučilište 2016. godine), ne trebaju izvještavati o testovima statističke značajnosti. To je zato što je vaša populacija koja je zainteresirana u potpunosti uzorkovana ... sve što vas zanima je 100 kandidata o kojima imate potpune podatke. Odnosno, 60% je, točka, različito od 40%. Vrsta pitanja na koja je ovaj odgovor je, jesu li postojale rodne razlike u populaciji od 100 osoba koje su se prijavile za program? Ovo je opisno pitanje i odgovor je da.

  2. Međutim, mnoga su važna pitanja o tome što će se dogoditi u različitim postavkama. Odnosno, mnogi istraživači žele iznijeti trendove o prošlosti koji nam pomažu u predviđanju (i zatim planiranju) budućnosti. Primjer pitanja u vezi s tim bilo bi: Koliko su vjerojatni budući testovi kandidata koji će se vjerojatno razlikovati po spolu? Populacija koja je od interesa tada je šira nego u scenariju # 1 gore. U ovom trenutku važno je pitanje koje treba postaviti: Jesu li vaši promatrani podaci vjerojatno reprezentativni za buduće trendove? Ovo je izmišljeno pitanje, a na temelju informacija koje pruža izvorni poster, odgovor je: ne znamo.

Ukratko, koje statistike prijavljujete ovise o tome o vrsti pitanja na koje želite odgovoriti.

Razmišljanje o osnovnom dizajnu istraživanja može biti od najveće pomoći (pokušajte ovdje: http://www.socialresearchmethods.net/kb/design.php). Razmišljanje o superpopulacijama može vam biti od pomoći ako želite naprednije informacije (evo članka koji vam može pomoći: http://projecteuclid.org/euclid.ss/1023798999#ui-tabs-1).

#5
+2
James
2010-09-14 19:58:43 UTC
view on stackexchange narkive permalink

Ako smatrate da je ono što mjerite slučajni postupak, onda su statistički testovi relevantni. Uzmimo za primjer, bacajući novčić 10 puta da biste vidjeli je li to pošteno. Dobivate 6 glava i 4 repa - što zaključujete?

Ne razumijem zapravo kako je zaključak do kojeg ste došli oko pitanja bacanja novčića povezan s postavljenim pitanjem. Možda biste mogli malo proširiti tu točku? Statistički testovi izgledaju relevantni u mjeri u kojoj pomažu zaključiti opažene rezultate većoj populaciji, bilo da se radi o referentnoj ili općoj populaciji. Čini se da se ovdje postavlja pitanje: s obzirom na to da je uzorak blizu populacije ispitanika određeno vrijeme (ovdje godinu dana), je li klasično zaključivanje pravi način za donošenje odluke o mogućim razlikama na pojedinačnoj razini?
@chl Da, ali čini se da OP pokušava zaključiti temeljnu vjerojatnost uspjeha. Testovi uspoređuju uočene proporcije s teorijskom raspodjelom kako bi se utvrdilo postoji li razlika za određenu razinu pouzdanosti. Testirate bilo koji oblik slučajnosti, a ne samo slučajnost pogreške uzorkovanja.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 2.0 licenci pod kojom se distribuira.
Loading...