Pitanje:
Jesu li veliki skupovi podataka neprikladni za ispitivanje hipoteza?
Carlos Accioly
2010-09-09 23:21:30 UTC
view on stackexchange narkive permalink

U nedavnom članku časopisa Amstat News autori (Mark van der Laan i Sherri Rose) izjavili su da "Znamo da za dovoljno velike veličine uzoraka svaka studija —Uključujući one u kojima je nulta hipoteza o nikakvom učinku istinita - proglasit će statistički značajan učinak. ".

Pa, ja to nisam znao. Je li to istina? Znači li to da je ispitivanje hipoteza bezvrijedno za velike skupove podataka?

+1: ovo pitanje obično otkriva zanimljiva gledišta.
Više rasprava o velikim skupovima podataka pojavljuje se na http://stats.stackexchange.com/q/7815/919. (Tamo je fokus na modelu regresije.)
[srodna nit] (http://stats.stackexchange.com/questions/162143/is-this-really-how-p-values-work-can-a-million-research-papers-per-year-be-base)?
Ako vas velik uzorak natjera da mislite da je testiranje hipoteza bio pogrešan alat, tada testiranje hipoteza zapravo nije odgovorilo na pravo pitanje ni na manjim uzorcima - da je pogrešno upravo postalo * očiglednije * kod velikih uzoraka, ali ista razmatranjasu relevantni.Ako vas značajan rezultat s vrlo malom veličinom učinka kaže "pa to nije ono što sam želio, želio sam da mi kaže je li to važno", tada je testiranje hipoteza bilo samo pogrešan alat za početak.Postoje prikladniji alati (npr. Intervali pouzdanosti, testovi ekvivalencije itd.) Za takvu vrstu problema.
šesnaest odgovori:
#1
+102
John
2010-09-09 23:59:37 UTC
view on stackexchange narkive permalink

Nije istina. Ako je nulta hipoteza istinita, tada se neće odbijati češće kod većih uzoraka nego kod malih. Postoji pogrešna stopa odbijanja koja je obično postavljena na 0,05 (alfa), ali neovisno o veličini uzorka. Stoga je doslovno shvaćena izjava lažna. Ipak, moguće je da su u nekim situacijama (čak i cijela polja) sve nule netačne i stoga će sve biti odbačene ako je N dovoljno visoko. No je li ovo loše?

Istina je da se može utvrditi da su trivijalno mali učinci "značajni" s vrlo velikim uzorcima. To ne sugerira da ne biste trebali imati tako velike veličine uzoraka. To znači da način na koji tumačite svoj nalaz ovisi o veličini učinka i osjetljivosti testa. Ako imate vrlo malu veličinu učinka i vrlo osjetljiv test, morate prepoznati da statistički značajan nalaz možda neće biti značajan ili koristan.

S obzirom na to da neki ljudi ne vjeruju da je test nulte hipoteze, kada je nula true , uvijek ima stopu pogreške jednaku graničnoj točki odabranoj za bilo koju veličinu uzorka, evo jednostavne simulacije u R koja dokazuje točku. Neka N bude onoliko velik koliko želite, a stopa pogrešaka tipa I ostat će konstantna.

  # broj ispitanika u svakom stanjun <- 100 # broj replikacija studije kako bi se provjerilo Tip greške ratensamp <- 10000ps <- replika (nsamp, {#population mean = 0, sd = 1 za oba uzorka, dakle, nema stvarnog učinka y1 <- rnorm (n, 0, 1) y2 <- rnorm (n, 0, 1) tt <- t.test (y1, y2, var.equal = TRUE) tt $ p.value}) zbroj (ps < .05) / nsamp # ~ .05 bez obzira koliko je velik n. Posebno imajte na umu da nije sve veća vrijednost uvijek pronalaženje efekata kada je n vrlo veliko.  
+1: doista, sva su ovdje tri odgovora logično međusobno sukladna.
Napokon sam pronašao razotkrivanje nečega što mi je (ne-statistički) profesor davno rekao.
Izjava u članku je točna, Johnov odgovor, koji se molim za razliku, razlikuje se.Vrijednosti P očito ovise o veličini uzorka.Što je veća veličina uzorka, to je manja standardna pogreška, veća je vrijednost t, manja je vrijednost P.To je obična aritmetika testiranja hipoteza.John to točno prepoznaje (i proturječi sebi) na početku svog drugog odlomka.Zatim prelazi na Veličina efekta koja je neovisna o veličini uzorka.I potonje zbunjuje sa standardnim ispitivanjem hipoteza usredotočenim na statističku značajnost.
@Sympa, br.Samo zato što SE opada dok N raste, ne znači da ćete uvijek pronaći efekt s velikim N (vidi simulaciju).Imajte na umu da kako SE opada, kvaliteta procjene učinka raste.Ako nema učinka na populaciju, puno je vjerojatnije da će biti blizu 0 i ne pokazivati nikakve razlike.Zapravo, raspodjela p-vrijednosti ravna je bez obzira na veličinu uzorka kad god je nula istinita (za to napišite vlastitu simulaciju).U odgovoru nema kontradikcije.
@John, koji donosi simulaciju s velikim brojem ispitivanja s vježbom testiranja hipoteze može zamagliti rezultate.Vaš se simulacijski okvir razlikuje od empirijskih vježbi ispitivanja hipoteza (klinička ispitivanja itd.).Citirajući članak "Znamo da će za dovoljno velike uzorke svaka studija - uključujući i one u kojima je nulta hipoteza o nikakvom učinku točna - proglasiti statistički značajan učinak."I, držim se autora, jer se njihovi nalazi mogu lako pokazati relevantnom statističkom metodom (kao što sam gore naveo).
Tada biste pogriješili.Možda biste ovdje htjeli pročitati i ostale odgovore.Budući da ne možete pratiti odnos između simulacije i testiranja hipoteza, pretpostavljam da mogu samo ukazati na vašu primarnu tvrdnju da kako standardna pogreška opada, t raste, a p opada.To je istina samo ako učinak ostane konstantan.Ali učinak je slučajan uzorak i kada je stvarni učinak 0 tada, kako se N povećava, opaženi učinak nastoji smanjiti.Stoga, iako, kako se N povećava, SE opada, to neće povećati t-vrijednosti jer će brojnik u t-vrijednosti također biti niži.
@John Sve što ste rekli čini mi se toliko očitim da još uvijek ne stižem odakle potječe mantra "sve postaje značajno".Vjerojatno mi nešto nedostaje ... bilo bi lijepo pročitati više komentara korisnika koji se s tim ne slažu
@Dambo Nisam siguran ni odakle dolazi u svakom slučaju, a puni odgovor bio bi predug za komentar.No, kratki odgovor može biti da će u poljima u kojima većina manipulacija generira neki učinak, ma koliko beznačajan, tada vrlo veliki Ns učiniti svaki efekt značajnim vrlo velikom brzinom.Ali to je samo zato što stvarni učinak nikada nije bio točno 0, već je bio mali i obično nije bio značajan kod malih Ns.(Nadam se da ovo ističe ozbiljan problem s testiranjem značajnosti za vas, kako za neznačajne tako i za značajne nalaze.)
Nije li sve ovo stvar pogreške tipa I u odnosu na pogrešku tipa II (ili snage)?Ispravno ste izjavili da ako netko popravi vjerojatnost pogreške tipa I ($ \ alpha $) na 0,05, tada će očito biti 0,05 bez obzira je li uzorak velik ili ne.No, za danu vjerojatnost pogreške tipa I, 0,05, npr. Snaga ili vjerojatnost da ćete otkriti učinak kada je prisutan, veća je za velike veličine uzorka.
Ovaj je odgovor stvarno dobar, ali tehnički gledano, brojevi koje vraća "rnorm (n, 0, 1)" ne mogu imati normalnu raspodjelu!To je zato što je normalna distribucija kontinuirana distribucija čija je šansa za dobivanje racionalnog broja 0. Međutim, budući da je nemoguće pohraniti proizvoljan iracionalan broj u vaše računalo, `rnorm` vraća samo racionalne brojeve.To implicira činjenicu da će, s obzirom na (ludo) velik `n`, svi testovi na kraju biti odbijeni.Ono što pokušavam dodati vašem odgovoru jest, primjeri iz stvarnog svijeta razlikuju se od teorijskih.
Činjenica da rnorm ne može proizvesti iracionalan broj nebitna je u primjeru.Čak i ako ne izvuče točno normalno iz srednje vrijednosti 0 i sd od 1, to nije normalno za oba uzorka.Stopa pogrešaka tipa I možda bi uvijek bila malo manja od 0,05, ali trebala bi ostati konstantna bez obzira na N. I to nije istina za sve simulacije jer sam mogao odabrati diskretnu gdje to nije problem.(Ako ste doista željeli pokrenuti ezoterično pitanje, trebali ste se pozabaviti pseudo slučajnošću.)
#2
+33
whuber
2010-09-10 00:42:27 UTC
view on stackexchange narkive permalink

Slažem se s odgovorima koji su se pojavili, ali želim dodati da bi možda pitanje moglo biti preusmjereno. Hoće li se hipoteza testirati ili ne, istraživačko je pitanje koje bi, barem općenito, trebalo biti neovisno o tome koliko podataka netko ima. Ako stvarno trebate testirati hipotezu, učinite to i nemojte se bojati svoje sposobnosti otkrivanja malih učinaka. Ali prvo pitajte je li to dio vaših istraživačkih ciljeva.

A sada za neke nedoumice:

  • Neke su nulta hipoteze apsolutno istinite po konstrukciji. Na primjer, kada testirate generator pseudoslučajnih brojeva za ekvidistribuciju i da je PRG uistinu ekvidistribuiran (što bi bio matematički teorem), tada vrijedi nula. Vjerojatno se većina vas može sjetiti zanimljivijih primjera iz stvarnog svijeta koji proizlaze iz randomizacije u eksperimentima u kojima tretman zaista nema učinka. (Kao primjer bih naveo cjelokupnu literaturu o esp. ;-)

  • U situaciji kada se "jednostavna" nula testira u odnosu na "složenu" alternativu, kao u klasičnim t-testovima ili z-testovima obično je potrebna veličina uzorka proporcionalna $ 1 / \ epsilon ^ 2 $ da bi se otkrila veličina učinka od $ \ epsilon $. U bilo kojoj studiji postoji praktična gornja granica za to, što implicira da postoji praktična donja granica na veličini efekta koji se može uočiti. Dakle, kao što su teoretska pitanja der Laan i Rose točna, ali trebali bismo pripaziti primjenjujući njihov zaključak.

Nije li sve ovo stvar pogreške tipa I u odnosu na pogrešku tipa II (ili snage)?Ako netko popravi vjerojatnost pogreške tipa I ($ \ alpha $) na 0,05, tada će očito (osim u diskretnom slučaju) biti 0,05 bez obzira je li uzorak velik ili ne.No, za danu vjerojatnost pogreške tipa I, 0,05, npr. Snaga ili vjerojatnost da ćete otkriti učinak kada je prisutan, veća je za velike veličine uzorka.
@fcop Čini se da su vaši komentari, iako su točni, usmjereni na druge odgovore.Promašuju poantu ove, koja sugerira da sve statističke analize ne trebaju biti testovi hipoteza.Pogreške tipa I i II imaju značenje samo prilikom provođenja formalnih testova hipoteza.
OP se poziva na izjavu: '' Znamo da će za dovoljno velike uzorke svaka studija - uključujući i one u kojima je nulta hipoteza o nikakvom učinku točna - proglasiti statistički značajan učinak. '' Dakle, ako testirate npr.$ H_0: \ mu = 1 $ naspram $ H_1: \ mu \ ne 1 $ tada je u velikim uzorcima snaga toliko velika da 'detektirate' i mala odstupanja od 1. Dakle, mislim da njihova izjava nije točna, ali ta snagau velikim uzorcima omogućuje otkrivanje vrlo malih razlika.
@fcop Hvala na objašnjenju.Slažem se s vašim obrazloženjem: kada je nula istinita, tada će čak i velike studije konstrukcijom pronaći značajan učinak s najvećom šansom jednakom veličini njihova testa - to jest, malo je vjerojatno da će pronaći značajan učinak.
#3
+23
Sympa
2010-09-17 09:11:53 UTC
view on stackexchange narkive permalink

Ispitivanje hipoteza tradicionalno usredotočeno na p vrijednosti radi dobivanja statističke značajnosti kada je alfa manji od 0,05 ima veliku slabost. A to je da s dovoljno velikom veličinom uzorka bilo koji eksperiment na kraju može odbiti nultu hipotezu i otkriti trivijalno male razlike koje se ispostave statistički značajnima.

To je razlog zbog kojeg tvrtke za lijekove strukturiraju klinička ispitivanja kako bi dobiti odobrenje FDA s vrlo velikim uzorcima. Veliki uzorak smanjit će standardnu ​​pogrešku na blizu nule. To će pak umjetno povećati t stat i srazmjerno smanjiti vrijednost p na blizu 0%.

Okupljam se unutar znanstvenih zajednica koje nisu korumpirane ekonomskim poticajima i povezano testiranje hipoteza o sukobu interesa odmiče se od bilo kakvih mjerenja vrijednosti p prema mjerenjima veličine učinka. To je zato što je jedinica statističke udaljenosti ili diferencijacije u analizi veličine efekta standardna devijacija umjesto standardne pogreške. Standardno odstupanje potpuno je neovisno o veličini uzorka. Standardna pogreška s druge strane u potpunosti ovisi o veličini uzorka.

Dakle, svatko tko je sumnjičav prema ispitivanju hipoteza koji je postigao statistički značajne rezultate na temelju velikih uzoraka i metodologija povezanih s p vrijednošću, u pravu je biti skeptičan. Oni bi trebali ponoviti analizu koristeći iste podatke, ali umjesto toga koristeći statističke testove Effect Size. A zatim promatrajte smatra li se veličina efekta materijalom ili ne. Čineći to, mogli biste primijetiti da je hrpa statistički značajnih razlika povezana s veličinom efekta koja je nematerijalna. Na to ponekad misle i istraživači kliničkih ispitivanja kada je rezultat statistički značajan, ali ne i "klinički značajan". Pod tim podrazumijevaju da jedan tretman može biti bolji od placeba, ali razlika je toliko neznatna da ne bi imala razlike za pacijenta u kliničkom kontekstu.

Veliki uzorak jedne osobe je mali uzorak druge osobe. :)
Niste li tada postavili pogrešno pitanje? Možda bi postupak odobrenja FDA trebao odrediti veći dobitak u odnosu na placebo (možda povezan s troškovima lijeka, uključujući njegove štetne učinke), umjesto da samo zahtijeva statističku značajnost? Budući da itekako može postojati stvarna razlika, iako vrlo mala, i pokazala se da je ta razlika statistički značajna koliko god mala bila.
FDA ne zahtijeva "samo statističku značajnost".To bi bilo apsurdno.Svi u industriji razumiju što znači "klinički značajno".FDA važi statističke dokaze o * učinkovitosti * lijeka mjerenim kliničkim krajnjim točkama, poput remisije, nasuprot zdravstvenim i sigurnosnim problemima.Molimo pročitajte smjernice FDA-e prije nego što iznesete neutemeljene tvrdnje.
#4
+16
Brett
2010-09-10 08:51:13 UTC
view on stackexchange narkive permalink

(Frekvencijski) test hipoteze upravo se bavi pitanjem vjerojatnosti promatranih podataka ili bi nešto ekstremnije bilo vjerojatno pod pretpostavkom da je nulta hipoteza istinita. Ovo je tumačenje ravnodušno prema veličini uzorka. To tumačenje vrijedi bez obzira je li uzorak veličine 5 ili 1.000.000.

Važno je upozorenje da je test relevantan samo za pogreške uzorkovanja. Sve pogreške u mjerenju, problemi s uzorkovanjem, pokrivenost, pogreške u unosu podataka itd. Izvan su područja pogreške uzorkovanja. Kako se veličina uzorka povećava, pogreške u uzorkovanju postaju sve utjecajnije jer mali odlasci mogu proizvesti značajna odstupanja od slučajnog uzorkovanja. Kao rezultat, testovi značajnosti postaju manje korisni.

To ni na koji način nije optužnica za ispitivanje značajnosti. Međutim, moramo biti oprezni oko svojih atributa. Rezultat može biti statistički značajan. Međutim, moramo biti oprezni s načinom na koji vršimo atribucije kada je veličina uzorka velika. Je li ta razlika nastala zbog našeg pretpostavljenog postupka generiranja u odnosu na pogrešku uzorkovanja ili je rezultat bilo koje od niza mogućih pogrešaka koje nisu uzorkovanja koje bi mogle utjecati na statistiku ispitivanja (što statistika ne uzima u obzir)?

Sljedeće razmatranje kod velikih uzoraka je praktična važnost rezultata. Značajan test mogao bi sugerirati (čak i ako možemo isključiti pogrešku u uzorkovanju) razliku koja je u praktičnom smislu trivijalna. Čak i ako je taj rezultat malo vjerojatan s obzirom na model uzorkovanja, je li značajan u kontekstu problema? S obzirom na dovoljno velik uzorak, razlika u nekoliko dolara mogla bi biti dovoljna da se dobije rezultat koji je statistički značajan u usporedbi dohotka između dvije skupine. Je li to važno u bilo kojem suvislom smislu? Statistički značaj nije zamjena za dobro prosuđivanje i poznavanje predmeta.

Osim toga, nula nije niti istinita niti lažna. To je model. To je pretpostavka. Pretpostavljamo da je nula istinita i procjenjujemo naš uzorak u smislu te pretpostavke. Ako bi naš uzorak bio malo vjerojatan s obzirom na ovu pretpostavku, više vjerujemo našoj alternativi. Pitanje je li nula ikad istinita u praksi nerazumijevanje logike ispitivanja značajnosti.

To podupire argument za povećanu složenost modela kako veličine uzoraka postaju velike - u velikom slučaju uzorak pogreška uzorkovanja više nije dominantan izvor nesigurnosti. Naravno, ovo samo "ima smisla" u Bayesovom okviru, koji osim pogreške uzorkovanja omogućuje i druge izvore nesigurnosti.
#5
+13
Keith Winstein
2010-09-17 20:26:45 UTC
view on stackexchange narkive permalink

Jedna jednostavna poanta koja se izravno ne navodi u drugom odgovoru jest da jednostavno nije istina da su "sve ništavne hipoteze lažne."

Jednostavna hipoteza da fizički novčić ima vjerojatnost glava točno jednaku 0,5, ok , to je lažno.

Ali složena hipoteza da fizički novčić ima vjerojatnost glava veću od 0,499 i manju od 0,501 može biti istinita. Ako je tako, niti jedan test hipoteze - bez obzira na to koliko se okretanja novčića u njega uvrstilo - neće moći odbiti ovu hipotezu s vjerojatnošću većom od $ \ alpha $ (testovi su vezani za lažne pozitivne rezultate).

Medicinska industrija cijelo vrijeme testira hipoteze o "neinferiornosti", iz tog razloga - npr novi lijek protiv raka mora pokazati da vjerojatnost preživljavanja bez napredovanja bolesti kod pacijenata nije manja od 3 postotna boda niža od postojeće droge, na određenoj razini pouzdanosti ($ \ alpha $, obično 0,05).

#6
+9
user603
2010-09-09 23:55:04 UTC
view on stackexchange narkive permalink

U određenom su smislu [sve] mnoge nulte hipoteze [uvijek] lažne (skupina ljudi koja živi u kućama s neparnim brojevima nikada točno ne zarađuje isto u prosjeku kao skupina ljudi koja živi u kućama s parnim brojem).

U frekvencijskom okviru postavlja se pitanje je li razlika u prihodu između dviju skupina veća od $ T _ {\ alpha} n ^ {- 0,5} $ (gdje $ T _ {\ alpha } $ je $ \ alpha $ kvantil raspodjele testne statistike pod nulom). Očito je da za $ n $ koji raste bez granica ovaj opseg postaje sve lakše probiti.

To nije nedostatak statističkih testova. Jednostavno posljedica činjenice da bez dodatnih informacija (prethodnih) imamo da se veliki broj malih nedosljednosti s nulom mora uzeti kao dokaz protiv ništetnosti. Bez obzira koliko se te nedosljednosti pokazale trivijalnima.

U velikim studijama postaje zanimljivo preoblikovati problem u Bayesov test, tj. Zapitati se (na primjer) što je $ \ hat {P} (| \ bar {\ mu} _1- \ bar {\ mu} _2 | ^ 2> \ eta | \ eta, X) $.

To je čudno ... čini se da je to intuitivno u suprotnosti sa Zakonom velikih brojeva.
Carlos:> možeš li biti konkretniji?
LLN u osnovi navodi da što je veći vaš uzorak, to bolje predstavlja "stvarnu" raspodjelu vjerojatnosti. U vašem primjeru, što više kućnih brojeva pregledam, to će biti bliže 50% broja neparnih kuća. Stoga zvuči čudno da vam postaje lakše probiti se kroz bend jer se on smanjuje proporcionalno kvadratnom korijenu od $ n $. (Imam li smisla ovdje?)
@Carlos - ali konvergencija ne znači jednakost; to je zajamčeno samo za nedostižnu granicu beskonačnosti. Dakle, nema kontradikcije ;-)
Primjer parnih / neparnih kućnih brojeva mogao bi biti vrlo stvaran.Često sve kuće na istoj strani ulice dijele paritet.Jedna strana bi mogla biti blizu plaže ...
#7
+5
gappy
2010-09-17 10:49:35 UTC
view on stackexchange narkive permalink

Kratki odgovor je "ne". Istraživanje ispitivanja hipoteza u asimptotskom režimu beskonačnih promatranja i višestrukih hipoteza bilo je vrlo, vrlo aktivno u posljednjih 15-20 godina, zbog primjene podataka o mikrorezkama i financijskih podataka. Dug odgovor nalazi se na stranici tečaja Stat 329, "Simultano zaključivanje velikih razmjera", koju je 2010. predavao Brad Efron. cijelo poglavlje posvećeno je opsežnom ispitivanju hipoteza.

Vjerujem da se Efronova knjiga usredotočuje na velik broj varijabli (i nastalih višestrukih problema s testiranjem), a ne na veličinu uzorka.
#8
+5
Zen
2016-05-27 01:00:53 UTC
view on stackexchange narkive permalink

"Znači li to da je testiranje hipoteza bezvrijedno za velike skupove podataka?"

Ne, ne znači to. Općenita je poruka da odluke donesene nakon provođenja testa hipoteze trebaju uvijek uzeti u obzir procijenjenu veličinu učinka, a ne samo p-vrijednost. Posebno, u eksperimentima s vrlo velikim uzorcima, ta potreba da se uzme u obzir veličina učinka postaje dramatična. Naravno, općenito se korisnicima to ne sviđa jer postupak postaje manje "automatski".

Razmotrite ovaj primjer simulacije. Pretpostavimo da imate slučajni uzorak od 1 milijun opažanja iz standardne normalne distribucije,

  n <- 10 ^ 6x <- rnorm (n)  

i još jedan slučajni uzorak od 1 milijun opažanja iz normalne raspodjele sa srednjom vrijednošću 0,01 USD i varijancom jednakom jedinici.

  y <- rnorm (n, srednja vrijednost = 0,01)  

Uspoređujući sredstva dviju populacija s t-testom na kanonskoj razini pouzdanosti od $ 95 \% $, dobit ćemo malu p-vrijednost od približno $ 2,5 \ puta 10 ^ {- 14} $.

  t.test (x, y) Welch Two Sample t-testdata: x i yt = -7,6218, df = 1999984, p-value = 2.503e-14alternativna hipoteza: istinska razlika u sredinama nije jednaka do intervala pouzdanosti od 095 posto: -0,013554059 -0,008009031procjene uzoraka: sredina x srednja vrijednost y 0,0008947038 0,0116762485  

Ispravno je reći da je t-test "otkrio" da su sredstva dva populacije su različite. Ali pogledajte vrlo kratki interval pouzdanosti od 95 $ \% $ za razliku između dviju populacija znači: $ [- 0,013, -0,008] $.

Je li razlika između dva populacijska sredstva ovog redoslijed veličine relevantan za određeni problem koji proučavamo ili ne?

Slažem se sa svime u vašem odgovoru, osim s onom prvom rečenicom, koju bih promijenio u "Da, to obično znači", jer su kod velikih uzoraka od milijun i nešto veličina efekata TAKO male.
Nije li sve ovo stvar pogreške tipa I u odnosu na pogrešku tipa II (ili snage)?Ako netko popravi vjerojatnost pogreške tipa I ($ \ alpha $) na 0,05, tada će očito (osim u diskretnom slučaju) biti 0,05 bez obzira je li uzorak velik ili ne.No, za danu vjerojatnost pogreške tipa I, 0,05, npr. Snaga ili vjerojatnost da ćete otkriti učinak kada je prisutan, veća je za velike veličine uzorka.
#9
+4
Joris Meys
2010-09-10 15:03:14 UTC
view on stackexchange narkive permalink

Testiranje hipoteza za velike podatke treba uzeti u obzir željenu razinu razlike, a ne postoji li razlika ili ne. Ne zanima vas H0 da je procjena točno 0. Općeniti pristup bio bi testiranje je li razlika između nulte hipoteze i promatrane vrijednosti veća od zadane granične vrijednosti.

Jednostavan primjer s T-testom: Možete napraviti sljedeće pretpostavke za velike veličine uzorka, s obzirom na to da imate jednake veličine uzorka i standardna odstupanja u obje skupine te $ \ bar {X_1}> \ bar { X_2} $: $$ T = \ frac {\ bar {X1} - \ bar {X2} - \ delta} {\ sqrt {\ frac {S ^ 2} {n}}} + \ frac {\ delta} { \ sqrt {\ frac {S ^ 2} {n}}} \ približno N (\ frac {\ delta} {\ sqrt {\ frac {S ^ 2} {n}}}, 1) $$ dakle $$ T = \ frac {\ bar {X1} - \ bar {X2}} {\ sqrt {\ frac {S ^ 2} {n}}} \ približno N (\ frac {\ delta} {\ sqrt {\ frac {S ^ 2} {n}}}, 1) $$

kao što vaša nulta hipoteza $ H_0: \ bar {X1} - \ bar {X2} = \ delta $ implicira:

$$ \ frac {\ bar {X1} - \ bar {X2} - \ delta} {\ sqrt {\ frac {S ^ 2} {n}}} \ približno N (0,1) $$

Ovim se lako možete testirati na značajnu i relevantnu razliku. U R možete upotrijebiti parametar necentralnosti T raspodjele da biste generalizirali ovaj rezultat i za manje veličine uzoraka. Trebali biste uzeti u obzir da je ovo jednostrani test, alternativni $ H_A $ je $ \ bar {X1} - \ bar {X2}> \ delta $.

  mod.test <- funkcija (x1, x2, dif, ...) {prosj. X1 <- srednja vrijednost (x1) prosj. X2 <- srednja vrijednost (x2) sd.x1 <- sd (x1) sd.x2 <- sd (x2 ) sd.comb <- sqrt ((sd.x1 ^ 2 + sd.x2 ^ 2) / 2) n <- dužina (x1) t.val <- (abs (avg.x1-avg.x2)) * sqrt (n) /sd.comb ncp <- (dif * sqrt (n) /sd.comb) p.val <- pt (t.val, n-1, ncp = ncp, lower.tail = FALSE) povratak (p .val)} n <- 5000test1 <- replika (100, t.test (rnorm (n), rnorm (n, 0,05)) $ p.value) tablica (test1<0.05) test2 <- replika (100, t. test (rnorm (n), rnorm (n, 0.5)) $ p.value) tablica (test2<0.05) test3 <- replika (100,
mod.test (rnorm (n), rnorm (n, 0,05), dif = 0,3)) tablica (test3<0,05) test4 <- replikacija (100, mod.test (rnorm (n), rnorm (n, 0,5), dif = 0,3)) tablica (test4<0,05)  

Što daje:

  tablica > (test1<0,05) LAŽNO TAČNO 24 76 Tablica > (test2<0 .05) TRUE 100 tablica > (test3<0.05) FALSE 100 tablica > (test4<0.05) TRUE 100  
zar u prvoj jednadžbi nema pogreške pri kopiranju / zalijepljenju?
Ja to ne vidim?
#10
+3
probabilityislogic
2011-06-15 19:16:06 UTC
view on stackexchange narkive permalink

Mislim da je to problem većine testova značajnosti koji imaju neku opću nedefiniranu klasu implicitnih alternativa nuli, a koju nikad ne znamo. Te klase često mogu sadržavati neku vrstu hipoteze "sigurne stvari", u koju se podaci savršeno uklapaju (tj. Hipoteza oblika $ H_ {ST}: d_ {1} = 1,23, d_ {2} = 1,11, \ dots $ gdje je $ d_ {i} $ i-ta točka podataka). Vrijednost vjerojatnosti dnevnika takav je primjer testa značajnosti koji ima ovo svojstvo.

Ali obično te hipoteze o sigurnim stvarima ne zanimaju. Ako razmislite što zapravo želite raditi s testom hipoteze, uskoro ćete prepoznati da biste trebali odbiti nultu hipotezu samo ako imate nešto bolje da je zamijenite. Čak i ako vaša nula ne objašnjava podatke, nema koristi od njihovog izbacivanja, osim ako nemate zamjenu. Sad biste li uvijek zamjenili nulu hipotezom "sigurne stvari"? Vjerojatno ne, jer ne možete koristiti ovu hipotezu "sigurne stvari" da biste generalizirali izvan vašeg skupa podataka. To nije puno više od ispisa vaših podataka.

Dakle, ono što biste trebali učiniti je navesti hipotezu na kojoj biste zapravo bili zainteresirani da djeluju ako su istiniti. Zatim napravite odgovarajući test za međusobnu usporedbu tih alternativa - a ne s nekom irelevantnom klasom hipoteza za koju znate da je lažna ili neupotrebljiva.

Uzmimo jednostavan slučaj ispitivanja normalne srednje vrijednosti. Sada je istinska razlika možda mala, ali zauzimajući stav sličan onome u @ keith-ovom odgovoru, mi jednostavno testiramo srednju vrijednost na različitim diskretnim vrijednostima koje nas zanimaju. Tako bismo, na primjer, mogli imati $ H_ {0}: \ mu = 0 $ vs $ H_ {1}: \ mu \ u \ {\ pm 1, \ pm 2, \ pm 3, \ pm 4, \ pm 5 , \ pm 6 \} $. Problem se zatim prenosi na traženje na kojoj razini želimo raditi ove testove. To je povezano s idejom veličine učinka: na kojoj bi razini zrnatosti utjecala na vaše donošenje odluka? To može zahtijevati korake veličine 0,5 $ ili 100 $ ili nešto drugo, ovisno o značenju testa i parametara. Na primjer, ako uspoređujete prosječno bogatstvo dviju skupina, bi li nekoga bilo briga postoji li razlika od dva dolara, čak i ako je riječ o 10.000 standardnih pogrešaka daleko od nule? Znam da ne bih.

Zaključak je u osnovi da trebate navesti svoj prostor hipoteze - one hipoteze koje vas zapravo zanimaju. Čini se da s velikim podacima ovo postaje vrlo važna stvar za jednostavno zato što vaši podaci imaju toliko moć razrješavanja. Također se čini da je važno usporediti sličnu hipotezu - točka s točkom, spoj sa spojem - kako bismo dobili dobre rezultate.

#11
+3
Horst Grünbusch
2013-08-01 16:58:41 UTC
view on stackexchange narkive permalink

Ne. Istina je da su svi testovi korisnih točkastih hipoteza dosljedni i stoga će pokazati značajan rezultat ako je samo veličina uzorka dovoljno velika i postoji neki nebitan učinak. Da bi se prevladao ovaj nedostatak testiranja statističkih hipoteza (koji je već spomenut u odgovoru Gaetan Lion-a gore), postoje testovi relevantnosti. To su slični testovima ekvivalencije, ali još rjeđi. Za test relevantnosti određuje se veličina minimalnog relevantnog učinka. Test relevantnosti može se temeljiti na intervalu pouzdanosti za učinak: ako su interval pouzdanosti i područje relevantnosti nepodudarni, možete odbiti nulu.

Međutim, van der Laan i Rose pretpostavljaju u svojoj izjavi da su čak i istinske nulti hipoteze testirane u studijama. Ako je nulta hipoteza istinita, mogućnost odbacivanja nije veća od alfa, posebno u slučaju velikih uzoraka, pa čak i pogrešno specificirana, mogu samo vidjeti da se raspodjela uzoraka sustavno razlikuje od raspodjele populacije,

#12
+3
Lucas Fortini
2016-10-04 05:11:19 UTC
view on stackexchange narkive permalink

Članak koji spominjete ima valjanu poantu što se tiče standardnih frekvencijskih testova. Zbog toga je ispitivanje zadane veličine efekta vrlo važno. Ilustracije radi, ovdje je novost između 3 skupine, gdje se skupina B malo razlikuje od skupine A i C. Pokušajte ovo u r:

  treat_diff = 0,001 #siza tretmana razlike = c (10, 100, 1000, 10000, 100000, 1000000) # vrijednosti za veličinu uzorka po razmatranoj grupireps = 10 #broj ponavljanja testa za svaku razmatranu veličinu uzorkap_mat = data.frame (n = faktor (), p = double ()) #create empty podatkovni kadar za izlaze za (n u ns) {# za svaku veličinu uzorka za (i u c (1: ponavljanja)) {#ponavljanje anova testa 'ponavljanja' vrijeme treatA = data.frame (tretman = "A", val = rnorm ( n)) treatB = data.frame (treatment = "B", val = rnorm (n) + treat_diff) #this je skupina koja ima sredstva koja se malo razlikuju od ostalih grupa treatC = data.frame (treatment = "C" , val = rnorm (n)) all_treatment = rbind (treatA, treatB, treatC) treatment_aov = aov (val ~ tretman, podaci = all_treatment) aov_summary = sažetak (treatment_aov) p = aov_summary [[1]] [["Pr (>F ) "]] [1] temp_df = data.frame (n = n, p = p) p_mat = rbind (p_mat, temp_df)}} libr ary (ggplot2) p <- ggplot (p_mat, aes (faktor (n), p)) p + geom_boxplot ()  

Kao što se i očekivalo, s većim brojem uzoraka po testu, statistički značaj testa raste: enter image description here

#13
+2
Andre Holzner
2010-09-09 23:42:49 UTC
view on stackexchange narkive permalink

Mislim da oni misle na to da se često iznosi pretpostavka o gustoći vjerojatnosti nulte hipoteze koja ima 'jednostavan' oblik, ali ne odgovara stvarnoj gustoći vjerojatnosti.

Sada s malim skupovima podataka možda nećete imati dovoljno osjetljivosti da biste vidjeli ovaj efekt, ali s dovoljno velikim nizom podataka odbacit ćete nultu hipotezu i zaključiti da postoji novi efekt umjesto da zaključite da je vaša pretpostavka o nultoj hipotezi nije u redu.

Ne znam jesu li Mark i Shern imali na umu vaš stav, ali samo da preformulirate svoje stajalište - ako je model podataka pod nulom 'pogrešan', tada ćete odbiti nultu hipotezu za dovoljno velike podatke.
#14
+1
user83346
2017-08-05 16:39:47 UTC
view on stackexchange narkive permalink

Nije li sve ovo stvar pogreške tipa I u odnosu na pogrešku tipa II (ili snage)?Ako netko popravi vjerojatnost pogreške tipa I ($ \ alpha $) na 0,05, tada će očito (osim u diskretnom slučaju) biti 0,05 bez obzira je li uzorak velik ili ne.

Ali za danu vjerojatnost pogreške tipa I, 0,05, npr. snaga ili vjerojatnost da ćete otkriti učinak kad je on prisutan (dakle vjerojatnost odbijanja $ H_0 $ (= otkrivanje učinka) kada $ H_1 $je true (= kada učinak postoji)), veći je za velike veličine uzoraka.

Snaga se povećava s veličinom uzorka (sve ostale stvari su jednake).

Ali izjava da "Znamo da će za dovoljno velike uzorke svaka studija - uključujući i one u kojima je nulta hipoteza o nikakvom učinku točna - proglasiti statistički značajan učinak."je netočno.

#15
  0
UserBI
2020-03-24 17:22:08 UTC
view on stackexchange narkive permalink

"Znamo da će za dovoljno velike veličine uzorka svaka studija - uključujući one u kojima je nulta hipoteza o nikakvom učinku točna - proglasiti statistički značajan učinak".

Pa, u određenom su smislu sve (većina) Nulte hipoteze lažne.Parametar koji se razmatra mora biti jednak pretpostavljenoj vrijednosti sve do beskonačnog broja decimalnih mjesta što je apsolutna rijetkost.Stoga je vrlo vjerojatno da će test proglasiti statistički značajan učinak kako se veličina uzorka povećava.

#16
-3
Joao Holz
2019-11-29 19:12:01 UTC
view on stackexchange narkive permalink

Ovo je kritičar Bayesova zaključivanja, različitog načina na koji se statistika može razlikovati (različito od one koju učitelji često uče na drugim tečajevima, a ne na statistikama, mi učimo oboje).

"Kritičar je što sve možete dokazati velikim uzorkom jer vam daje p-vrijednost."

Zato tražimo MNOGO drugih mjernih podataka, aic, f, rmse, anova ..... Nitko od mojih profesora nije mi odgovorio kako voditi ovu stvar, samo "napravi uzorak, tako da će tvoj skup podataka biti mali i to se neće dogoditi" Ali nisam zadovoljan s tim, ali koristim na ovaj način: /



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 2.0 licenci pod kojom se distribuira.
Loading...