Pitanje:
Je li p-vrijednost u osnovi beskorisna i opasna za upotrebu?
Aaron Zeng
2015-01-26 02:01:17 UTC
view on stackexchange narkive permalink

Ovaj članak privukao je moju pažnju članak " Tečajevi, stalno se ažuriraju" iz New York Timesa. Ukratko, navodi se da se

[Bayesova statistika] pokazuje posebno korisnim u pristupu složenim problemima, uključujući pretraživanja poput onog koje je Obalna straža koristila 2013. godine kako bi pronašla nestalog ribara, Johna Aldridgea ( iako ne, zasad, u lovu na let 370 Malaysia Airlinesa) ........, Bayesova statistika provlači se kroz sve, od fizike do istraživanja raka, ekologije do psihologije ...

U članku se nalaze i neke kritike na račun frekvencije p-vrijednosti, na primjer:

Rezultati se obično smatraju "statistički značajnim" ako je vrijednost p manja od 5 posto . Ali u ovoj tradiciji postoji opasnost, rekao je Andrew Gelman, profesor statistike na Columbiji. Čak i ako su znanstvenici uvijek izračunavali točno - a ne čine to, tvrdi on - prihvaćajući sve s p-vrijednošću od 5 posto znači da jedan od 20 "statistički značajnih" rezultata nije ništa drugo nego slučajni šum.

Osim gore navedenog, možda najpoznatiji rad koji kritizira vrijednost p je ovaj - "Znanstvena metoda: Statističke pogreške" Regine Nuzzo iz Prirode, u kojem je puno znanstvenih pitanja pokrenula Razgovarano je o pristupu p-vrijednosti, poput problema reproducibilnosti, hakiranja p-vrijednosti itd.

Vrijednosti P, „zlatni standard“ statističke valjanosti, nisu toliko pouzdane kako mnogi znanstvenici pretpostavljaju. ...... Možda je najgora zabluda vrsta samozavaravanja za koju su psiholog Uri Simonsohn sa Sveučilišta Pennsylvania i njegovi kolege popularizirali pojam P-hakiranje; poznato je i kao bageriranje podataka, njuškanje, ribolov, lov na značaj i dvostruko umakanje. "P-hakiranje", kaže Simonsohn, "pokušava više stvari dok ne postignete željeni rezultat" - čak i nesvjesno. ...... “Čini se da je taj nalaz dobiven p-hakiranjem, autori su odustali od jednog od uvjeta tako da ukupna p-vrijednost bude manja od 0,05”, i “Ona je p-haker, ona uvijek nadgleda podatke dok se oni prikupljaju. "

Još jedna stvar je zanimljiva radnja koja slijedi od ovdje, s komentarom na radnju:

Bez obzira koliko vaš učinak bio malen, uvijek možete napraviti težak posao prikupljanja podataka kako biste prešli prag p < .05. Sve dok učinak koji proučavate ne postoji, p-vrijednosti samo mjere koliko ste napora uložili u prikupljanje podataka.

enter image description here

Uz sve gore navedeno, moja su pitanja:

  1. Što tačno znači argument Andrewa Gelmana, u drugom blokovskom navodniku? Zašto je protumačio 5-postotnu vrijednost p kao "jedan od 20 statistički značajnih rezultata bilježi već slučajni šum"? Nisam uvjeren jer se za mene vrijednost p koristi za zaključivanje o jednoj jedinoj studiji. Čini se da je njegova poanta povezana s višestrukim testiranjem.

    Ažuriranje: O ovome pogledajte blog Andrewa Gelmana: Ne, nisam to rekao! (Zasluge za @Scortchi, @whuber).

  2. S obzirom na kritike na račun vrijednosti p, a također s obzirom na to da postoji mnoštvo informacijskih kriterija, poput AIC, BIC, Mallow-ovog $ C_p $ za procjenu značaja modela (dakle varijabli), ne bismo li trebali koristiti p-vrijednost za varijabilni odabir uopće, ali upotrebljavati te kriterije za odabir modela?

  3. Postoje li kakva dobra praktična uputstva za upotrebu p-vrijednosti za statističku analizu koja bi mogla dovesti do pouzdanijih rezultata istraživanja?
  4. Bi li Bayesov okvir za modeliranje bio bolji način za postizanje, kao što neki statističari zagovaraju? Točnije, bi li Bayesov pristup vjerojatnije riješio lažno pronalaženje ili manipuliranje problemima s podacima? Ni ovdje nisam uvjeren jer je prior vrlo subjektivan u Bayesovom pristupu. Postoje li neke praktične i dobro poznate studije koje pokazuju kako je Bayesov pristup bolji od p-vrijednosti frekventista, ili barem u nekim određenim slučajevima?

    Ažuriranje: posebno bih bio zainteresiran u postoje li slučajevi da je Bayesov pristup pouzdaniji od frekventističkog pristupa p-vrijednosti. Pod "pouzdanim" mislim da je Bayesov pristup manje vjerojatno da će manipulirati podacima za postizanje željenih rezultata. Ima li prijedloga?


Ažuriranje 9.6.2015.

Upravo sam primijetio vijest i pomislio da bi bilo dobro staviti je ovdje na raspravu.

Časopis za psihologiju zabranjuje vrijednosti P

Kontroverzni statistički test napokon je stigao do kraja, barem u jednom časopisu. Ranije ovog mjeseca urednici Osnovne i primijenjene socijalne psihologije (BASP) objavili su da časopis više neće objavljivati ​​radove koji sadrže vrijednosti P jer se statistika prečesto koristi za potporu nekvalitetnijim istraživanjima.

Zajedno s nedavnim radom, "Promjenjiva vrijednost P generira nepovratne rezultate" iz Naturea, o vrijednosti P.

Ažuriranje 8. 5. 2016.

Još u ožujku Američko statističko udruženje (ASA) objavilo je izjave o statističkoj značajnosti i p-vrijednostima, ".... Izjava ASA namijenjena je usmjeravanju istraživanja u 'post p<0.05 eru.' "

Ova izjava sadrži 6 načela koja se bave zlouporabom p-vrijednosti:

  1. P-vrijednosti mogu ukazati na to koliko su podaci nekompatibilni s navedenim statističkim modelom.
  2. P-vrijednosti ne mjere vjerojatnost da je proučena hipoteza istinita ili vjerojatnost da su podaci proizvedeni samo slučajnim slučajem.
  3. Znanstveni zaključci i poslovne ili političke odluke ne bi se trebale temeljiti samo na tome prelazi li vrijednost p određeni prag.
  4. Ispravno zaključivanje zahtijeva potpuno izvještavanje i transparentnost.
  5. Vrijednost p ili statistiku značaj, ne mjeri veličinu učinka ili važnost rezultata.
  6. Sama po sebi vrijednost p ne pruža dobru mjeru dokaza regardi ng modela ili hipoteze.

Pojedinosti: "Izjava ASA-a o p-vrijednostima: kontekst, postupak i svrha".

Relevantno [Zašto često testiranje hipoteza postaje pristrano prema odbacivanju nulte hipoteze s dovoljno velikim uzorcima?] (Http://stats.stackexchange.com/questions/108911/why-does-frequentist-hypothesis-testing-become-biased-towards-rejecting-the-null /), ne samo zato što moj odgovor upućuje na metodu za ispravljanje ove pristranosti.
Odgovor 1: Pretpostavljam da bi blok Gelman mogao biti pogrešna ponuda, jer su mu potrebne snažne (kontrafaktne) pretpostavke da bi bili točni.Ako bi sve što je ikad proučavano na svijetu slijedilo njihove nulte hipoteze, a sve nulte hipoteze bile jednostavne (i nisu složene), tada bi se konstrukcijom slučajno pojavilo 5% svih p-vrijednosti manjih od 0,05 USD - bilo bi "slučajni šum".Međutim, ako bi ljudi uvijek izvodili detaljne, opsežne eksperimente u kojima je alternativna hipoteza istinita (kao u prošlom navodu), tada bi u osnovi 100% svih p-vrijednosti bilo manje od 0,05 USD i niti jedan od njih ne bi bio "buka".
@whuber: U pravu si: [Ne, nisam to rekao!] (Http://andrewgelman.com/2014/09/30/didnt-say/).
Dobro pronađeno, @Scortchi!Za zapisnik - u slučaju da se veza ikad pokvari - Gelman odlučno odbacuje karakterizaciju NY Timesa (premda vrlo taktično) i piše da "prihvaćanje svega s p-vrijednošću od 5 posto može dovesti do lažnih nalaza - slučajeva kada primijećeni"statistički značajan ”obrazac u podacima ne odražava odgovarajući obrazac u populaciji - daleko više od 5 posto vremena."
U odnosu na vaš komentar "Sve dok učinak koji proučavate ne postoji", to je poanta studija koje uključuju p vrijednosti - kako bi se utvrdilo je li učinak koji proučavate uistinu prisutan ili su osobine upodaci koje ste prikupili su samo slučajni slučajevi.Snižavanje vrijednosti p povećanjem veličine uzorka potpuno je matematički ispravno i zapravo jedina mogućnost.Ni na koji način ne "hakirate" vrijednost p.S intuitivnog stajališta, logično je da bi ulaganje više napora u prikupljanje podataka rezultiralo većim povjerenjem u zaključke koje iz njega izvučete.
@DavidWebb dogovoreno.Ako je veličina efekta mala, to je u redu i s više podataka bit će lakše reći koliko je efekt velik ili mali.Ako možete dobiti više podataka, trebali biste.
@DavidWebb, ako pretpostavimo da null ne može zadržati, ideja p-hakiranja je pogrešno postavljena.Ali kada je nula istinita, p će biti jednoliko raspoređeni RV;ako prikupimo podatke i ponovno provjerimo p unedogled, besciljno će lutati kroz (0,1) i zajamčeno će biti kadkad <.05.Istraživač bi mogao stati kad je ostvareni p <.05, tako da koncept nije isprazan.S obzirom na to da nitko neće zauvijek prikupljati podatke, važno je pitanje kolika je vjerojatnost da će ispod nule p pasti <.05 s razumnim N. To je teško reći, ali definitivno> .05.
Svaki napredni alat bit će opasan ako ga ne znate koristiti ---
@kjetilbhalvorsen, te dobio.Mislim da je moje suštinsko pitanje ovdje točno "kako koristiti p-vrijednost".
Žao nam je, nisam mogao odoljeti i uključiti [ovo iz XKCD] (http://xkcd.com/1478/)! [Http://xkcd.com/1478/] (http://i.stack.imgur.com/dB9HE.png)
Ovo bi vjerojatno trebalo ići na temu omiljenih crtića, a ne ovdje.
Crtić je stvarno prikladan, ali ne rješava pitanje.Bilo bi lijepo kada biste zapravo odgovorili na pitanje i crtić iskoristili za ilustraciju svog odgovora.
@DavidWebb U mnogim su poljima (npr. U svim društvenim znanostima) točke nulte hipoteze u osnovi uvijek apriorno lažne.Nema potrebe prikupljati bilo kakve podatke da bi se zaključilo da $ \ theta \ ne 0 $ izlazi na beskonačne decimalne točke.Pitanje na koje ljudi obično žele odgovoriti je "je li učinak dovoljno velik da bi imao značaja", što zahtijeva odgovor na suštinsko, specifično pitanje o tome što je "dovoljno veliko".Nažalost, mnogi se ljudi ne zamaraju tim pitanjem i samo pretpostavljaju da NHST (sa nulama s slamnatim čovjekom) odgovara na pitanje do kojeg im je zaista stalo.
Ovo je pitanje bilo VRLO teško pratiti zbog velikog broja ažuriranja s previše formatiranja (započni uređivanje / završi uređivanje / vodoravne crte / prazne linije / itd.).Dvije godine nakon ove rasprave zapravo nije važno što je kada ažurirano.Ponovno sam naručio ažuriranja pokušavajući usmjeriti pitanje (ali uopće nisam ništa izrezao ili uredio).Mislim da se sada čita puno jasnije, nadam se da vam neće smetati.Usput +1.
"Sve dok učinak koji proučavate ne postoji, * p * -vrijednosti samo mjere koliko ste napora uložili u prikupljanje podataka."To je istina [samo ako se kao način analize obvežete na pristranost potvrde] (https://stats.stackexchange.com/a/108914/44269).Važno je kako postavljate svoje nište hipoteze.
Pet odgovori:
gung - Reinstate Monica
2015-01-26 03:09:25 UTC
view on stackexchange narkive permalink

Evo nekoliko razmišljanja:

  1. Kao što @whuber primjećuje, sumnjam da je Gelman to rekao (iako je možda rekao nešto slično zvučeći). Pet posto slučajeva kada null vrijedi donijet će značajne rezultate (pogreške tipa I) koristeći alfu od .05. Ako pretpostavimo da je stvarna snaga za sve studije u kojima je nula bila lažna $ 80 \% $ , izjava može biti istinita samo ako je omjer ispitivanja provedenih na nuli je bila istinita za studije u kojima je nula bila lažna 100 / 118,75 \ približno 84 \% $ .
  2. Kriteriji odabira modela, kao što je AIC, mogu se smatrati načinom odabira odgovarajuće $ p $ -vrijednosti. Da bismo ovo cjelovitije razumjeli, moglo bi vam pomoći da ovdje pročitate odgovor @ Glen_b-a: Postepena regresija u R - Kritična p-vrijednost. Štoviše, ništa ne sprječava ljude da 'hakiraju AIC' ako je AIC postao uvjet za objavljivanje.
  3. Dobar vodič za postavljanje modela na takav način da ne poništite svoje vrijednosti $ p $ bila bi knjiga Franka Harrella, Strategije modeliranja regresije .
  4. Nisam dogmatski protiv korištenja Bayesovih metoda, ali ne vjerujem da bi oni riješili ovaj problem. Na primjer, možete jednostavno nastaviti prikupljati podatke dok vjerodostojni interval više ne uključuje bilo koju vrijednost koju ste željeli odbiti. Stoga imate "vjerodostojno intervaliranje". Kako vidim, pitanje je u tome što mnoge praktičare ne zanimaju statističke analize koje koriste, pa će na nepromišljeni i mehanički način koristiti onu metodu koja se od njih traži. Za više informacija o mojoj perspektivi ovdje, možda će vam biti korisno pročitati moj odgovor na: Veličina učinka kao hipoteza za ispitivanje značaja.
(+1) Jednostavan način hakiranja vjerodostojnog intervala je usvajanje pravog prethodnika :-).Naravno, niti jedan kompetentni praktičar to ne bi učinio - Gelman naglašava korištenjem procjena osjetljivosti, neinformativnih hiperpriora, itd. - ali opet, niti jedan nadležni korisnik testova hipoteza ne bi radio hakiranje p-vrijednosti, zar ne?S druge strane, u Bayesovoj analizi možda će biti teže sakriti što netko radi - pod pretpostavkom da je prethodnik jasno otkriven - u usporedbi sa svim * nedokumentiranim * analizama koje bi mogle biti uključene u hakiranje vrijednosti p.
@whuber, to je istina, ali mislim da možemo ostaviti po strani sva pitanja s neprikladnošću ili subjektivnošću prethodnika.Ako stvarni učinak nije točno 0, s dovoljno podataka, vjerodostojni interval na kraju neće uključivati 0, baš kao što će p biti <.05 (usp. Zadnji citat), tako da možete nastaviti prikupljati podatke dok ne dobijeterezultat koji želite bez obzira na prethodni.
Dobri bodovi.Podsjećam se nedavnog pitanja o predviđanju kvarova na 10.000 proizvoda nakon što nisam primijetio kvarove na 100.000 od njih.Odgovor je prilično osjetljiv na prethodnika, jer su neuspjesi tako rijetki.Ovo može biti vrsta iznimne situacije koja "dokazuje pravilo";pokazuje da u stvarnosti može biti nepraktično prikupiti dovoljno podataka za dobivanje željenog rezultata.Upravo tada neki klijenti počinju preklinjati statističara da "učini svoju magiju" kako bi postigao željeni ishod!Vjerojatno su mnogi čitatelji osjećali taj pritisak i prije ....
@gung, u praktičnim kliničkim ispitivanjima uvijek postoje kriteriji zaustavljanja u različitim fazama za regrutiranje više ispitanika za eksperimente.U tom smislu, bi li Bayesov pristup zvučao manje vjerojatno da će manipulirati vjerodostojnim intervalom, pa zaključci istraživanja?
@AaronZeng,, čini mi se da se izričiti kriteriji zaustavljanja jednako primjenjuju na frekventističku i bajesovsku perspektivu.Ovdje ne vidim nikakvu neto prednost / nedostatak.
Mike Hunter
2015-06-09 21:32:19 UTC
view on stackexchange narkive permalink

Za mene je jedna od najzanimljivijih stvari u vezi s p-hacking kontroverzom da je cijela povijest p< = 0,05 kao "jednom u modrom mjesecu" standarda za statističku značajnost, kao što je primijetio Joseph Kaldane u članku JASA-e o forenzička statistika još 90-ih, ne počiva na apsolutno nikakvoj statističkoj teoriji. To je konvencija, jednostavna heuristika i pravilo koje je započelo s R.A. Fisher i od tada je reificiran ili posvećen u svoj sadašnji "neupitni" status. Bajesovski ili ne, vrijeme je odavno trebalo izazvati ovaj metrički standard ili mu dati barem zasluženi skepticizam.

To je reklo, moje tumačenje Gelmanove poante je da je, kao što je poznato, recenzija postupak nagrađuje pozitivnu statističku značajnost i kažnjava beznačajne rezultate neobjavljivanjem tih radova. To je bez obzira na to bi li objavljivanje beznačajnog nalaza imalo potencijalno velik utjecaj na razmišljanje i teoretiziranje za danu domenu. Gelman, Simonshohn i drugi u više su navrata ukazivali na zlouporabu razine značajnosti 0,05 u recenziranim i objavljenim istraživanjima navodeći primjere smiješnih, a opet statistički značajnih nalaza u paranormalnim, socijalnim i psihološkim istraživanjima. Jedno od najgrubljih bilo je statistički značajno otkriće da su trudnice češće nosile crvene haljine. Gelman tvrdi da je, u odsustvu logičnih izazova za statističke rezultate, sama činjenica da je analiza "statistički značajna" potencijalno besmisleno objašnjenje. Ovdje se referira na profesionalnu opasnost u industriji s pretjerano tehničkim i oštrim argumentima koji malo ili nimalo ne potiču raspravu među laičkom publikom.

Ovo je stav koji Gary King žestoko iznosi kada praktički moli kvantitativne politologe (i, sveukupno, sve kvante) da zaustave mehaničku, tehničku reportažu poput "ovaj je rezultat bio značajan na razini p< = 0,05" i krene prema sadržajnija tumačenja. Evo citata iz njegovog rada,

(1) prenose numerički precizne procjene količina od najvećeg suštinskog interesa, (2) uključuju razumne mjere nesigurnosti u vezi s tim procjenama i (3) zahtijevaju malo specijaliziranog znanja za razumijevanje. Sljedeća jednostavna izjava zadovoljava naše kriterije: 'U ostalim okolnostima, dodatna godina obrazovanja povećala bi vam godišnji prihod u prosjeku za 1.500 dolara, plus ili minus oko 500 dolara.' Svaki pametni srednjoškolac razumio bi tu rečenicu, bez obzira na to koliko je sofisticiran statistički model i moćna računala korištena za njegovu izradu.

Kingova poanta vrlo je dobro prihvaćena i ocrtava smjer u kojem debata treba ići.

Maksimalan učinak statističkih analiza: Poboljšanje interpretacije i prezentacije , King, Tomz i Wittenberg, 2002, Am Jour of Poli Sci .

+1 Hvala vam na ovom čitljivom, informativnom i promišljenom doprinosu niti.
@whuber Hvala na lijepim riječima.Vrijeme će pokazati hoće li se drugi sudionici s tim slagati ili ne.
Možda sam u zabludi, ali volim misliti da neki (ako ne i većina) naših aktivnih glasača ne glasuju na temelju sporazuma ili neslaganja, već na to odgovara li post na originalno pitanje na način koji je jasan i autoritativan.Napokon, tekst lebdenja iznad ikone za glasanje glasi "Ovaj je odgovor koristan", a ne "Slažem se s tim tipom".(Ovo se ne smije zamijeniti s glasovanjem na našoj meta web stranici, što * označava * stupanj slaganja.) Neke dokaze za taj dojam pružaju mnogi [značke sportskog duha] (http://stats.stackexchange.com/help/ značke / 63 / sportsmanship) dodijeljena.
@Whuber Nijansa na koju ste ukazali pravilno je zabilježena.
Aaron Zeng
2015-01-27 03:13:55 UTC
view on stackexchange narkive permalink

Evo nekoliko mojih razmišljanja u vezi s trećim pitanjem nakon što sam pročitao sve pronicljive komentare i odgovore.

Možda je jedno praktično vodstvo u statističkoj analizi kako bi se izbjeglo hakiranje vrijednosti p je da se umjesto toga sagleda znanstvena (ili, biološki, klinički, itd.) značajna / značajna veličina učinka.

Konkretno , istraživanje bi trebalo unaprijed definirati veličinu učinka koja se može proglasiti korisnom ili značajnom prije analize podataka ili čak prije prikupljanja podataka. Na primjer, ako neka $ \ theta $ označava učinak lijeka, umjesto testiranja sljedeće hipoteze, $$ H_0: \ theta = 0 \ quad \ quad vs \ quad \ quad H_a: \ theta \ neq 0, $$ one uvijek treba testirati $$ H_0: \ theta < \ delta \ quad \ quad u odnosu na \ quad \ quad H_a: \ theta \ ge \ delta, $$ s $ \ delta $ kao unaprijed definiranom veličinom efekta da bi se dobio značajan značaj. p>

Osim toga, kako bi se izbjegla uporaba prevelike veličine uzorka za otkrivanje učinka, treba uzeti u obzir i potrebnu veličinu uzorka. Odnosno, trebali bismo ograničiti maksimalnu veličinu uzorka koja se koristi za eksperiment.

Da rezimiramo,

  1. Moramo unaprijed definirati prag za značajnu veličinu efekta da bismo deklarirali značaj;
  2. Moramo unaprijed definirati prag za uzorak veličina korištena u eksperimentu za kvantificiranje koliko je značajna veličina efekta prepoznatljiva;

Uz gore navedeno, možda stoga možemo izbjeći manji "značajni" efekt za koji tvrdi velika veličina uzorka.


[Ažuriranje 9.9.2015.]

U vezi s 3. pitanjem, evo nekoliko prijedloga koji se temelje na nedavnom radu iz prirode: "Nestalni Vrijednost P generira nepovratne rezultate " kao što sam spomenuo u dijelu Pitanja.

  1. Izvještavanje o procjenama učinka i njihovoj preciznosti, tj. Intervalu pouzdanosti od 95%, jer te informativnije informacije odgovaraju točno na pitanja na primjer koliko je velika razlika ili koliko su jaki odnosi ili udruživanje;
  2. Stavite procjene veličine učinka i 95% CI u kontekst određenih znanstvenih studija / pitanja i usredotočite se na njihovu relevantnost za odgovaranje na ta pitanja i popustite nestalnu vrijednost P;
  3. Zamijenite analizu snage s " planiranje preciznosti" za određivanje veličine uzorka potrebne za procjenu veličine efekta kako bi se postigao definirani stupanj preciznosti.

[Kraj ažuriranja 6 / 9/2015]

Ako prepišete $ H_0: \ theta = \ delta $, tada se zalažete za [ispitivanje ekvivalencije] (http://stats.stackexchange.com/questions/tagged/equivalence), što mislim da je u mnogim stvarima dobro učinitisituacijama.(Tipični testovi nisu predstavljeni kao druga situacija, jer postoje potencijalni ishodi koji nisu null ili alternativni.)
@AndyW, Hvala na komentarima.U skladu s tim promijenio sam svoj odgovor.Bi li to zvučalo bolje?
+1 za referencu na taj članak o Prirodi.Sadrži neke zapanjujuće pogrešne informacije, poput (nenajavljene) Bayesove interpretacije p-vrijednosti: "Kao primjer, ako studija dobije P = 0,03, postoji 90% šanse da bi ponovljena studija negdje vratila vrijednost Pizmeđu širokog raspona od 0–0,6 (intervali predviđanja od 90%), dok su šanse za P <0,05 samo 56%. "Pitam se kakvu pretpostavku autori pretpostavljaju - i zašto je to uopće relevantno?
@AndyW i Aaron Zeng, još je bolje kombinirati rezultate * oba * testa razlike, * i * testa ekvivalencije.Na taj način, [jedna relevantnu veličinu učinka i statističku snagu stavlja izričito u zaključke koje izvuče] (https://stats.stackexchange.com/a/108914/44269) (vidi odjeljak o testovima relevantnosti).
Emir
2015-01-26 03:22:51 UTC
view on stackexchange narkive permalink

U suvremenoj uporabi p-vrijednost odnosi se na kumulativnu vjerojatnost podataka s obzirom na to da je nulta hipoteza na ili veća od nekog praga. Tj. $ P (D | H_0) \ le \ alpha $. Mislim da $ H_0 $ ima tendenciju biti hipoteza o 'nikakvom učinku' koja se obično uspoređuje usporedbom vjerojatnosti sa zadovoljavajuće malo vjerojatnim slučajnim rezultatom u nekom broju ispitivanja. Ovisno o terenu varira od 5% do 0,1% ili manje. Međutim, $ H_0 $ ne mora biti usporedba sa slučajnim.

  1. To implicira da 1/20 rezultata može odbiti nulu kad ne bi trebali. Ako se znanstveni zaključak temelji na pojedinačnim eksperimentima, izjava bi bila obranjiva. Inače, ako bi se eksperimenti mogli ponoviti, to bi značilo da 19/20 neće biti odbijeno. Moral priče je da eksperimenti trebaju biti ponovljivi.

  2. Znanost je tradicija utemeljena na "objektivnosti" pa je "objektivna vjerojatnost" prirodno privlačna. Prisjetimo se da bi eksperimenti trebali pokazati visok stupanj kontrole koji često koristi dizajn bloka i randomizaciju za kontrolu faktora izvan studije. Stoga usporedba sa slučajnim ima smisla jer bi se trebali kontrolirati svi drugi čimbenici, osim onih koji se proučavaju. Ove su tehnike bile vrlo uspješne u poljoprivredi i industriji prije nego što su prenesene u znanost.

  3. Nisam siguran je li nedostatak informacija ikada bio problem. Značajno je da je za mnoge u ne-matematičkim znanostima statistika samo okvir koji treba označiti.

  4. Predložio bih općenito čitanje o teoriji odlučivanja koja ujedinjuje dva okvira. Jednostavno se svodi na korištenje onoliko informacija koliko imate. Statistike frekventora pretpostavljaju da parametri u modelima imaju nepoznate vrijednosti iz fiksne raspodjele. Bayesovci pretpostavljaju da parametri u modelima dolaze iz distribucija uvjetovanih onim što znamo. Ako postoji dovoljno podataka za formiranje prethodnih podataka i dovoljno informacija za njihovo ažuriranje na točan stražnji dio, to je sjajno. Ako nema, možda ćete završiti s lošijim rezultatima.

user36160
2016-01-17 00:24:07 UTC
view on stackexchange narkive permalink

Obnovljivost rezultata statističkih ispitivanja

Ovo je kratka, jednostavna vježba za procjenu ponovljivosti odluka na temelju statističkih ispitivanja.

Razmotrimo nultu hipotezu H0 sa skupom alternativnih hipoteza koje sadrže H1 i H2. Postavite postupak ispitivanja statističke hipoteze na razinu značajnosti 0,05 da ima snagu 0,8, ako je H1 istinit. Nadalje pretpostavimo da je snaga za H2 0,5. Da bi se procijenila ponovljivost rezultata ispitivanja, smatra se da se eksperiment provodi dva puta. Polazeći od situacije u kojoj je H0 istina, vjerojatnosti ishoda zajedničkog eksperimenta prikazane su u tablici 1. Vjerojatnost nemogućnosti reprodukcije odluka iznosi 0,095.

Tablica 1. Frekvencije, ako je H0 istina

\ begin {niz} {| r | r |} \ hlineFrequency. od. odluka &Reject. H0 &Retain. H0 \\\ hlineReject. H0 &0.0025 &0.0475 \\\ hlineRetain. H0 &0.0475 &0.9025 \\\ hline \ end {array}

Frekvencije se mijenjaju kako se mijenja stvarno stanje prirode. Pod pretpostavkom da je H1 istinit, H0 se može odbiti onako kako je projektiran snagom od 0,8. Rezultirajuće frekvencije za različite ishode zajedničkog eksperimenta prikazane su u tablici 2. Vjerojatnost da neće moći reproducirati odluke iznosi 0,32.

Tablica 2. Frekvencije, ako je H1 točno

\ begin {array} {| r | r |} \ hlineFrekvencija. od. odluka &Reject. H0 &Retain. H0 \\\ hlineReject. H0 &0,64 &0,16 \\\ hlineRetain. H0 &0.16 &0.04 \\\ hline \ end {array}

Pod pretpostavkom da je H2 istinit, H0 će biti odbijen s vjerojatnošću od 0,5. Rezultirajuće frekvencije za različite ishode zajedničkog eksperimenta prikazane su u tablici 3. Vjerojatnost da neće moći reproducirati odluke iznosi 0,5.

Tablica 3. Frekvencije, ako je H2 točno

\ begin {array} {| r | r |} \ hlineFrequency. od. odluka &Reject. H0 &Retain. H0 \\\ hlineReject. H0 &0,25 &0,25 \\\ hlineRetain. H0 &0.25 &0.25 \\\ hline \ end {array}

Postupak ispitivanja osmišljen je za kontrolu pogrešaka tipa I (odbacivanje nulte hipoteze iako je točna) s vjerojatnošću 0,05 i ograničiti pogreške tipa II (bez odbacivanja nulte hipoteze iako je pogrešna i H1 je istinita) na 0,2. U oba slučaja, s pretpostavkom da su H0 ili H1 istinite, to dovodi do zanemarivih frekvencija, 0,095 odnosno 0,32, "neobnovljivih", "kontradiktornih" odluka, ako se isti eksperiment ponovi dva puta. Situacija se pogoršava s učestalošću do 0,5 za "neobnovljive", "kontradiktorne" odluke, ako je pravo prirodno stanje između nule i alternativne hipoteze koja se koristi za dizajniranje eksperimenta.

Situacija se također može poboljšati - ako se pogreške tipa 1 kontroliraju strože ili ako je pravo prirodno stanje daleko od nule, što rezultira moći odbacivanja nule koja je blizu 1.

Stoga, ako želite ponovljive odluke, povećajte razinu važnosti i snagu svojih testova. Nije baš zapanjujuće ...

(+1) Ali ne možete postaviti * p-vrijednost * na 5% prije eksperimenta - mislite da mislite na "razinu značajnosti".
Hvala vam.Ista stvar u posljednjoj rečenici: "smanjiti razinu značajnosti i povećati snagu"
Mislim da je najveći problem s p vrijednostima taj što ih ljudi brkaju sa značajnim značenjem.Dakle, ako je p <.05, to znači da je veličina otkrivenog efekta dovoljno velika da bude bitna.Na poslu me pitaju da generiram [vrijednosti] značajne učinke generiranjem p vrijednosti.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...