Pitanje:
Pravila za "moderne" statistike
chl
2010-09-16 15:21:37 UTC
view on stackexchange narkive permalink

Sviđa mi se knjiga G van Bellea o statističkim pravilima palca, te u manjoj mjeri Uobičajene pogreške u statistici (i kako ih izbjeći) Phillipa I Good i James W. Hardin. Oni se bave uobičajenim zamkama prilikom tumačenja rezultata eksperimentalnih i promatračkih studija i pružaju praktične preporuke za statističko zaključivanje ili analizu istraživačkih podataka. Ali smatram da "moderne" smjernice pomalo nedostaju, posebno uz stalno rastuću računalnu i robusnu statistiku u raznim poljima ili uvođenjem tehnika iz zajednice strojnog učenja u, na pr. klinička biostatistika ili genetska epidemiologija.

Osim računalnih trikova ili uobičajenih zamki u vizualizaciji podataka koje bi se mogle riješiti negdje drugdje, želio bih pitati: Koja su glavna pravila koja biste preporučili za učinkovito analiza podataka? ( jedno pravilo po odgovoru, molim vas ).

Razmišljam o smjernicama koje biste mogli dati kolegi, istraživaču bez jake stručnosti u statistikama modeliranje, ili student na srednjem do naprednom tečaju. To bi se moglo odnositi na razne faze analize podataka, npr. strategije uzorkovanja, odabir značajki ili izrada modela, usporedba modela, naknadna procjena itd.

24 odgovori:
#1
+62
onestop
2010-09-16 17:57:27 UTC
view on stackexchange narkive permalink

Ne zaboravite obaviti neke osnovne provjere podataka prije nego što započnete analizu. Konkretno, pogledajte grafikon raspršenja svake varijable koju namjeravate analizirati prema ID broju, datumu / vremenu prikupljanja podataka ili slično. Oko često može pokupiti uzorke koji otkrivaju probleme kad sažeti statistički podaci ne pokazuju ništa neobično. A ako ćete za analizu koristiti zapisnik ili drugu transformaciju, upotrijebite ga i za rad.

Ovo sam naučio na teži način. Dvaput.
Da! Pogledajte prije nego što skočite. Molimo pogledajte podatke.
Vizualni pregled podataka * može * napuhati pogrešku tipa I ako se odluke donose naknadno. Sklon sam provoditi potvrdne analize onako kako su bile unaprijed određene i uključuju rezultate na koje je inspekcija utjecala kao istraživačke ili analize osjetljivosti.
#2
+51
Stephan Kolassa
2010-09-18 23:15:49 UTC
view on stackexchange narkive permalink

Neka vaša analiza bude ponovljiva. Recenzent ili vaš šef ili netko drugi na kraju će vas pitati kako ste točno došli do rezultata - vjerojatno šest mjeseci ili više nakon što ste napravili analizu. Nećete se sjećati kako ste čistili podatke, kakvu ste analizu radili, zašto ste odabrali određeni model koji ste koristili ... A rekonstrukcija svega ovoga je muka.

Posljedica: koristite skriptni jezik neke vrste, stavite komentare u svoje skripte za analizu i zadržite ih. Ono što koristite (R, SAS, Stata, bilo što drugo) manje je važno od posjedovanja potpuno ponovljive skripte. Odbijte okruženja u kojima je to nemoguće ili neugodno.

Ako ćete koristiti R, preporučio bih ugrađivanje R koda u dokument Sweave koji daje vaše izvješće. Na taj način R kod ostaje uz izvještaj.
#3
+36
user88
2010-09-16 17:08:08 UTC
view on stackexchange narkive permalink

Nema besplatnog ručka

Veliki dio statističkih kvarova stvara se klikom na veliki sjajni gumb nazvan "Izračunaj značaj" bez uzimanja u obzir tereta skrivenih pretpostavki.

Ponovite

Čak i ako je uključen jedan poziv slučajnom generatoru, netko može imati sreće ili zle sreće i zato skočiti na pogrešne zaključke.

#4
+29
Stephan Kolassa
2010-09-19 02:07:17 UTC
view on stackexchange narkive permalink

Jedno pravilo po odgovoru ;-)

Razgovarajte sa statističarem prije provođenja studije. Ako je moguće, prije podnošenja zahtjeva za potporu. Pomozite mu / joj da razumije problem koji proučavate, potražite njegov / njezin uvid u to kako analizirati podatke koje ćete prikupiti i razmislite što to znači za vaš dizajn studije i zahtjeve za podacima. Možda tip / statistika predložio izradu hijerarhijskog modela kako bi se utvrdilo tko je dijagnosticirao pacijente - tada trebate pratiti tko je kome dijagnosticirao. Zvuči trivijalno, ali mnogo je bolje razmisliti o tome prije nego što prikupite podatke (i ne uspijete prikupiti nešto presudno) nego kasnije.

S tim u vezi: napravite analizu snage prije početka. Ništa nije toliko frustrirajuće kao ako niste planirali dovoljno veliku veličinu uzorka. Razmišljajući o veličini efekta koju očekujete, sjetite se pristranosti publikacije - veličina efekta koju ćete pronaći vjerojatno će biti manja od one koju ste očekivali s obzirom na (pristranu) literaturu.

#5
+28
Rob Hyndman
2010-09-16 18:13:11 UTC
view on stackexchange narkive permalink

Jedna stvar koju kažem svojim studentima je da naprave odgovarajući graf za svaku p-vrijednost. npr. raspršeni dijagram ako testiraju korelaciju, paralelni dijaloški okviri ako rade jednosmjernu ANOVA, itd.

#6
+28
Jeromy Anglim
2010-09-17 14:40:03 UTC
view on stackexchange narkive permalink

Ako se odlučujete između dva načina analize podataka, isprobajte u oba smjera i provjerite ima li razlike.

Ovo je korisno u mnogim kontekstima:

  • Transformirati ili ne transformirati
  • Neparametarski ili parametarski test
  • Spearmanova ili Pearsonova korelacija
  • PCA ili faktorska analiza
  • Da li upotrijebiti aritmetičku sredinu ili robusnu procjenu srednje vrijednosti
  • Hoće li se uključiti kovarijant ili ne
  • Hoće li se koristiti brisanje na popisu, uparivanje mudro brisanje, pripisivanje ili neka druga metoda zamjene vrijednosti koje nedostaju

To ne bi trebalo osloboditi razmišljanja o problemu, ali barem daje osjećaj stupnja u kojem su značajni nalazi robusni su prema odabiru.

Je li to citat? Pitam se samo kako isprobavanje alternativnih postupaka ispitivanja (a ne strategija analize!) Možda neće donekle srušiti kontrolu pogreške tipa I ili početnog izračuna snage. Znam da SAS sustavno vraća rezultate parametarskih i neparametarskih testova (barem u usporedbi sredina i ANOVA u dva uzorka), ali uvijek smatram ovo intrigantnim: ne bismo li trebali vidjeti prije rezultata koji bi test trebalo primijeniti?
@chl dobra poanta. Slažem se da se gore navedeno pravilo može koristiti iz pogrešnih razloga. Tj., Pokušavajući stvari na više načina i izvještavajući samo o rezultatu koji daje ugodniji odgovor. Smatram da je pravilo korisno kao i alat za obuku analitičara podataka kako bi se naučio učinak odluka o analizi na bitne zaključke. Vidio sam da se mnogi studenti gube s odlukama, posebno tamo gdje u literaturi postoje konkurentni savjeti (npr. Preobraziti ili ne preobraziti) koji često imaju minimalan utjecaj na sadržajne zaključke.
@chl ne, nije citat. Ali smatrao sam da je dobro razdvojiti pravilo palca od njegovog obrazloženja i upozorenja. Promijenio sam ga u podebljano da to bude jasno.
Ok, logično mi je isprobati različite transformacije i potražiti pruža li bolji način za objašnjavanje proučenih odnosa; ono što ne razumijem je isprobati različite strategije analize, iako je to trenutna praksa (ali nije objavljeno u objavljenim člancima :-), posebno. kada se oslanjaju na različite pretpostavke (u EFA u odnosu na PCA pretpostavljate dodatni izraz pogreške; u neparametarskom u odnosu na parametarsko testiranje bacate dio pretpostavki itd.). Ali, slažem se da razgraničenje između istraživačke i potvrdne analize nije tako jasno ...
To mi se čini korisnim samo za istraživačku analizu ili tijekom koraka obuke i provjere valjanosti.Uvijek će vam trebati konačni korak provjere testiranja, u protivnom biste se mogli zavarati određenim značajnim rezultatima koji dobro funkcioniraju nakon što dobijete željenu razliku * u skladu sa svojim 'subjektivnim' uvjerenjima *.Tko treba prosuditi koja metoda djeluje bolje?Ja osobno, ako sumnjam u različite metode, onda ga testiram na simuliranim podacima, kako bih testirao stvari poput varijance procjenitelja ili robusnosti, itd.
#7
+22
shabbychef
2010-09-17 02:32:16 UTC
view on stackexchange narkive permalink

Ispitujte svoje podatke. U moderno doba jeftinog RAM-a često radimo na velikim količinama podataka. Jedna pogreška "masnog prsta" ili "izgubljeno decimalno mjesto" lako može dominirati analizom. Bez neke osnovne provjere zdrave razumnosti (ili ucrtavanja podataka, kao što drugi ovdje predlažu) može se izgubiti puno vremena. To također sugerira korištenje nekih osnovnih tehnika za 'robusnost' prema izvanrednim situacijama.

Posljedica: pogledajte je li netko vrijednost koja nedostaje kodirao kao "9999" umjesto kao "NA". Ako vaš softver ovu vrijednost koristi u nominalnoj vrijednosti, pokvarit će vašu analizu.
#8
+21
2010-09-17 03:39:17 UTC
view on stackexchange narkive permalink

Koristite softver koji prikazuje lanac programske logike od sirovih podataka do konačnih analiza / rezultata. Izbjegavajte softver poput Excela u kojem jedan korisnik može napraviti pogrešku koja se ne može otkriti u jednoj ćeliji, a koja će se pojaviti samo ručnom provjerom.

[VisTrails] (http://www.vistrails.org) jedan je sustav koji pomaže ovom procesu. (Koristio sam samo homebrew sustave; zajednički ciljevi grupe važniji su od određenog alata.)
#9
+18
suncoolsu
2010-09-16 17:15:46 UTC
view on stackexchange narkive permalink

Popis može biti dugačak, ali treba spomenuti nekoliko: (bez određenog redoslijeda)

  1. P-vrijednost NIJE vjerojatnost. Točnije, nije vjerojatnost počinjenja pogreške tipa I. Slično tome, KI nemaju vjerojatnosnu interpretaciju za dane podatke. Primjenjivi su za ponovljene eksperimente.

  2. Problem vezan uz varijancu u praksi najčešće dominira pristranošću, pa je pristrana procjena s malom varijancom bolja od nepristrane procjene s velikom varijancom ( većinu vremena).

  3. Uklapanje modela je iterativni postupak. Prije analize podataka razumite izvor podataka i moguće modele koji odgovaraju ili ne odgovaraju opisu. Također, pokušajte modelirati sve probleme s dizajnom u svom modelu.

  4. Upotrijebite alate za vizualizaciju, pogledajte podatke (radi mogućih abnormalnosti, očitih trendova itd. da biste razumjeli podatke) prije njihove analize. Upotrijebite metode vizualizacije (ako je moguće) da vidite kako model odgovara tim podacima.

  5. I na kraju, ali ne najmanje važno, upotrijebite statistički softver za ono za što su stvoreni ( vaš zadatak izračunavanja lakši), oni nisu zamjena za ljudsko razmišljanje.

Vaša stavka 1 nije točna: vrijednost P vjerojatnost je dobivanja podataka kao ekstremnih ili ekstremnijih, s obzirom na nultu hipotezu. Koliko znam, to znači da P _je_ vjerojatnost - uvjetna, ali ipak vjerojatnost. Vaša je izjava točna u okolnostima da netko radi unutar Neyman-Pearsonove paradigme pogrešaka, ali ne i ako radi u okviru ribarske paradigme gdje su vrijednosti P pokazatelji dokaza protiv ništetne hipoteze. Istina je da se paradigme redovito miješaju u nekoherentnu miš-kašu, ali obje su 'ispravne' kad se koriste samostalno i netaknute.
Za intervale povjerenja opet ste ispravni samo u granicama neymanskih intervala povjerenja. Fisher (i drugi prije njega) također su osmislili i koristili stvari koje bi netko mogao protumačiti kao intervale pouzdanosti, a postoji sasvim valjana interpretacija takvih intervala koji se odnose na određeni eksperiment koji daje interval. Po mom mišljenju, oni su daleko bolji od Neymanovih. Pogledajte moj odgovor na pitanje Diskretne funkcije: Pokrivanje intervala povjerenja? za više detalja: http://stats.stackexchange.com/questions/8844/discrete-functions-confidence-interval-coverage/8860#8860
@Michael ste u pravu, ali da vidimo: Koliko je puta Null točan? Ili bolje: Može li itko dokazati je li nula točna? O tome također možemo voditi duboke filozofske rasprave, ali to nije poanta. U kontroli kvalitete ponavljanja imaju smisla, ali u znanosti bilo koje dobro pravilo _odluke_ mora uvjetovati podatke.
Fisher je to znao (uvjetovanje na promatranim podacima i na tome se temelji napomena o kontroli kvalitete). Na temelju toga iznio je mnogo kontra primjera. Bayesian se oko toga, recimo, bori već više od pola stoljeća.
@suncoolsu Žao mi je, ali ne razumijem vaš odgovor. Ili je P vrijednost vjerojatnost da nije, a P vrijednosti i intervali pouzdanosti odražavaju se na podacima iz kojih su generirani ili ne. Izbor paradigme određuje ispravnu opciju.
@Michael Oprostite ako nisam bio dovoljno jasan. Sve što sam želio reći: P-vrijednost je vjerojatnost SAMO kada je null istina, ali najčešće je null _NOT_ true (kao u: nikad ne očekujemo da je $ \ mu = 0 $ istinito; pretpostavljamo istina, ali naša je pretpostavka praktički netočna.) U slučaju da vas zanima, mogu istaknuti literaturu koja detaljnije raspravlja o ovoj ideji.
@Michael Evo još jednog načina da se kaže gornji odlomak: Pod pretpostavkom da želimo odgovoriti na relevantna pitanja - poput procjene hipoteze njezinom stražnjom vjerojatnosti, koja odgovara "s obzirom na promatrane podatke, koja je vjerojatnost da je ta hipoteza istinita?" (to je ono što većinu vremena želimo raditi u znanosti), za razliku od frekventističke p-vrijednosti, koja odgovara na pitanje "ako je ta hipoteza istinita (što možda i nije), koja je vjerojatnost promatranja još više ekstremni podaci (koje nismo)? " (izmijenjeni oblik izjave dr. Wolperta)
p-vrijednosti su vjerojatnosti, točnije hipotetičke vjerojatnosti (ako je nulska hipoteza istinita).Dakle, zasigurno su to vjerojatnost / učestalost počinjenja pogreške tipa I, što se tiče hipotetskog (uvjetnog) slučaja da je $ H_0 $ istina.Zapravo, kada $ H_0 $ nije * nije * točno, tada će vjerojatnosti za promatranje podataka koji prelaze granicu za koje odbacujemo $ H_0 $ biti različite.Ovo pravilo broj 1 to ne objašnjava baš najbolje.
#10
+18
probabilityislogic
2011-01-16 19:48:54 UTC
view on stackexchange narkive permalink

Uvijek se zapitajte "što ti rezultati znače i kako će se koristiti?"

Obično je svrha upotrebe statistike pomoć u donošenju odluka u neizvjesnosti. Stoga je važno imati pred očima "Koje će se odluke donijeti kao rezultat ove analize i kako će ova analiza utjecati na te odluke?" (npr. objavite članak, preporučite upotrebu nove metode, osigurajte X financijskim sredstvima za Y, uzmite više podataka, prijavite procijenjenu količinu kao E itd. itd.)

Ako ne osjećate da treba donijeti bilo kakvu odluku, onda se čovjek pita zašto uopće radite analizu (jer je analiza prilično skupa). Statistiku smatram "smetnjom" jer je sredstvo za postizanje cilja, a ne sam cilj. Po mom mišljenju, mi samo kvantificiramo nesigurnost kako bismo to mogli koristiti za donošenje odluka kojima se ta nesigurnost precizno obračunava.

Mislim da je to jedan od razloga zašto je držanje jednostavnih stvari dobra politika općenito, jer je obično puno jednostavnije povezati jednostavno rješenje sa stvarnim svijetom (a time i okolinom u kojoj se donosi odluka) nego složenim rješenjem. Također je obično lakše razumjeti ograničenja jednostavnog odgovora. Zatim prelazite na složenija rješenja kada shvatite ograničenja jednostavnog rješenja i kako se složeno rješava s njima.

Slažem se sa svime, osim s pojmom da stvari budu jednostavne. Za mene bi jednostavnost ili složenost trebala biti funkcija cijene nepravilne odluke koju ste rječito objasnili. Jednostavnost može imati zanemarive troškove na jednom području (npr. Posluživanje pogrešnog oglasa kupcu), a na drugom krajnje različite troškove (administriranje pogrešnog liječenja pacijentu).
#11
+13
pmgjones
2010-09-17 03:36:18 UTC
view on stackexchange narkive permalink

Za organizaciju / upravljanje podacima, osigurajte da kada generirate nove varijable u skupu podataka (na primjer, izračunavanje indeksa tjelesne mase iz visine i težine), izvorne varijable nikada se neće izbrisati. Nerazorni pristup je najbolji iz perspektive ponovljivosti. Nikad ne znate kada biste mogli pogrešno unijeti naredbu i nakon toga trebati ponoviti generiranje varijabli. Bez originalnih varijabli izgubit ćete puno vremena!

#12
+11
Jason Morgan
2011-04-10 19:26:46 UTC
view on stackexchange narkive permalink

Razmislite dobro o temeljnom procesu generiranja podataka (DGP). Ako model koji želite koristiti ne odražava DGP, morate pronaći novi model.

Kako znate, kako možete znati što je DGP.Na primjer, vodim vremenske serije u području u kojem još nisam vidio dobro razvijenu teoriju (zašto se javljaju određene vrste javne potrošnje).Mislim da u ovom slučaju nije moguće znati istinski proces.
#13
+8
doug
2010-09-19 00:49:38 UTC
view on stackexchange narkive permalink

Za histograme, dobro pravilo za broj spremnika u histogramu :

kvadratni korijen broja podatkovnih točaka

#14
+6
robin girard
2010-11-02 18:02:40 UTC
view on stackexchange narkive permalink

U problemu predviđanja (tj. kada trebate predvidjeti $ Y_ {t + h} $ s danim $ (Y_t, X_t) $ $ t>T $, uz upotrebu skupa za učenje $ (Y_1, X_1), \ dots, (Y_T, X_T) $), pravilo palca (koje treba obaviti prije bilo kakvog složenog modeliranja) su

  1. Klimatologija ($ Y_ {t + h} $ prognoza prema srednjoj promatranoj vrijednosti tijekom skupa učenja, moguće uklanjanjem očiglednih periodičnih obrazaca)
  2. Postojanost ($ Y_ {t + h} $ prognoza prema zadnjoj opaženoj vrijednosti: $ Y_t $).

Ono što sada često radim kao posljednje jednostavno mjerilo / pravilo palca je korištenje randomForest ($ Y_ {t + h} $ ~ $ Y_t + X_t $, data = learningSet) u R softver. Daje vam (s 2 retka koda u R) prvu ideju o tome što se može postići bez ikakvog modeliranja.

#15
+6
Nick Cox
2016-08-05 20:00:13 UTC
view on stackexchange narkive permalink

Unatoč sve većim skupovima podataka i moćnijem softveru, prekomjerno prilagođeni modeli glavna su opasnost za istraživače, posebno one koji još uvijek nisu izgorjeli prekomjernim uklapanjem. Prekomjerno uklapanje znači da ste ugradili nešto složenije od svojih podataka i stanja tehnike. Poput ljubavi ili ljepote, to je teško definirati, a kamoli formalno definirati, ali je lakše prepoznati.

Minimalno pravilo je 10 podatkovnih točaka za svaki parametar koji se procjenjuje za bilo što poput klasične regresije i pripazite na posljedice ako ga zanemarite. Za druge analize obično vam treba puno više da biste dobro odradili posao, posebno ako u podacima postoje rijetke kategorije.

Čak i ako model možete lako uklopiti, trebali biste se neprestano brinuti što to znači i koliko je ponovljiv čak i sa vrlo sličnim skupom podataka.

To se obično smatra pravilom za modele kod kojih je odgovor uvjetno normalan.U drugim je slučajevima previše liberalan.Na primjer, za binarnu klasifikaciju, odgovarajuće pravilo palca bilo bi 15 promatranja u rjeđoj kategoriji za svaku varijablu;& za analizu preživljavanja to bi bilo 10 * događaja * (tj. ne cenzurirani podaci) za svaku varijablu.
Slažem se.Uređivat ću, ali zašto ne biste objavili vlastito pravilo, zajedno s proširenim komentarima.
Trebali biste istaknuti zadnju rečenicu ** "Čak i ako model možete lako uklopiti, trebali biste se neprestano brinuti o tome što on znači i koliko je ponovljiv čak i sa vrlo sličnim skupom podataka." **
#16
+5
Andy
2013-06-17 23:33:36 UTC
view on stackexchange narkive permalink

U instrumentalnim varijablama regresija uvijek provjeravajte zajednički značaj vaših instrumenata. Osnovno pravilo Staiger-Stock kaže da je F-statistika manja od 10 zabrinjavajuća i ukazuje na to da su vaši instrumenti možda slabi, tj. Nisu u dovoljnoj korelaciji s endogenom varijablom. Međutim, to ne znači automatski da F iznad 10 jamči jake instrumente. Staiger i Stock (1997) pokazali su da tehnike instrumentalnih varijabli poput 2SLS-a mogu biti loše pristrane u "malim" uzorcima ako su instrumenti samo slabo povezani s endogenom varijablom. Njihov primjer bila je studija Angrista i Kruegera (1991.) koji su imali više od 300 000 promatranja - uznemirujuća činjenica o pojmu "malih" uzoraka.

Dodao sam vezu na članak, ali vjerujem da ovaj odgovor ipak treba neko daljnje formatiranje. Bilo mi je preteško naglasiti 'veliko pravilo' na temelju vrlo brzog skeniranja članka, a ovaj odgovor nije vrlo intuitivan.
#17
+5
Nick Cox
2016-08-05 20:04:59 UTC
view on stackexchange narkive permalink

Ako se model neće konvergirati lako i brzo, to bi mogla biti greška softvera. Međutim, puno je češće da vaši podaci nisu prikladni za model ili model nije prikladan za podatke. Bilo bi teško reći koji, a empiričari i teoretičari mogu imati različita gledišta. Ali predmetno razmišljanje, stvarno gledanje podataka i neprestano razmišljanje o interpretaciji modela pomažu koliko god može. Iznad svega, isprobajte jednostavniji model ako se složeni neće konvergirati.

Nema koristi od forsiranja konvergencije ili proglašenja pobjede i uzimanja rezultata nakon mnogih ponavljanja, ali prije nego što se vaš model zaista konvergirao. U najboljem slučaju zavaravate se ako to radite.

"stvarno gledamo podatke" bilo bi tako lijepo kad bismo dobili NN koji ovo radi umjesto nas.
Zvao se JWT.
#18
+3
Nick Cox
2016-08-05 20:09:14 UTC
view on stackexchange narkive permalink

Nema kriterija za odabir kriterija informacija.

Jednom kada netko kaže nešto poput "The? IC ukazuje na to, ali često se zna dati pogrešne rezultate" (gdje? je bilo koje slovo koje vam se sviđa), znate da ćete morati i razmislite o modelu, a posebno ima li znanstveni ili praktični smisao.

Nijedna algebra to vam ne može reći.

#19
+2
colorlace
2018-06-29 02:57:58 UTC
view on stackexchange narkive permalink

Negdje sam to pročitao (vjerojatno na unakrsnoj provjeri) i nigdje ga nisam uspio pronaći, pa evo ...

Ako ste otkrili zanimljiv rezultat, to je vjerojatno pogrešno.

Vrlo je lako uzbuditi se zbog nevjerojatne p-vrijednosti ili gotovo savršene pogreške unakrsne provjere valjanosti.Osobno sam ekstatično predstavio nevjerojatne (lažne) rezultate kolegama samo da bih ih morao povući.Najčešće, ako izgleda predobro da bi bilo istinito ...

'taint true.»Uopće je istina.

#20
+2
Jørgen Hilden
2019-04-13 02:13:31 UTC
view on stackexchange narkive permalink

TPokušajte biti hrabriji, a ne vrli To jest, ne dopustite da vam sitni znakovi nenormalnosti, nesamostalnosti ili nelinearnosti itd. blokiraju put ako takve indikacije treba zanemariti kako bi podaci mogli govoritijasno i glasno. - U danskom su riječi "dristig" i "dydig" pridjevi.

#21
+1
Alexis
2019-04-13 02:39:33 UTC
view on stackexchange narkive permalink

WAnalizirajući longitudinalne podatke, provjerite jesu li varijable kodirane na isti način u svakom vremenskom razdoblju.

Tijekom pisanja moje disertacije, koja je podrazumijevala analizu sekundarnih podataka, dogodio se tjedan ili nešto potpunog zbunjivanja pomaka od 1 jedinice u srednjim rezultatima depresije u inače stabilnom prosjeku po godini: pokazalo se da je jedan odgodine u mom skupu podataka, stavke ljestvice za validirani instrument bile su kodirane 1–4 umjesto 0–3.

#22
+1
Alexis
2019-04-13 02:45:52 UTC
view on stackexchange narkive permalink

Vaša hipoteza trebala bi pokrenuti vaš odabir modela, a ne obrnuto.

Da parafraziram Maslowa, ako ste čekić, sve izgleda kao čavao.Određeni modeli dolaze s zaslonkama i pretpostavkama o svijetu koji je ugrađen odmah: na primjer nedinamični modeli guše se povratnim informacijama o ishodu liječenja.

#23
+1
Alexis
2019-04-13 02:50:24 UTC
view on stackexchange narkive permalink

USimulacijom provjerite gdje struktura vašeg modela možda stvara "rezultate" koji su jednostavno matematički artefakti pretpostavki vašeg modela

Izvršite svoju analizu na randomiziranim varijablama ili na simuliranim varijablama poznato kako biste međusobno nekorelirali.Učinite to više puta i usporedite prosječne procjene bodova (i pouzdanost ili vjerodostojne intervale) s rezultatima koje dobijete na stvarnim podacima: jesu li sve te razlike?

#24
  0
user54285
2019-04-13 03:15:09 UTC
view on stackexchange narkive permalink

Ja sam analitičar podataka, a ne statističar, ali ovo su moji prijedlozi.

1) Prije analize podataka provjerite jesu li pretpostavke vaše metode točne. Jednom kad vidite rezultate, teško ih je zaboraviti čak i nakon što riješite probleme i rezultati se promijene.

2) Pomaže vam znati svoje podatke. Vodio sam vremenske serije i postigao rezultat koji nije imao smisla s obzirom na podatke iz posljednjih godina. Pregledao sam metode u svjetlu toga i otkrio da prosjek modela u metodi iskrivljuje rezultate za jedno razdoblje (i došlo je do strukturnog loma).

3) Budite oprezni u vezi s palim pravilima. Oni odražavaju iskustva pojedinih istraživača iz vlastitih podataka i ako se njihovo područje jako razlikuje od vašeg, njihovi zaključci možda neće biti točni za vaše podatke. Štoviše, i to je za mene bio šok, statističari se često ne slažu u ključnim točkama.

4) Pokušajte analizirati podatke različitim metodama i provjeriti jesu li rezultati slični. Shvatite da nijedna metoda nije savršena i budite oprezni i provjerite možete li kršiti pretpostavke.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 2.0 licenci pod kojom se distribuira.
Loading...