Pitanje:
Kompletni sadržajni primjeri ponovljivih istraživanja korištenjem R
Jeromy Anglim
2010-08-21 09:58:12 UTC
view on stackexchange narkive permalink

Pitanje: Postoje li dobri primjeri ponovljivog istraživanja pomoću R-a koji su besplatno dostupni na mreži?

Idealan primjer: Konkretno, idealni primjeri pružili bi:

  • neobrađene podatke (i idealno meta podatke koji objašnjavaju podatke),
  • sav R kod, uključujući uvoz podataka, obradu, analize , i generiranje izlaza,
  • Sweave ili neki drugi pristup povezivanju konačnog izlaza s konačnim dokumentom,
  • Sve u formatu koji se lako može preuzeti i kompilirati na računalu čitača.

U idealnom slučaju, primjer bi bio članak iz članka ili teza gdje je naglasak na stvarnoj primijenjenoj temi za razliku od primjera statističke nastave.

Razlozi zbog interesa: Posebno me zanimaju primijenjene teme u člancima i tezama, jer se u tim situacijama pojavljuje nekoliko dodatnih problema:

  • Pojavljuju se problemi vezani uz čišćenje i obradu podataka,
  • Problemi nastaju povezani za upravljanje metapodacima,
  • Časopisi i teze često imaju očekivanja stilskih vodiča u pogledu izgleda i oblikovanja tablica i slika,
  • Mnogi časopisi i teze često imaju širok spektar analiza koje pokreću pitanja u vezi s tijekom rada (tj. kako slijediti analize) i vremenom obrade (npr. pitanja predmemoriranja analiza, itd.).

Uvid u cjelovite primjere rada mogao bi pružiti dobar materijal za podučavanje istraživačima počevši ponovljivo istraživanje.

Petnaest odgovori:
#1
+15
Dirk Eddelbuettel
2010-08-21 19:03:04 UTC
view on stackexchange narkive permalink

Frank Harrell već puno, mnogo godina udara u bubanj o ponovljivim istraživanjima i izvješćima. Možete započeti na ovoj wiki stranici koja sadrži mnoštvo drugih izvora, uključujući objavljena istraživanja, a također pokriva stranicu Charlesa Geyera.

#2
+12
Spacedman
2011-07-28 13:08:34 UTC
view on stackexchange narkive permalink

Časopis Biostatistics ima pomoćnog urednika za reproduktivnost, a svi su njegovi članci označeni:

Ponovljivo istraživanje

Naša ponovljiva istraživačka politika je da radovi u časopisu budu označeni zmajevima D ako su podaci na kojima se temelje slobodno dostupni, C ako su autorski kodi slobodno dostupni i R ako su dostupni i podaci i kôd i naš suradnik urednik za reproduktivnost može ih koristiti za reprodukciju rezultata u radu. Podaci i kod objavljuju se elektroničkim putem na web mjestu časopisa kao dopunski materijali.

http://biostatistics.oxfordjournals.org/

Kako dobra ideja je da?

http://biostatistics.oxfordjournals.org/content/12/1/18.abstract dolazi s R paketom u dopunskim dokumentima koji čini analizu - još je nisam probao. Također, ne mogu saznati gdje je navedena ocjena otvorenosti. Šaljem suradniku urednika s nekim pitanjima ...

[uredi]

Roger Peng, suradnik urednika, kaže mi da vjerojatno ne postoji način za pronalaženje ponovljivih radova bez dobivanja PDF-a. Ukazao mi je na ovaj s lijepim velikim 'R' (što ne znači i R-ocijenjeno poput filmova) radi ponovljivosti:

http://biostatistics.oxfordjournals.org/ content / 10/3 / 409.abstract

Naravno, sam časopis nije besplatan ... #fail

Barry

sjajno je vidjeti časopis koji daje prednost reproduktivnosti. Jeste li vidjeli neke dobre primjere članaka s oznakom R?
Ne daju mu prioritet za objavljivanje, mislim da ga samo žele istaknuti. Uredit ću svoj odgovor na primjeru.
#3
+10
John D. Cook
2010-09-02 16:15:56 UTC
view on stackexchange narkive permalink

Nepovratnost NCI60 prediktora kemoterapije

Ovo je ponovljiva analiza koja pokazuje nedostatak ponovljivosti rada koji je bio u vijestima. Kliničko ispitivanje temeljeno na lažnim zaključcima neobnovljivog rada obustavljeno je, ponovno postavljeno, ponovno obustavljeno, ... To je dobar primjer ponovljive analize u vijestima.

#4
+10
Jake
2010-11-12 03:30:56 UTC
view on stackexchange narkive permalink

Imam nekoliko takvih primjera na stranici svojih istraživačkih radova. (Ne smijem objaviti više od jedne hiperveze kao novog člana. Stoga ću samo opisati radove na toj web lokaciji.)

(1) "Manificiranje efekata u randomiziranim eksperimentima" koristi R-vinjetu sustav.

(2) "Pripisivanje učinaka klasteru randomiziranoj kampanji za izlazak-na-glasanje" bio je složeniji rad koji je uključivao neke simulacije koje oduzimaju puno vremena. Koristili smo sustav zasnovan na Makefileu i postavili ga na Dataverse

(3) "EDA za HLM" bio je moj najraniji pokušaj. Ovdje sam samo stavio podatke i pridružene datoteke Sweave u tarball.

Jedan problem koji smo otkrili prilikom stvaranja naše JASA arhive bio je taj što su se promijenile verzije i zadane postavke CRAN paketa. Dakle, u tu arhivu uključujemo i verzije paketa koje smo koristili. Sustav zasnovan na vinjeti vjerojatno će se pokvariti dok ljudi mijenjaju svoje pakete (nisu sigurni kako uključiti dodatne pakete u paket koji je Kompendij).

Napokon, pitam se što učiniti kad se promijeni sam R. Postoje li načini za proizvodnju recimo virtualnog stroja koji reproducira cjelokupno računsko okruženje koje se koristi za papir tako da virtualni stroj nije ogroman?

U svakom slučaju, nadam se da ovi primjeri pomažu. Oni barem pokazuju neke moje vlastite eksperimente u ovom području.

(Evo nekoliko hiperveza u običnom tekstu.)

 [2]: http://jakebowers.org/manifesteffects- priručnik-kako.txt [3]: http://hdl.handle.net/1902.1/12174 [4]: ​​http://hdl.handle.net/1902.1/13376 
Postavljate nekoliko zanimljivih pitanja. Objavio sam odvojeno pitanje citirajući vas: http://stats.stackexchange.com/questions/4466/how-to-increase-longer-term-reproducibility-of-research-particularly-using-r-and
#5
+9
Jeromy Anglim
2010-11-11 12:22:29 UTC
view on stackexchange narkive permalink

Koenker i Zeileis pružaju web stranicu s relativno cjelovitim primjerom.Dijele:

  • Rnw (kôd tkanja)
  • R kôd analize
  • Završni PDF
  • Rasprava o problemima s kontrolom verzija
#6
+8
csgillespie
2010-08-22 02:59:56 UTC
view on stackexchange narkive permalink

Napisali smo rad u kojem smo objasnili kako koristiti R / Bioconductor pri analizi podataka mikro mikseta. Rad je napisan u Sweaveu i sav kôd korišten za generiranje grafova uključen je kao dopunski materijal.

Gillespie, CS, Lei, G., Boys, RJ, Greenall, AJ, Wilkinson, DJ, 2010. . Analiziranje podataka o mikrosremenom tijeku kvasca pomoću BioConductor: studija slučaja korištenjem kvasac2 niza Affymetrix BMC Research Notes, 3:81.

#7
+7
ars
2010-08-21 10:47:10 UTC
view on stackexchange narkive permalink

stranica Charlesa Geyera na Sweaveu ima primjer iz diplomskog rada koji udovoljava nekim vašim zahtjevima (neobrađeni podaci jednostavno su iz R paketa, ali R / sweave kôd i konačni PDF su dostupni ):

Članak o teoriji u tezi Yun Ju Sunga, Monte Carlo vjerojatnost zaključivanja za modele koji nedostaju (preprint) sadržao je računske primjere. Svaki broj u radu i svaka radnja preuzeti su (izrezati i zalijepiti, moram priznati) iz dokumenta "dopunskih materijala" izrađenog u Sweaveu.

( izvor datoteka povezana je u odjeljku "Dodatni materijali za papir".

Znam da sam naišao na barem jedan R primjer pregledavanja materijala ReproducibleResearch.net stranicu prije, ali nažalost nije ju označio.

#8
+5
Jeromy Anglim
2011-06-16 20:12:18 UTC
view on stackexchange narkive permalink

Simon Jackman ima posebno koristan primjer analize rezultata istraživanja: "Amerikanci i Australci 10 godina nakon 11. rujna". Ima više primjera integriranja tablica i slika.

Izradio je dokument Sweave i PDF izvještaj putem ovog posta na blogu.

Iako neobrađeni podaci nisu dostavljeni (koliko vidim), pa nije moguće pokrenuti stvarne primjere Sweavea, mislim da se pošteno može naučiti proučavanjem koda Sweave.

#9
+5
Jeromy Anglim
2011-07-28 12:11:43 UTC
view on stackexchange narkive permalink

Neil Saunders analizirao je mrežne interakcije povezane s konferencijom. Nekoliko svojstava koja je čine korisnim primjerom Sweavea uključuju:

  • Rnw datoteka je osigurana
  • Grafikoni se generiraju pomoću ggplot
  • Dobra veličina i lako razumljiva domena

Materijali su dostupni ovdje:

#10
+4
Shane
2010-08-21 12:15:44 UTC
view on stackexchange narkive permalink

U prošlosti sam pronašao dobre i objavit ću ih nakon što ih iskopam, ali nekoliko brzih općih prijedloga:

  1. Možda ćete moći pronaći neke zanimljive primjere pretraživanjem google-a s ključnim riječima i ext: rnw (koji će tražiti datoteke s nastavkom sweave). Evo primjera pretraživanja. Ovo je treći rezultat mog pretraživanja: http://www.ne.su.se/paper/araietal_source.Rnw. Evo još jednog primjera iz mog pretraživanja: http://www.stat.umn.edu/geyer/gdor/.
  2. Mnogi R paketi imaju zanimljive vinjete koje u osnovi predstavljaju isto. Primjer: https://r-forge.r-project.org/scm/viewvc.php/paper/maxLik.Rnw
#11
+4
user88
2010-08-21 12:30:48 UTC
view on stackexchange narkive permalink

Također pogledajte Journal Of Statistics Software; potiču izradu radova u Sweaveu.

Ne, nije formalno - podnošenje LaTeX-a ohrabruje, ali ako pogledate [stranicu s uputama] (http://www.jstatsoft.org/instructions), ona ne sadrži riječ Sweave. Autori ga koriste i / ili šalju R kod s papirom, ali meni ovo odjekuje Shaneovo mišljenje o vinjetama paketa.
Ok, još uvijek ga koristi većina prijavitelja (također stil časopisa uključuje Swave.sty); glavni je problem što nema objavljenih Rnws-a, i dalje radovi Sweavea dolaze sa Stangle izlazom.
#12
+4
Jeromy Anglim
2011-01-01 16:35:18 UTC
view on stackexchange narkive permalink

Robert Gentleman napisao je rad pod nazivom "Ponovljivo istraživanje: studija slučaja bioinformatike"

Primjenjuje kratki niz analiza kao R paket i koristi Sweave. Također se raspravlja općenito korištenje Sweavea.

Pogledajte odjeljak "Povezane datoteke" na stranici članka za arhivsku datoteku svih korištenih datoteka i mapa.

Referenca:

  • Gentleman, Robert (2005) "Ponovljiva istraživanja: studija slučaja bioinformatike", Statistička primjena u genetici i molekularnoj biologiji: sv. 4: Izd. 1, članak 2.
  • DOI: 10.2202 / 1544-6115.1034
  • Dostupno na: http://www.bepress.com/sagmb/vol4/iss1/art2
#13
+4
Tim
2011-08-31 06:51:26 UTC
view on stackexchange narkive permalink

http://genome.cshlp.org/content/early/2011/06/09/gr.117523.110/suppl/DC1

Lijep rad autora moj laborant. Naš je PI bio prilično zadovoljan kad je za ovo došlo nešto nalik na poštu obožavatelja. Sada sve publikacije iz grupe imaju dodatne metode izložene u LaTeX / Sweave. Neki od radova, također (ne mogu odlučiti hoću li moje zadržati u LyX / Sweave ili ih preklopiti, već samo dopune u Sweaveu).

#14
+3
zzr
2010-11-05 17:26:46 UTC
view on stackexchange narkive permalink

Traženje primjera i praksi dobar je način za učenje, ali samo sam htio napomenuti da reproducibilnost ima ne samo tehničku / skriptu, već i stil i strukturu koda, minimiziranje nuspojava u osnovnim funkcijama itd. I osobno otkrio da Chambers knjiga Softver za analizu podataka omogućuje dublje razumijevanje tehnika koje pomažu u izbjegavanju problema s pouzdanošću i ponovljivošću na razini R koda.

#15
+2
WojciechF
2017-03-23 19:00:50 UTC
view on stackexchange narkive permalink

ako vam i dalje treba izvrstan primjer potpuno PONOVLJIVE analize i PAPIRA, upotrijebite ovaj repo.

@jscamac je sjajno odradio učinivši svoju analizu reproduktivnom i ja sam je osobno potvrdio.

Možete se osloniti na upotrebu posebnih funkcija za R, poput paketa remake , kako biste osigurali ponovljivost.

Pazite / izračunavanje traje oko sat vremena.

Sav je skriptiran i na kraju proizvodi papir LaTeX sa slikama.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 2.0 licenci pod kojom se distribuira.
Loading...