Pitanje:
Koji su 'veliki problemi' u statistici?
raegtin
2010-09-05 09:16:30 UTC
view on stackexchange narkive permalink

Matematika ima svoje poznate Milenijske probleme (i, povijesno gledano, Hilbertove 23), pitanja koja su pomogla oblikovanju smjera polja.

Ipak, nemam pojma koje bi bile Riemannove hipoteze i P naspram NP-a.

Dakle, koja su sveobuhvatna otvorena pitanja u statistici?

Uređeno da dodam: Kao primjer općeg duha (ako ne sasvim specifičnosti) odgovora kojeg tražim, pronašao sam predavanje Davida Donohoa nadahnuto "Hilbertovim 23" u "Matematičkim izazovima 21. stoljeća" "konferencija: Analiza podataka visoke dimenzije: Prokletstva i blagoslovi dimenzionalnosti

Dakle, potencijalni odgovor mogao bi govoriti o velikim podacima i zašto je to važno, vrstama statističkih izazova dimenzionalne poze podataka i metode koje treba razviti ili pitanja na koja treba odgovoriti kako bi se pomoglo u rješavanju problema.

Hvala vam što ste ovo objavili. To je važna (i potencijalno nadahnjujuća) rasprava.
Sedam odgovori:
#1
+48
whuber
2010-09-06 22:27:02 UTC
view on stackexchange narkive permalink

Veliko pitanje trebalo bi uključivati ​​ključna pitanja statističke metodologije ili, budući da se statistika u potpunosti odnosi na aplikacije, trebalo bi se ticati kako se statistika koristi s problemima važnim za društvo.

Ovo karakterizacija sugerira da bi u svako razmatranje velikih problema trebalo uključiti sljedeće:

  • Kako najbolje provesti ispitivanja droga . Trenutno klasično ispitivanje hipoteza zahtijeva mnoge formalne faze proučavanja. U kasnijim (potvrdnim) fazama ekonomska i etička pitanja postaju velika. Možemo li bolje? Moramo li na primjer stotine ili tisuće oboljelih staviti u kontrolne skupine i zadržati ih tamo do kraja studije, ili možemo pronaći bolje načine za identificiranje tretmana koji stvarno djeluju i isporučiti ih članovima ispitivanja (i drugi) prije?

  • Suočavanje s pristranosti znanstvenih publikacija . Negativni rezultati objavljuju se mnogo manje jednostavno jer jednostavno ne postižu magičnu p-vrijednost. Sve grane znanosti trebaju pronaći bolje načine kako znanstveno važne, ne samo statistički značajne rezultate iznijeti na vidjelo. (Problem višestruke usporedbe i suočavanje s visokodimenzionalnim podacima potkategorije su ovog problema.)

  • Ispitivanje granica statističkih metoda i njihove sučelja s strojnim učenjem i strojnom spoznajom . Neizbježan napredak u računalnoj tehnologiji učinit će istinsku umjetnu inteligenciju dostupnom u našem životu. Kako ćemo programirati umjetni mozak? Kakvu bi ulogu statističko razmišljanje i statističko učenje mogli imati u stvaranju ovog napretka? Kako statističari mogu pomoći u razmišljanju o umjetnoj spoznaji, umjetnom učenju, istraživanju njihovih ograničenja i napretku?

  • Razvoj boljih načina za analizu geoprostornih podataka . Često se tvrdi da većina ili velika većina baza podataka sadrži lokacijske reference. Uskoro će se mnogi ljudi i uređaji locirati u stvarnom vremenu s GPS-om i tehnologijama mobitela. Statističke metode za analizu i iskorištavanje prostornih podataka zapravo su tek u povojima (i čini se da su preusmjerene na GIS i prostorni softver koji obično koriste nestatisti).

Koji su načini na koje ljudi pokušavaju riješiti ove probleme?
@grautur: To su četiri izvrsna pitanja (plus još mnoga, jer se vaš odgovor odnosi na svaki odgovor u ovoj temi). Svi oni zaslužuju složene odgovore, ali očito ovdje nema mjesta za to: jedno po jedno pitanje, molim!
Što se tiče prvog metka (ispitivanja droga): čak i ljudi koji inače ne bi bili zainteresirani za medicinsko eksperimentiranje trebali bi pročitati članak NYTimesa * Novi lijekovi miješaju raspravu o osnovnim pravilima kliničkih ispitivanja * (http://www.nytimes.com/2010/ 09/19 / health / research / 19trial.html? Pagewanted = 1 & _r = 1 & th & emc = th). Statistički pismeni čitatelj odmah će vidjeti neskazane implikacije na eksperimentalni dizajn i korištenje p-vrijednosti za donošenje odluka. Negdje postoji statistička razlučivost zagonetke života i smrti opisane u ovom članku.
#2
+26
raegtin
2011-07-03 03:03:50 UTC
view on stackexchange narkive permalink

Michael Jordan ima kratki članak pod nazivom Koji su otvoreni problemi u Bayesovoj statistici?, u kojem je ispitao hrpu statističara zbog njihovih stavova o otvorenim problemima u statistici. Ovdje ću malo sažeti (aka, kopiraj i zalijepi), ali vjerojatno je najbolje samo pročitati izvornik.

Neparametrijske i poluparametrijske

  • Za koje probleme je li Bayesova neparametrija korisna i vrijedi li se truditi?
  • David Dunson: "Neparametrijski Bayesovi modeli uključuju beskonačno mnogo parametara, a prioriteti se obično odabiru radi praktičnosti s hiperparametrima postavljenim na naizgled razumne vrijednosti bez odgovarajućeg objektivnog ili subjektivnog opravdanja."
  • "Nekoliko je ljudi primijetilo da je jedna od privlačnih primjena frekventističkih neparametarija poluparametrijsko zaključivanje, pri čemu je neparametrijska komponenta modela neugodan parametar. Ti su ljudi smatrali da bi bilo poželjno tijelo izbacivši (frekventističku) teoriju Bayesove poluparametrije. "

Priori

  • " Izvlačenje ostaje glavni izvor otvorenih problema. " > 'Aad van der Vaart okrenuo je objektivnog Bayesa glavom i ukazao na nedostatak teorije za "situacije u kojima netko želi da prior prođe straga ", za razliku od" pukog pružanja Bayesova pristupa izglađivanju ".

Bayesovski / frekventistički odnosi

  • "Mnogi su ispitanici izrazili želju za daljnjim iskorenjivanjem Bayesovih / frekventističkih odnosa. To se najčešće pokazalo u kontekstu visokodimenzionalnih modela i podataka, gdje ne samo da su subjektivni pristupi specificiranju prioriteta teški za primjenu, već i prioriteti iz praktičnosti mogu (vrlo) obmanjivati. "
  • 'Neki ispitanici su se zalagali za neasimptotsku teoriju koja bi mogla potpunije otkriti navodne prednosti Bayesovih metoda; npr. David Dunson: "Često se frekventistička optimalna stopa postiže postupcima koji u konačnim uzorcima očito idu puno gore od Bayesovih pristupa." '

Izračunavanje i statistika

  • Alan Gelfand: "Ako MCMC više nije održiv za probleme kojima se ljudi žele baviti, koja je uloga INLA, varijacijskih metoda, ABC pristupa? "
  • " Nekoliko ispitanika zatražilo je temeljitiju integraciju računalne znanosti i statističke znanosti, napominjući da je skup zaključaka do kojih se može doći u bilo kojoj situaciji zajednički funkcija modela, prethodnik, podaci i računski resursi i želeći eksplicitnije upravljanje kompromisima među tim količinama. Rob Kass doista je pokrenuo mogućnost pojma "inferencijalne rješivosti", gdje se za neke probleme smatra da su izvan nade (npr. , odabir modela u regresiji gdje je „za skromne količine podataka podložnih netrivijalnoj buci nemoguće dobiti korisne intervale pouzdanosti o regresijskim koeficijentima kada postoji velik broj varijabli čija prisutnost ili odsutnost u modelu nije unaprijed određena“) i gdje postoje i drugi problemi („određeni funkcionari za koje postoje korisni intervali povjerenja“) za koje ima nade. "
  • " Nekoliko ispitanika, dok su se ispričavali zbog određene nejasnoće, izrazilo je osjećaj da velika količina podataka ne podrazumijeva nužno veliku količinu izračunavanja; već da se nekako inferencijalna snaga prisutna u velikim podacima prenese na algoritam i omogući postizanje manjeg broja računskih koraka kako bi se postiglo zadovoljavajuće (približno) inferencijalno rješenje. "

Model Odabir i testiranje hipoteza

  • George Casella: "Sada radimo odabir modela, ali čini se da se Bayesovci ne brinu o svojstvima zasnivanja zaključka na odabranom modelu. Što ako nije u redu? Kakve su posljedice postavljanja vjerodostojnih regija za određeni parametar $ β_1 $ kada ste odabrali pogrešan model? Možemo li imati postupke s nekakvim jamstvom? "
  • Potreba za više rada na teoretskim osnovama u odabiru modela.
  • David Spiegelhalter: "Kako najbolje provjeriti postoje li prethodni sukobi / podaci sastavni dio Bayesove analize?"
  • Andrew Gelman: "Za provjeru modela, ključni otvoreni problem je razvijanje grafičkih alata za razumijevanje i usporedbu modela. Grafika nije samo za sirove podatke; složeni Bayesovi modeli daju priliku za bolju i učinkovitiju analizu istraživačkih podataka."
#3
+13
russellpierce
2010-09-06 00:19:03 UTC
view on stackexchange narkive permalink

Nisam siguran koliko su velike, ali postoji stranica Wikipedije za neriješene probleme u statistici. Njihov popis uključuje:

Zaključivanje i testiranje

  • Sustavne pogreške
  • Dostupnost Graybill-Deal procjenitelja
  • Kombiniranje ovisnih p-vrijednosti u metaanalizi
  • Behrens-Fisherov problem
  • Višestruke usporedbe
  • Otvoreni problemi u Bayesovoj statistici

Eksperimentalni dizajn

  • Problemi na latiničnim kvadratima

Problemi više filozofska priroda

  • Uzorkovanje problema vrsta
  • Argument Sudnjeg dana
  • Paradoks razmjene
#4
+6
raegtin
2010-09-05 10:23:26 UTC
view on stackexchange narkive permalink

Kao primjer općeg duha (ako ne sasvim specifičnosti) odgovora koji tražim, pronašao sam predavanje nadahnuto "Hilbertovim 23" Davida Donohoa na konferenciji "Matematički izazovi 21. stoljeća":

Analiza podataka visoke dimenzije: Prokletstva i blagoslovi dimenzionalnosti

Mogu li vam predložiti da uredite svoje glavno pitanje kako biste uključili ove podatke?
#5
+4
Robby McKilliam
2010-09-05 13:36:31 UTC
view on stackexchange narkive permalink

Mathoverflow ima slično pitanje o velikim problemima u teoriji vjerojatnosti.

Čini se da se s te stranice najveća pitanja odnose na samoizbjegavanje slučajnih šetnji i provlačenja.

Mislim da je statistika ipak odvojeno područje od teorije vjerojatnosti.
@raegtin - Mislim da teorija vjerojatnosti nije odvojena od statistike, već je teorija. "Statistika" je primjena teorije vjerojatnosti na inferencijalne probleme (tj. Praksu).
#6
+4
Charlie
2010-09-06 00:18:58 UTC
view on stackexchange narkive permalink

Možda biste pogledali Harvardov "Kolokvij o teškim problemima u društvenim znanostima održan početkom ove godine. Nekoliko ovih razgovora nudi probleme u korištenju statistike i modeliranju u društvenim znanostima. >

#7
+2
pmgjones
2010-09-05 16:43:36 UTC
view on stackexchange narkive permalink

Moj bi odgovor bio borba između frekventističke i Bayesove statistike. Kad vas ljudi pitaju u što "vjerujete", to nije dobro! Pogotovo za znanstvenu disciplinu.

Nema ništa loše u tome da znanstvenik "vjeruje" u nešto, pogotovo jer Bayesova vjerojatnost predstavlja stupanj vjerovanja ili znanja u vezi s istinitošću neke tvrdnje.
... Problem nastaje samo kada znanstvenik ne može razlikovati uvjerenje i činjenicu. Ne postoji ništa neznanstveno u uvjerenju da su Bayesova ili frekventistička statistika superiorne, jer ne postoji objektivni test koji može odlučiti o odgovoru (AFAIK), pa je izbor uglavnom subjektivan i / ili je stvar "konja za tečajeve".
@propofol - Slažem se da riječ "vjerovati" nije prikladan pojam za upotrebu u statistici - ona nosi pogrešne vrste konotacija. Mislim da je informacija puno prikladnija riječ (tj. "Koje informacije imate?"). To ne mijenja matematiku ili teoreme optimalnosti Bayesove analize, ali im daje njihovo pravilno značenje u smislu kako se zapravo koriste. npr. znanje o fizičkoj teoriji ili uzročnom mehanizmu je informacija, a ne vjerovanje.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 2.0 licenci pod kojom se distribuira.
Loading...