Pitanje:
Praktična razmišljanja o objašnjavajućem i prediktivnom modeliranju
wahalulu
2010-08-04 01:19:57 UTC
view on stackexchange narkive permalink

Još u travnju prisustvovao sam predavanju na seminaru grupe statistika Odjela za matematiku Odjela za matematiku pod nazivom "Objasniti ili predvidjeti?". Govor je održao prof. Galit Shmueli koja predaje na UMD-ovoj poslovnoj školi Smith. Njezin se govor temeljio na istraživanju koje je provela u radu pod naslovom "Prediktivno nasuprot objašnjavajućem modeliranju u istraživanju IS-a" i na radnom radu pod naslovom "Objasniti ili predvidjeti?".

Dr. Shmuelijev argument je da su se pojmovi prediktivni i objašnjivi u kontekstu statističkog modeliranja međusobno povezali i da statističkoj literaturi nedostaje temeljita rasprava o razlikama. U radu ona suprotstavlja oboje i govori o njihovim praktičnim implikacijama. Potičem vas da pročitate novine.

Pitanja koja bih želio postaviti zajednici praktičara su:

  • Kako definirate prediktivnu vježbu u odnosu na objašnjenje / opisno lice? Bilo bi korisno kada biste mogli razgovarati o određenoj primjeni.
  • Jeste li ikad upali u zamku korištenja jednog kad mislite koristiti drugog? Svakako jesam. Kako znati koji koristiti?
Predlaže se da ovo pitanje bude zatvoreno. Vidi: http://meta.stats.stackexchange.com/questions/213/list-of-candidate-questions-to-be-closed Vidim da ima 2 glasa. Bi li birači ili OP mogli komentirati zašto bi željeli da pitanje ostane otvoreno na meta niti?
Umjesto da kažete "ovo bi trebalo zatvoriti. Netko bi to trebao braniti", a da počnete s objašnjenjem zašto želite da se zatvori. Previše nejasno? Zatim zatražite pojašnjenje. Ovo mi se čini razumnim pitanjem. Osoba koja postavlja pitanje predstavlja rad i pita je li razlika između predviđanja i objašnjenja statistike. Jedina promjena koju bih napravio u pitanju je da razjasnim točno pitanje čime olakšam glasanje.
Već sam ponudio razlog na meta niti. Osjećam da bi 'meta rasprave' o tom pitanju pretrpale ovu stranicu.
@Srikant @JD Pojačat ću pitanje. Hvala na povratnoj informaciji. Mislim da je ovo tema koja zaslužuje raspravu.
Vaše bi pitanje bilo dobro za zajednicu kada biste, umjesto da nam kažete svoj život, mogli definirati što je (prema vama) prediktivni model i model objašnjenja. Mislim da lijepe rasprave počinju s jasnim definicijama ...
Možete li ovdje postaviti pitanje? Je li pitanje je li papir ispravan?
@srikant čini se da ne razumijete prirodu komentara pod pitanjima. Oni su, po definiciji, meta. Oni nisu odgovori. Nisu pitanja. Oni su meta. Imati konvenciju na kojoj komentari postaju pokazivač na metarazgovore na nekom drugom mjestu je rasipno i glupo.
@JD Možda. Ali, kako bi se dobila kontrola nad postupkom zatvaranja pitanja, ovom je pitanju posvećena meta nit. Ako ne spomenem činjenicu da se ovo pitanje predlaže da se zatvori, zajednica neće dobiti priliku reći hoće li ostati otvorena ili ne. Još jedno pitanje je razmotriti osobu koja se spotakne o ovo pitanje u dalekoj budućnosti. Sva ova rasprava o tome trebamo li i zašto držati pitanje otvorenim pomalo je nevažna. Smatram da komentare treba koristiti za razjašnjavanje pitanja, a ne za raspravu o njegovoj meritumu.
@srikant. To je artikulirano rečeno i jasno. Ova rasprava vjerojatno pripada području Meta, međutim, budući da nije specifična za gornje pitanje. :) da, ok, to je bio pomalo bezvezni komentar ... Nisam mogao odoljeti! Dobro ste istakli. Mislim da se možemo složiti da je @wahalulu trebao razjasniti svoje pitanje. Mislim da se kreće u dobrom smjeru.
Vrlo produktivno pitanje, s obzirom na to da ga tretiramo kao jedno bez točnog odgovora.
@rolando2 Iako dijelovi ovoga pozivaju niz odgovora, srž pitanja traži razliku između vježbe "predviđanja" i "objašnjenja / opisivanja". To potencijalno ima objektivno točan odgovor. CW ne izgleda kao prikladan izbor za ovo pitanje.
Ovo je pitanje jako povezano s pitanjem testova značajnosti nakon odabira modela na temelju generalizacije. Vidi: http: //stats.stackexchange.com/q/17825/6961
mogući duplikat [Praktičnih razmišljanja o objašnjavajućem i prediktivnom modeliranju] (http://stats.stackexchange.com/questions/18896/practical- Thoughts-on-explanatory-vs-predictive-modeling)
Čini mi se da se ovdje i ispod objašnjenje i opis pogrešno koriste kao sinonimi.Pročitajte moje komentare u nastavku na odgovor prof. Shmueli.
šesnaest odgovori:
#1
+40
probabilityislogic
2011-11-26 15:15:58 UTC
view on stackexchange narkive permalink

U jednoj rečenici

Prediktivno modeliranje podrazumijeva "što će se vjerojatno dogoditi?", dok se objašnjavajuće modeliranje tiče "što možemo učiniti s tim?"

U mnogim rečenicama

Mislim da je glavna razlika u tome što se želi učiniti s analizom. Predložio bih da je objašnjenje mnogo važnije za intervenciju od predviđanja. Ako želite učiniti nešto kako biste promijenili ishod, najbolje bi bilo objasniti zašto je takav kakav je. Objašnjavajuće modeliranje, ako se dobro izvede, reći će vam kako intervenirati (koji ulaz treba prilagoditi). Međutim, ako jednostavno želite shvatiti kakva će biti budućnost, bez ikakve namjere (ili mogućnosti) da intervenira, tada je vjerojatnije da će prediktivno modeliranje biti prikladno.

Kao nevjerojatno labav primjer, koristeći " podaci o raku ".

Prediktivno modeliranje pomoću" podataka o raku "bilo bi prikladno (ili barem korisno) ako financirate odjele za rak u različitim bolnicama. Ne morate zapravo objašnjavati zašto ljudi obolijevaju od raka, već vam treba samo točna procjena koliko će usluga biti potrebno. Objašnjenje modeliranja ovdje vjerojatno ne bi puno pomoglo. Na primjer, saznanje da pušenje dovodi do većeg rizika od raka samo po sebi vam ne govori treba li dati više sredstava odjelu A ili odjelu B.

Objašnjenje modeliranja "podataka o raku" bilo bi prikladno ako željeli ste smanjiti nacionalnu stopu raka - ovdje bi prediktivno modeliranje bilo prilično zastarjelo. Sposobnost preciznog predviđanja stope raka teško da će vam pomoći da odlučite kako ga smanjiti. Međutim, saznanje da pušenje dovodi do većeg rizika od raka dragocjena je informacija - jer ako smanjite stopu pušenja (npr. Skupljim cigaretama), to dovodi do više ljudi s manjim rizikom, što (nadamo se) dovodi do očekivanog smanjenja raka stope.

Gledajući problem na ovaj način, smatrao bih da bi se objašnjavajuće modeliranje uglavnom usredotočilo na varijable koje kontroliraju korisnika, bilo izravno ili neizravno. Možda će trebati prikupiti druge varijable, ali ako ne možete promijeniti niti jednu varijablu u analizi, sumnjam da će objašnjavajuće modeliranje biti korisno, osim možda da vam pruži želju za stjecanjem kontrole ili utjecaja na te varijable koji su važni. Prediktivno modeliranje, grubo, samo traži povezanost između varijabli, bez obzira kontrolira li ih korisnik ili ne. Trebate znati samo ulaze / značajke / neovisne varijable / itd .. da biste napravili predviđanje, ali trebate biti u mogućnosti modificirati ili utjecati na ulaze / značajke / neovisne varijable / itd .. kako biste intervenirali i promijenili ishod .

+1, lijepo odrađeno! Mrzim prevara, ali želim napomenuti da predviđanje ne mora biti u budućnosti. Na primjer, arheolog će možda željeti odrediti (tj. Predvidjeti) razinu kiše na nekom području u prošlosti određenim znanjem o tragovima (tj. Učincima kiše) koji su preostali.
@gung - Mislio sam da sam sročio svoj odgovor da se to ne dogodi. Jasno, propustio sam mjesto :-)
Lijep odgovor.Mislim da u mnogim slučajevima moramo znati kako izgleda budućnost i zašto.Pretpostavimo da prilikom proučavanja odbijanja kupaca želite znati koliko kupaca (i točno koji kupac) odbija sljedećih N mjeseci i zašto onda odbijaju kako bi marketing mogao intervenirati da ih zadrži.Tada nam trebaju i prediktivni (da bismo saznali budući broj i kupce) i objašnjenja kako bi nam rekli zašto, kako bismo mogli smanjiti radnike.Dakle, imamo li hibridni model oba ili je jedan dovoljan?Varty se dotiče rekavši "Poznata veza može proizaći iz objašnjavajuće / opisne analize ili neke druge tehnike"
@gung Volim * gnjaviti: arheolog želi predvidjeti iskustva u * njezinoj budućnosti (tj. Predvidjeti gdje će u nekom trenutku u budućnosti pronaći tragove prošlih velikih kiša).
@Alexis, to je sigurno moguće, ali također je moguće da to nije primarni interes arheologa za istraživanje, i da su te podatke već prikupili drugi istraživači (paleoklimatolozi) i arheolog jednostavno želi koristiti te podatke za testiranje teorija koje su im primarneteoretski interes ([Gill, 200] (https://www.worldcat.org/title/great-maya-droughts-water-life-and-death/oclc/43567384)).
#2
+31
varty
2011-11-26 01:23:50 UTC
view on stackexchange narkive permalink

Po mom mišljenju razlike su sljedeće:

Objašnjenje / Opisno

Kada se traži objašnjenje / opisni odgovor, primarni fokus je na podaci koje imamo i nastojimo otkriti temeljne odnose između podataka nakon što je uračunat šum.

Primjer: Je li istina da redovito vježbanje (recimo 30 minuta dnevno) dovodi do za snižavanje krvnog tlaka? Da bismo odgovorili na ovo pitanje, s vremenom možemo prikupljati podatke od pacijenata o njihovom režimu vježbanja i vrijednostima krvnog tlaka. Cilj je vidjeti možemo li objasniti varijacije krvnog tlaka varijacijama u režimu vježbanja.

Na krvni tlak utječu ne samo široki spektar drugih čimbenika, već i takvih kao količinu natrija koju osoba pojede itd. Ti bi se drugi čimbenici u gornjem primjeru smatrali bukom jer je fokus na iscrpljivanju odnosa između režima vježbanja i krvnog tlaka.

Predviđanje jako >

Kada radimo prediktivnu vježbu, ekstrapoliramo se u nepoznato koristeći poznate odnose između podataka koji su nam pri ruci. Poznati odnos može proizaći iz objašnjenja / opisne analize ili neke druge tehnike.

Primjer: Ako vježbam 1 sat dnevno, u kojoj mjeri vjerovatno pada moj krvni tlak? Da bismo odgovorili na ovo pitanje, možemo koristiti prethodno otkriveni odnos između krvnog tlaka i režima vježbanja kako bismo izvršili predviđanje.

U gornjem kontekstu, fokus nije na objašnjenju, iako objašnjavajući model može pomoći u postupak predviđanja. Postoje i neobjašnjivi pristupi (npr. Neuronske mreže) koji su dobri u predviđanju nepoznatog, a da nam nužno ne dodaju znanje o prirodi temeljnog odnosa između varijabli.

+1 Ovaj odgovor uglavnom izbjegava zbunjivanje povezanosti s uzročno-posljedičnom povezanošću korištenjem jezika objašnjenja, opisa i odnosa. To mu daje poželjni stupanj jasnoće.
Pod Objašnjenjem ste napisali "primarni fokus je na podacima koje imamo" - mislim da pokušavate reći da je zadatak retrospektivan (za razliku od prospektivne prirode predviđanja). U objašnjenju (pročitajte "uzročno objašnjenje") zapravo je velik fokus na teoriji i znanju domene, a podaci se koriste za testiranje tih pretpostavki / teorija. Suprotno tome, u predviđanju se više temelji na podacima i vi ste otvoreniji prema odnosima, jer ne tražite uzročnost, već korelaciju.
@GalitShmueli Reg teorija / znanje o domeni - da, slažem se s tom točkom. Jednostavno sam pokušavao suprotstaviti predviđanje u odnosu na objašnjenje usredotočujući se na ono što mi se čini ključnom razlikom - ekstrapoliranje vrijednosti varijable nasuprot otkrivanju odnosa između varijabli. U tom procesu, naravno, kriv sam za zanemarivanje suptilnih nijansi između dviju paradigmi.
@varty Slažem se s vašom tvrdnjom: u objašnjenju / opisu vas zanima ukupni / prosječni odnos / učinak, dok vas u predviđanju zanima predviđanje pojedinačnih vrijednosti (ne nužno ekstrapolacija)
#3
+19
Rob Hyndman
2010-08-04 04:36:09 UTC
view on stackexchange narkive permalink

Jedno praktično pitanje koje se ovdje postavlja jest odabir varijabli u modeliranju. Varijabla može biti važna objašnjavajuća varijabla (npr., Statistički je značajna), ali možda neće biti korisna u prediktivne svrhe (tj. Njezino uključivanje u model dovodi do lošije točnosti predviđanja). Ovu pogrešku vidim gotovo svakodnevno u objavljenim radovima.

Druga je razlika u razlici između analize glavnih komponenata i faktorske analize. PCA se često koristi u predviđanju, ali nije toliko koristan za objašnjenje. FA uključuje dodatni korak rotacije koji se čini radi poboljšanja interpretacije (a time i objašnjenja). Danas postoji lijep post na blogu Galita Shmuelija o tome.

Ažuriranje: pojavljuje se treći slučaj u vremenskim serijama kada varijabla može biti važna objašnjavajuća varijabla, ali to jednostavno nije ' dostupno za budućnost. Na primjer, stambeni zajmovi mogu biti usko povezani s BDP-om, ali to nije od velike koristi za predviđanje budućih zajmova za stanovanje, osim ako također imamo dobre prognoze BDP-a.

Zašto / kako bi važna objašnjavajuća varijabla smanjila točnost predviđanja?
@Srikant. To se može dogoditi kada varijabla objašnjenja ima slab, ali značajan odnos s varijablom odgovora. Tada koeficijent može biti statistički značajan, ali ga je teško procijeniti. Slijedom toga, MSE predviđanja može se povećati kad je varijabla uključena u odnosu na to kada je izostavljena. (Pristranost se smanjuje njegovim uključivanjem, ali se odstupanje povećava.)
Prvi je odlomak vrlo, vrlo dobra stvar. Ipak je ponekad čak i gore; ovdje je PMID: 18052912 sjajan primjer da se ponekad može napraviti bolji model na dijelu šuma nego na istinskom - očito je da se može napraviti dobar model na slučajnim podacima, ali ovo je pomalo šokantno .
oprostite na nesmotrenosti, ali nije li rotacija normalno dio PCA-e kao i FA?
Statistički sig. ali slabi prediktor rijetko je učinkovit ni za predviđanje ni za objašnjenje. Npr., Ako rješenje linearne regresije ima RSQ od .40 bez uključivanja prediktora X1, a ako uključivanje X1 doda .01 tom RSQ, tada X1 nije "važan" ni za predviđanje ni za objašnjenje.
Što se tiče vašeg prvog stavka, to možete pokazati na primjeru - srednja kvadratna pogreška predviđanja obično se sastoji od dva dijela - nesigurnost procjene parametra i neobjašnjiva nesigurnost varijacije. Za OLS regresiju ove su komponente date kao $ s ^ 2x_i ^ T (X ^ TX) ^ {- 1} x_i $ (parametar) i $ s ^ 2 $ (neobjašnjeno). Ovdje je $ s ^ 2 $ procijenjena varijanca u rezidualima, a $ X $ matrica dizajna koja se koristi za uklapanje u model, a $ x_i $ je vektor regresora za predviđanja.
@rolando2 - ovo može biti istina za kvalitetu predviđanja, ali uključivanje nove varijable može uvelike utjecati na sama predviđanja.
@probabilityislogic - Možete li proširiti tu temu? hvala.
Iznad, kad sam napisao "'važno' ni za predviđanje ni za objašnjenje", zanemario sam slučaj u kojem je važna uzročna varijabla gotovo potpuno predvidljiva na temelju niza drugih, manje uzročnih varijabli.
@rolando2 - moja poanta je bila da uključivanje X1 može dovesti do različitih predviđanja. Dakle, možda imate $ | \ hat {y} _ {X1} - \ hat {y} _ {ne X1} | >> 0 $. Dakle, iako očekujemo da će obje predviđanja biti slične udaljenosti od "istinske vrijednosti" (od sličnih $ R ^ 2 $), ne očekujemo da će biti blizu jedna drugoj. Uz to, ako imate $ 1000 $ podatkovnih točaka, tada povećanje $ R ^ 2 $ sa 0,4 $ na 0,41 $ znači vrlo značajan prediktor ("konzervativni" BIC je za 10 $ manje jedinica pod velikim modelom ili Bayesov faktor od oko 20000 USD) $ u korist većeg modela).
@probabilityislogic - hvala na vašim dodatnim bodovima. Mene više pogađa prva, koja uključuje različite sadržajne zaključke o predviđenim vrijednostima, nego druga koja se odnosi na stat. sig. radije nego išta bitno, ako to ispravno čitam.
#4
+17
Galit Shmueli
2011-11-26 10:50:32 UTC
view on stackexchange narkive permalink

Iako je nekim ljudima najlakše razmišljati o razlikama u smislu modela / algoritma koji se koristi (npr. neuronske mreže = prediktivni), to je samo jedan određeni aspekt razlike u objašnjenju / predviđanju. Evo palube slajdova koje koristim na svom tečaju rudarenja podataka kako bih podučavao linearnu regresiju iz oba kuta. Čak i samo s linearnom regresijom i sa ovim malenim primjerom pojavljuju se različiti problemi koji dovode do različitih modela za objašnjenje i predviđanje ciljeva (izbor varijabli, odabir varijabli, mjere izvedbe, itd.)

Galit

Iz znatiželje, je li namjerno da u svojoj raspravi o regresiji za predviđanje (počevši od str. 33) odaberete prediktore (korak 1) * prije nego što podjelite u skupove podataka o obuci i provjeri valjanosti (korak 3)? Smatrao sam da bi najobjektivniji i najiskreniji postupak bio razdvajanje na samom početku, čak i prije nego što se pogledaju raspršene parcele (korak 2). Ako se regresori odaberu na temelju cijelog skupa podataka, ne bi li to napuhalo prividne razine značajnosti na mnogim testovima, čak i kad se naknadno primijene na podatke o provjeri?
Mislim da je općenitije pitanje izvodite li vizualizaciju podataka prije zadržavanja. Kad je skup podataka velik, onda to zapravo nije važno. S malim uzorkom upotreba vizualizacije za odabir prediktora doista je opasna. U svojim dijapozitivima ne mislim na korištenje vizualizacije za odabir varijabli. "Odabir prediktora" općenito je "odabir potencijalnog skupa dostupnih prediktora koji su razumni". Više se radi o uključivanju znanja o domeni za odabir razumnog skupa.
Nastavljajući temu "Objasniti ili predvidjeti", imam povezano pitanje [ovdje] (http://stats.stackexchange.com/questions/177391/paradox-in-model-selection-aic-bic-to-explain-ili-za-predvidjeti).Bilo bi mi drago da pogledate, jer se pitanje uglavnom temelji na vašem radu.
Profesore Shmueli, na stranici 291 svog rada o ovoj temi kažete da razmatrate samo ‘nestohastično predviđanje’ kako ga je definirao Geisser, 1993. Gdje bih otišao da pronađem punu definiciju nestohastičnog predviđanja?Drago mi je što sam započeo i novi post, ali pomislio sam da ću prvo pitati ovdje.
@GalitShmueli, Profesore, vaš mi je članak bio vrlo koristan.Po mom mišljenju, to je osvijetlilo nekoliko nejasnih stavova o statističkim modelima i alatima, prije svega regresiji.Hvala!Međutim, ovdje postoji točka koja mi nije jasna.Vaš je članak usredotočen na objašnjavajuće modele, zamišljene kao uzročni i prediktivni.Spominjete samo treću vrstu modela, deskriptive: "Iako nije fokus ovog članka, treća vrsta modeliranja, koju statističari najčešće koriste i razvijaju, je opisno modeliranje."pag 291.
Međutim, u dijapozitivima koje ste ovdje podijelili objašnjenje i opis izgleda kao sinonim.Zašto? Štoviše, pročitao sam još jedan niz vaših slajdova u kojem se tri koncepta jasno razlikuju.Ovdje sam napisao povezano pitanje (https://stats.stackexchange.com/questions/464261/regression-causation-vs-prediction-vs-description) vaši bi komentari bili vrlo zahvalni.
@markowitz - hvala vam što ste me upozorili na ovu temu.Evo nedavne palube slajdova koja razlikuje objašnjenje / predviđanje / opis, a posebno ćete vidjeti primjer regresije.https://www.slideshare.net/gshmueli/to-explain-to-predict-or-to-describe
@GalitShmueli, Hvala što ste ovdje podijelili one nedavne špilove slajdova.Međutim, već sam ih pročitao, također iz tog razloga bio sam uvjeren da objašnjenje i opis nisu sinonimi.Štoviše, još uvijek sumnjam u ulogu opisa u regresiji.Kao što sam već rekao u svom prethodnom komentaru (s vezom), napisao sam pitanje o ovome.Vaši prijedlozi o tome bili bi vrlo zahvalni.
#5
+11
Jeromy Anglim
2010-08-04 11:16:41 UTC
view on stackexchange narkive permalink

Primjer: Klasičan primjer koji sam vidio je u kontekstu predviđanja ljudske izvedbe. Samoefikasnost (tj. stupanj do kojeg osoba misli da može dobro izvršiti zadatak) je često snažni prediktor izvršavanja zadatka. Stoga, ako samoefikasnost stavite u višestruku regresiju zajedno s drugim varijablama kao što su inteligencija i stupanj prethodnog iskustva, često otkrijete da je samoefikasnost snažni prediktor.

To je neke istraživače dovelo do sugeriraju da samoefikasnost uzrokuje izvođenje zadatka. A da su učinkovite intervencije one koje se usredotočuju na povećanje osjećaja samoefikasnosti kod osobe.

Međutim, alternativni teorijski model samoefikasnost uglavnom vidi kao posljedicu izvršavanja zadatka. Tj. Ako ste dobri, znat ćete. U ovom okviru intervencije bi se trebale usredotočiti na povećanje stvarne kompetencije, a ne percepcije kompetencije.

Dakle, uključivanje varijable poput samoefikasnosti moglo bi povećati predviđanje, ali pod pretpostavkom da usvojite model samoefikasnosti kao posljedice, ne bi trebao biti uključen kao prediktor ako je cilj modela rasvijetliti uzročno-posljedične procese koji utječu na uspješnost.

Ovo naravno postavlja pitanje kako razviti i potvrditi kauzalni teorijski model. Ovo se očito oslanja na više studija, idealno uz određenu eksperimentalnu manipulaciju, i koherentan argument o dinamičkim procesima.

Proksimalno u odnosu na distalno : Vidio sam slična pitanja kada istraživače zanimaju učinci distalnih i proksimalnih uzroka. Proksimalni uzroci teže predvidjeti bolje od distalnih uzroka. Međutim, teoretski interes može biti razumijevanje načina na koji djeluju distalni i proksimalni uzroci.

Pitanje varijabilnog odabira : Konačno, veliko je pitanje u istraživanjima društvenih znanosti pitanje varijabilnog odabira .U bilo kojoj studiji postoji beskonačan broj varijabli koje su se mogle izmjeriti ali nisu bili. Dakle, tumačenje modela mora uzeti u obzir implikacije ovoga prilikom izrade teorijskih interpretacija.

U društvenoj znanosti također postoji problem "slabe hipoteze" (npr. Učinak je pozitivan nasuprot negativnom). I u tom primjeru "samoefikasnosti" mogli biste to promatrati kao unutarnji prediktor učinka koji je stvorila svaka osoba. Dakle, vjerojatno je slično korištenju predviđanja "crnog okvira" kao objašnjavajuće varijable.
#6
+9
Nikita Zhiltsov
2011-11-27 03:03:37 UTC
view on stackexchange narkive permalink

Statističko modeliranje: dvije kulture (2001.) L. Breimana možda je najbolji članak u ovom pogledu. Njegovi su glavni zaključci (vidi također odgovore drugih istaknutih statističara na kraju dokumenta) sljedeći:

  • "Veća točnost predviđanja povezana je s pouzdanijim informacijama o temeljnom mehanizmu podataka. Slaba točnost predviđanja može dovesti do neupitnih zaključaka. "
  • " Algoritamski modeli mogu pružiti bolju točnost predviđanja od modela podataka i pružiti bolje informacije o temeljnom mehanizmu. "
Samo da povežem s ranijim povezanim pitanjem: [Dvije kulture: statistika naspram strojnog učenja?] (Http://stats.stackexchange.com/q/6/930)
Problem algoritamskih modela je taj što ih je teško razumjeti. To otežava dijagnozu i rješavanje potencijalnih problema koji se pojave. Strukturni model mnogo je lakše procijeniti jer znate kako bi svaka komponenta trebala izgledati.
#7
+8
John Myles White
2010-08-04 01:39:20 UTC
view on stackexchange narkive permalink

Nisam pročitao njezino djelo izvan sažetka povezanog rada, ali moj je smisao da bi razliku između "objašnjenja" i "predviđanja" trebalo baciti i zamijeniti razlikom između ciljeva praktičara, koji su ili "uzročni" ili "prediktivni". Općenito, mislim da je "objašnjenje" toliko neodređena riječ da ne znači gotovo ništa. Na primjer, je li Hookeov zakon objašnjen ili prediktivan? S druge strane spektra, jesu li predvidljivo precizni sustavi preporuka dobri uzročni modeli eksplicitnih ocjena predmeta? Mislim da svi dijelimo intuiciju da je cilj znanosti objašnjenje, dok je cilj tehnologije predviđanje; i ta se intuicija nekako gubi uzimajući u obzir alate koje koristimo, poput nadziranih algoritama učenja, koji se mogu koristiti i za uzročno zaključivanje i za prediktivno modeliranje, ali zapravo su čisto matematički uređaji koji nisu suštinski povezani s "predviđanjem" ili "objašnjenjem" .

Kad sam sve to rekao, možda je jedina riječ koju bih primijenio na model razumljiva. Regresije se obično mogu protumačiti; neuronske mreže s mnogo slojeva često nisu takve. Mislim da ljudi ponekad naivno pretpostavljaju da model koji se može interpretirati pruža uzročno-posljedične informacije, dok neinterpretabilni modeli daju samo predviđajuće informacije. Čini mi se da je ovaj stav jednostavno zbunjen.

#8
+7
user28
2010-08-04 02:32:41 UTC
view on stackexchange narkive permalink

Još uvijek mi je pomalo nejasno što je pitanje. Kad sam to rekao, po meni je temeljna razlika između prediktivnih i objašnjavajućih modela razlika u njihovom fokusu.

Objašnjeni modeli

Po definiciji objašnjavajući modeli imaju kao njihov primarni fokus cilj objasniti nešto u stvarnom svijetu. U većini slučajeva nastojimo ponuditi jednostavna i čista objašnjenja. Pod jednostavnim mislim da više volimo štednju (objasnite pojave sa što manje parametara), a pod čistim mislim da bismo željeli dati izjave sljedećeg oblika: "učinak promjene $ x $ za jednu jedinicu mijenja $ y $ by $ \ beta $ držeći sve ostalo konstantno ". S obzirom na ove ciljeve jednostavnih i jasnih objašnjenja, objašnjavajući modeli nastoje kažnjavati složene modele (primjenom odgovarajućih kriterija kao što je AIC) i radije dobivaju ortogonalne neovisne varijable (bilo kontroliranim eksperimentima ili putem prikladnih transformacija podataka).

Prediktivni modeli

Cilj prediktivnih modela je predvidjeti nešto. Stoga se imaju tendenciju usredotočiti manje na štedljivost ili jednostavnost, već više na svoju sposobnost predviđanja ovisne varijable.

Međutim, gore navedeno donekle je umjetna razlika jer se objašnjavajući modeli mogu koristiti za predviđanje, a ponekad prediktivni modeli mogu nešto objasniti.

+1 za spominjanje ** složenosti ** koja nije izravno navedena u odgovorima. Međutim, izazov se pojavljuje kada se za intervencije koriste objašnjavajući modeli. Kako osigurati da procijenjeni koeficijenti nisu pristrani, što je čest problem koji proizlazi iz štednje?
#9
+5
Shane
2010-08-04 02:30:22 UTC
view on stackexchange narkive permalink

kao što su drugi već rekli, razlika je pomalo besmislena, osim što se tiče ciljeva istraživača.

Brad Efron, jedan od komentatora rada Dvije kulture, iznio je sljedeće zapažanje (o čemu je raspravljalo u mom ranijem pitanju):

Predviđanje samo po sebi dovoljno je samo povremeno. Pošta je zadovoljna bilo kojom metodom koja predviđa točne adrese iz ručno napisanih škrabanja. Peter Gregory poduzeo je svoje istraživanje u svrhu predviđanja, ali i radi boljeg razumijevanja medicinske osnove hepatitisa. Većina statističkih istraživanja ima za krajnji cilj identifikaciju uzročnih čimbenika.

Određena područja (npr. Medicina) daju veliku težinu uklapanju modela kao objašnjavajući postupak (distribucija, itd.), kao sredstvo za razumijevanje temeljnog procesa koji generira podatke. Druga se područja time manje bave i bit će sretni s modelom "crne kutije" koji ima vrlo visok predviđajući uspjeh. To također može ući u proces izrade modela.

#10
+5
gung - Reinstate Monica
2011-11-26 09:23:21 UTC
view on stackexchange narkive permalink

S poštovanjem, ovo bi pitanje moglo biti bolje usredotočeno. Jesu li ljudi ikad koristili jedan izraz kad je drugi bio primjereniji? Da naravno. Ponekad je to dovoljno jasno iz konteksta ili ne želite biti pedantni. Ponekad su ljudi samo traljavi ili lijeni u svojoj terminologiji. To vrijedi za mnoge ljude, a ja sigurno nisam ništa bolji.

Ono što ovdje ima potencijalnu vrijednost (raspravljajući o objašnjenju i predviđanju na životopisu) jest razjasniti razliku između dva pristupa. Ukratko, razlika se usredotočuje na ulogu uzročnosti . Ako želite razumjeti neku dinamiku u svijetu i objasniti zašto se nešto događa onako kako se događa, morate prepoznati uzročno-posljedične veze među relevantnim varijablama. Da biste predvidjeli, možete zanemariti uzročnost. Na primjer, možete predvidjeti učinak iz znanja o njegovom uzroku; postojanje uzroka možete predvidjeti na osnovu saznanja da se učinak dogodio; a približnu razinu jednog učinka možete predvidjeti znanjem drugog učinka koji je vođen istim uzrokom. Zašto bi netko želio biti u mogućnosti to učiniti? Da povećaju svoje znanje o tome što bi se moglo dogoditi u budućnosti, kako bi mogli planirati u skladu s tim. Na primjer, odbor za uvjetni otpust možda želi predvidjeti vjerojatnost da će osuđenik dobiti povrat ako bude uvjetno otpušten. Međutim, to nije dovoljno za objašnjenje. Naravno, procjena stvarne uzročno-posljedične veze između dvije varijable može biti izuzetno teška. Uz to, modeli koji zapravo bilježe (ono što se smatra) stvarni uzročni odnosi često su gori za predviđanje. Pa zašto onda to učiniti? Prvo, većina se toga radi u znanosti, gdje se razumijevanje traži samo za sebe. Drugo, ako možemo pouzdano odabrati prave uzroke i ako razvijemo sposobnost utjecaja na njih, možemo izvršiti određeni utjecaj na posljedice.

Što se tiče strategije statističkog modeliranja, nema velike razlike. Prvenstveno je razlika u tome kako provesti studiju. Ako je vaš cilj biti u mogućnosti predvidjeti, saznajte koje će informacije biti dostupne korisnicima modela kada će trebati prognozirati. Podaci kojima neće imati pristup ne vrijede. Ako će najvjerojatnije željeti moći predvidjeti na određenoj razini (ili unutar uskog raspona) prediktora, pokušajte usredsrediti uzorkovani raspon prediktora na tu razinu i tamo preuzorkovati. Na primjer, ako će odbor za uvjetni otpust uglavnom željeti znati o kriminalcima s dvije glavne osuđujuće presude, možda ćete prikupiti informacije o kriminalcima s 1, 2 i 3 osuđujuće presude. S druge strane, procjena uzročnog statusa varijable u osnovi zahtijeva eksperiment. Odnosno, eksperimentalne jedinice trebaju se nasumično dodijeliti unaprijed određenim razinama objašnjavajućih varijabli. Ako postoji zabrinutost je li priroda uzročno-posljedičnog učinka ovisna o nekoj drugoj varijabli, ta varijabla mora biti uključena u eksperiment. Ako nije moguće provesti istinski eksperiment, onda se suočavate s puno težom situacijom, koja je prekomplicirana da bi se ovdje moglo ući.

Pitam se o ulozi uzročnosti. Na primjer, pretpostavimo da imamo skup dimenzija i volumena skupa blokova, $ (x, y, z, v) $, i modeliramo njihovu povezanost regresiranjem $ z $ na $ (x, y, v ) $ (i njihove interakcije). U kojem smislu se može reći da dvije dimenzije i volumen "uzrokuju" treću dimenziju? Stoga se čini da se razlika između objašnjenja i predviđanja temelji na nečem bitno različitom; naime, * svrha * analize. Što se tiče vašeg posljednjeg odlomka, na ovoj stranici postoji mnogo računa koji svjedoče o oštrim razlikama u strategiji.
U pravu si, ovo ovisi o svrsi studije. Pretpostavljam da to nisam jasno objasnio (govorio sam samo o onome što * želite * postići). Tačno je i da se objašnjenje ne mora baviti točno kauzalnošću - odgovara i nešto analogno kauzalnosti (npr. Slučaj dimenzija - volumen je logičke / matematičke implikacije). Međutim, većina objašnjavajućih modela modelira kauzalnost; Pretpostavljam da sam mislio da bih zbog jednostavnosti mogao preskočiti takve stvari. Napokon, strategija se razlikuje tijekom dizajna studije i prikupljanja podataka, ali regresiranje y na x gotovo je isto.
Hvala na odgovoru. Iz drugih razmjena na ovom mjestu naučio sam razumjeti univerzalne izjave poput "većine centara za objašnjavanje uzročnosti" koji odražavaju spisateljsko porijeklo i iskustvo, a ne kao doslovno istinite. U fizičkim i "tvrdim" znanostima ova je izjava možda točna, ali u društvenim i "mekim" znanostima sumnjam da bi praktičari dali tako snažnu tvrdnju. Često se, zapravo, vjeruje da odnosi koji se proučavaju imaju zajedničke skrivene uzroke, ali ne odražavaju izravnu uzročno-posljedičnu vezu između regresora i regresije i.
@whuber sigurno je istina da na moje ideje utječe moje podrijetlo i iskustvo. Ako ovaj odgovor nije koristan (primjećujem da nije dobio nijedan glas), mogu ga izbrisati. Brojni su drugi dali odgovore koji pokrivaju ideje koje sam htio prenijeti.
@whuber - dobar primjer meke uzročnosti je "pušenje uzrokuje rak" - iako sam siguran da biste mogli pronaći lančanog pušača koji nema rak. Pojam uzročnosti međusobno je povezan s vremenom događaja. Uzrok se mora dogoditi prije učinka - što objašnjava zašto primjer kocke nema smisla.
#11
+4
Brett
2011-11-30 00:22:57 UTC
view on stackexchange narkive permalink

Većina odgovora pomogla je razjasniti što su modeliranje za objašnjenje i modeliranje za predviđanje i zašto se razlikuju. Ono što zasad nije jasno jest kako se razlikuju. Pa sam mislio da ću ponuditi primjer koji bi mogao biti koristan.

Pretpostavimo da nas zanima modeliranje GPA kao funkcije akademske pripreme. Kao mjere akademske pripreme imamo:

  1. rezultate provjere sposobnosti;
  2. HS GPA; i
  3. Broj položenih AP testova.

Strategija predviđanja

Ako je cilj predviđanje, mogao bih koristiti sve ove varijable istovremeno u linearnom modelu, a moja bi primarna briga bila predviđanje točnosti. Koja god se varijabla pokaže najkorisnijom za predviđanje srednjoškolskog uspjeha, bit će uključena u konačni model.

Strategija za objašnjenje

Ako je cilj objašnjenje, možda bih se više brinuo o smanjenju podataka i dobro razmislio o korelaciji među neovisnim varijablama. Moja primarna briga bila bi interpretacija koeficijenata.

Primjer

U tipičnom multivarijantnom problemu s koreliranim prediktorima, ne bi bilo rijetko promatrati regresijske koeficijente koji su "neočekivani". S obzirom na međusobne odnose među neovisnim varijablama, ne bi bilo iznenađujuće vidjeti djelomične koeficijente za neke od tih varijabli koji nisu u istom smjeru kao njihovi odnosi nultog reda i koji se mogu činiti kontra intuitivnima i teško objašnjivima.

Na primjer, pretpostavimo da model sugerira da su (uzimajući u obzir ocjene provjere sposobnosti i broj uspješno završenih testova AP) više srednjoškolske ocjene povezane s nižim srednjoškolskim ocjenama. To nije problem za predviđanje, ali stvara probleme za model objašnjenja gdje je takav odnos teško protumačiti . Ovaj model može pružiti najbolje predviđanja iz uzorka, ali nam malo pomaže da shvatimo odnos između akademske pripreme i GPA-a.

Umjesto toga, strategija objašnjenja može tražiti neki oblik smanjenja varijabli, kao što je glavni komponente, faktorska analiza ili SEM za:

  1. fokusiranje na varijablu koja je najbolje mjerilo "akademske izvedbe" i modeliranje GPA na toj varijabli; ili
  2. koristiti faktorske ocjene / latentne varijable izvedene iz kombinacije triju mjera akademske pripreme, a ne izvornih varijabli.

Strategije poput ove mogu smanjiti prediktivnu snagu model, ali oni mogu dati bolje razumijevanje povezanosti akademske pripreme s GPA

Što se tiče kontra-intuitivnog znaka, pitam se je li to zato što vaša intuicija tumači pogrešnu bivarijantu - poput glavnog efekta kao da je ugniježđen ili efekt interakcije.
#12
+3
Lionel Henry
2012-10-16 14:05:15 UTC
view on stackexchange narkive permalink

Želio bih ponuditi pogled na stvar usredotočen na model.

Prediktivno modeliranje je ono što se događa u većini analiza. Na primjer, aresearcher postavlja regresijski model s hrpom prediktora. Tada koeficijenti agresije predstavljaju prediktivnu usporedbu među skupinama. Prediktivni aspekt dolazi iz modela vjerojatnosti: zaključivanje se vrši s obzirom na model superpopulacije koji je mogao proizvesti promatranu populaciju ili uzorak. Svrha ovog modela je predvidjeti nove ishode za jedinice nastale iz ove superpopulacije. To je često uzaludan cilj jer se stvari uvijek mijenjaju, posebno u društvenom svijetu. Ili zato što se vaš model odnosi na rijetke jedinice poput zemalja i ne možete izvući vijesti. Korisnost modela u ovom je slučaju prepuštena procjeni analitičara.

Kad pokušate generalizirati rezultate na druge skupine ili buduće jedinice, to je još uvijek predviđanje, ali druge vrste. Možemo to nazvati predviđanjem, na primjer. Ključno je što su predviđeni potencijali procijenjenih modela prema zadanim postavkama opisne prirode. Usporedite ishod među skupinama i pretpostavite model vjerojatnosti za ove usporedbe, ali ne možete zaključiti da ove usporedbe predstavljaju uzročne posljedice.

Razlog je taj što ove skupine mogu patiti od pristranosti odabira . Odnosno, oni mogu prirodno imati viši rezultat u ishodu od interesa, bez obzira na liječenje (hipotetska uzročna intervencija). Ili mogu biti podvrgnuti različitom učinku liječenja u odnosu na druge skupine. Zbog toga se, posebno za podatke o promatranju, procijenjeni modeli uglavnom odnose na prediktivne usporedbe , a ne na objašnjenja. Objašnjenje se odnosi na identifikaciju i procjenu uzročnog učinka i zahtijeva dobro osmišljene eksperimente ili promišljenu uporabu instrumentalnih varijabli. U tom su slučaju prediktivne usporedbe izrezane iz bilo kojeg odabira i predstavljaju uzročne posljedice. Model se stoga može smatrati objašnjenje.

Otkrio sam da je razmišljanje u ovim terminima često pojašnjavalo što sam zapravo radio prilikom postavljanja modela za neke podatke.

+1, ovdje postoje dobre informacije. Bio bih oprezan s obzirom na izjavu "Prediktivno modeliranje je ono što se događa u većini analiza". Hoće li prediktivno modeliranje biti češće ili ne, razlikovat će se ovisno o disciplini, itd. Pretpostavljam da bi većina modeliranja u akademskim krugovima bila objašnjenja i da bi se puno modeliranja / pretraživanja podataka radilo u privatnom sektoru (npr. Identificirati potencijalne ponovljene kupce). je prediktivno. Lako bih mogao pogriješiti, ali bit će teško reći, a priori, što se događa većinu vremena.
Pa, po mom mišljenju, većina modeliranja podataka promatranja je prediktivna, čak iako je cilj objašnjiv. Ako ne randomizirate atribuciju tretmana i zapravo ne inducirate promjenu u eksperimentalnom okruženju, vaši regresijski koeficijenti imat će samo opisnu vrijednost, tj. Oni samo pružaju sredstva za prediktivne usporedbe. Na primjer, možete predvidjeti uspjeh u školi na temelju demografskih karakteristika, ali to ne znači da su ovi demografski uzroci objašnjenja. Razlog je taj što su usporedna predviđanja izložena pristranosti odabira.
#13
+1
Guest with A thought
2014-09-03 00:22:27 UTC
view on stackexchange narkive permalink

Iz "prediktivnih" modela crne kutije možemo naučiti puno više nego što mislimo. Ključ je u izvođenju različitih vrsta analiza i simulacija osjetljivosti kako bi se doista razumjelo kako promjene na IZLAZNOM PROSTORU utječu na model IZLAZ. U tom smislu čak i čisto prediktivni model može pružiti objašnjenja. To je točka koju istraživačka zajednica često previdi ili pogrešno shvati. Samo zato što ne razumijemo zašto algoritam radi, ne znači da algoritmu nedostaje objašnjenja ...

Sve u svemu, s glavnoga gledišta, jezgroviti odgovor Probabilityislogica apsolutno je točan ...

Nejasno je koji se "uvidi za objašnjenje" mogu dobiti na ovaj način, ako pod tim izrazom podrazumijevate uzročnost.
#14
+1
Aksakal
2017-09-01 17:22:45 UTC
view on stackexchange narkive permalink

U statistici postoji razlika između onoga što ona naziva objašnjavajućom i prediktivnom aplikacijom. Kaže da bismo trebali znati svaki put kad koristimo jedno ili drugo koji se točno koristi. Kaže da ih često miješamo, otuda sukob .

Slažem se da je u aplikacijama social science razlika razumna, ali u prirodnim znanostima jesu i trebaju biti iste. Također, ja ih nazivam zaključivanjem nasuprot predviđanju i slažem se da ih se u socijalnim znanostima ne smije miješati.

Počet ću s prirodnim znanostima. U fizici smo usredotočeni na objašnjavanje, pokušavamo razumjeti kako svijet funkcionira, što uzrokuje što itd. Dakle, fokus je na uzročnosti, zaključivanju i slično. S druge strane, prediktivni aspekt također je dio znanstvenog procesa. Zapravo, način na koji dokazujete teoriju, koja je već dobro objasnila opažanja (sjetite se uzorka), jest predviđanje novih opažanja, a zatim provjeravanje funkcioniranja predviđanja. Svaka teorija kojoj nedostaju prediktivne sposobnosti imat će velike probleme s prihvaćanjem fizike. Zbog toga su eksperimenti poput Michelson-Morley-a toliko važni.

U društvenim znanostima, nažalost, temeljni su fenomeni nestabilni, neponovljivi, ne reproducirani.Ako gledate kako se jezgre raspadaju, dobit ćete iste rezultate svaki put kad ih promatrate, te iste rezultate kao i ja ili čovjek prije sto godina.Ne u ekonomiji ili financijama.Također, sposobnost provođenja eksperimenata vrlo je ograničena, gotovo da je i nema u sve praktične svrhe, mi samo promatramo i provodimo slučajne uzorke promatranja.Mogu nastaviti, ali ideja je da su pojave s kojima se suočavamo vrlo nestabilne, stoga naše teorije nisu iste kvalitete kao u fizici.Stoga je jedan od načina na koji rješavamo situaciju fokusiranje na zaključivanje (kada pokušavate razumjeti što uzrokuje što ili na što utječe) ili predviđanje (samo recite što mislite da će se dogoditi s onim ili onim, zanemarujući strukturu)./ p>

#15
  0
Brijesh
2017-09-01 17:00:10 UTC
view on stackexchange narkive permalink

Strukturni model dao bi objašnjenje, a prediktivni model predviđanje.Strukturni model imao bi latentne varijable.Strukturni model istodobna je kulminacija regresije i faktorske analize

Latentne varijable očituju se u obliku višekolinearnosti u prediktivnim modelima (regresija).

#16
-1
Poidah
2020-01-10 09:10:33 UTC
view on stackexchange narkive permalink

Objašnjavajući model također se koristi u medicini i na zdravstvenom području, sa vrlo različitim značenjem.U osnovi ono što ljudi imaju kao unutarnja uvjerenja ili značenja mogu se sasvim razlikovati od prihvaćenih objašnjenja.Na primjer, religiozna osoba može imati model objašnjenja da je bolest posljedica kažnjavanja ili karme zbog prošlog ponašanja, uz prihvaćanje i bioloških razloga.

https://thehealthcareblog.com/blog/2013/06/11/the-patient-explanatory-model/

https://pdfs.semanticscholar.org/0b69/ffd5cc4c7bb2f401be6819c946a955344880.pdf

Možete li, molim vas, dati barem sažetak onoga što se može naći na ovim poveznicama?- inače ovo je više komentar nego odgovor.
Nisam mislila da će ljudi biti zainteresirani.Budući da je ovo prilično matematička skupina.Stoga sam svoj odgovor držao ograničenim.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 2.0 licenci pod kojom se distribuira.
Loading...