Pitanje:
Postoji li razlog da se AIC ili BIC preferiraju u odnosu na druge?
russellpierce
2010-07-24 01:49:12 UTC
view on stackexchange narkive permalink

AIC i BIC su obje metode procjene uklapanja modela kažnjene za broj procijenjenih parametara. Koliko sam shvatio, BIC kažnjava modele više za slobodne parametre nego AIC. Postoje li neki drugi razlozi za preferiranje AIC-a nad BIC-om ili obrnuto, osim preferencija na temelju strogosti kriterija?

Mislim da je prikladnije ovu raspravu nazvati odabirom "značajke" ili "kovarijantnim" odabirom. Po meni je odabir modela mnogo širi, uključujući specifikaciju raspodjele pogrešaka, oblik funkcije veze i oblik kovarijacija. Kada govorimo o AIC / BIC, obično smo u situaciji kada su svi aspekti izrade modela fiksni, osim odabira kovarijacija.
Odluka o određenim kovarijantima da se uključe u model obično se podrazumijeva pod pojmom odabir modela, a u naslovu je niz knjiga s odabirom modela koje prvenstveno odlučuju koje će kovarijante / parametre modela uključiti u model.
Ne znam odnosi li se vaše pitanje konkretno na filogeniju (bioinformatiku), ali ako je tako, ova studija može dati neka razmišljanja o ovom aspektu: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2925852/
[Spojeno pitanje postavlja i pitanje o KIC-u] (https://stats.stackexchange.com/questions/15621/interpretation-of-aic-bic-and-kic?noredirect=1&lq=1), ažurirajte tekst pitanja i naveditedefinicija KIC-a, pref. s vezom.
Odbio sam uređivanje KIC-a jer se ne podudara s postojećim pitanjem i čini nepotpune postojeće odgovore.Pitanje o KIC-u može se otvoriti zasebno kako bi se KIC suprotstavilo AIC ili BIC.Pritom navedite i koji KIC (jer postoji nekoliko informacijskih kriterija koji odgovaraju na tu kraticu).
@russellpierce: Nisam taj OP, ali kao što ste vidjeli već je zatraženo (bez definicije KIC-a) i spojeno u ovo.Čak sam tražio i definicije KIC-a, ali nisam uspio pronaći dobru.Možete li barem neke ovdje povezati?
@smci Dodao sam https://stats.stackexchange.com/questions/383923/what-is-the-most-common-kic-how-does-it-work kako bih ljudima omogućio da istražuju pitanja vezana uz KIC akozainteresiran.
Dvanaest odgovori:
#1
+189
Dave Kellen
2010-07-27 17:31:57 UTC
view on stackexchange narkive permalink

Vaše pitanje podrazumijeva da AIC i BIC pokušavaju odgovoriti na isto pitanje, što nije istina. AIC pokušava odabrati model koji najadekvatnije opisuje nepoznatu, visokodimenzionalnu stvarnost. To znači da stvarnost nikada nije u nizu modela kandidata koji se razmatraju. Suprotno tome, BIC pokušava pronaći TRUE model među skupom kandidata. Čini mi se neobičnom pretpostavka da je stvarnost postavljena u jedan od modela koje su istraživači izgradili tijekom puta. Ovo je stvarno pitanje za BIC.

Ipak, postoji puno istraživača koji tvrde da je BIC bolji od AIC-a, koristeći simulacije oporavka modela kao argument. Te se simulacije sastoje od generiranja podataka iz modela A i B, a zatim uklapanja oba skupa podataka u dva modela. Prekomjerno prilagođavanje događa se kada pogrešni model bolje pristaje podacima nego generirajući. Poanta ovih simulacija je vidjeti koliko dobro AIC i BIC ispravljaju ove presvlake. Rezultati obično ukazuju na činjenicu da je AIC previše liberalan i još uvijek više voli složeniji, pogrešni model od jednostavnijeg, istinitog modela. Na prvi pogled čini se da su ove simulacije zaista dobri argumenti, ali problem s njima jest što su za AIC besmislene. Kao što sam već rekao, AIC ne smatra da je bilo koji od modela koji se testiraju zapravo istina. Prema AIC-u, svi modeli su aproksimacije stvarnosti i stvarnost nikada ne bi trebala imati nisku dimenziju. Barem niži od nekih modela kandidata.

Moja je preporuka koristiti i AIC i BIC. Većinom će se složiti oko preferiranog modela, a kad se ne, jednostavno ga prijavite.

Ako ste nezadovoljni i AIC-om i BIC-om i imate slobodnog vremena za ulaganje, potražite Minimalnu duljinu opisa (MDL), potpuno drugačiji pristup koji nadilazi ograničenja AIC-a i BIC-a. Iz MDL-a proizlazi nekoliko mjera, poput normalizirane maksimalne vjerojatnosti ili aproksimacije Fisherovih podataka. Problem MDL-a je taj što je matematički zahtjevan i / ili računski intenzivan.

Ipak, ako se želite držati jednostavnih rješenja, lijep način za procjenu fleksibilnosti modela (pogotovo kada je broj parametara jednak, čineći AIC i BIC beskorisnim) je parametarski Bootstrap, što je prilično jednostavno provoditi. Evo veze na rad na njemu.

Neki se ljudi ovdje zalažu za upotrebu unakrsne provjere valjanosti. Osobno sam ga koristio i nemam ništa protiv, ali problem je u tome što je pravilo za rezanje uzorka (izostaviti jedan, K-fold, itd.) Neprincipijelno.

Razlika se može sagledati čisto s matematičkog stajališta - BIC je izveden kao asimptotsko proširenje dnevnika P (podataka) gdje se uzorkuju istinski parametri modela prema proizvoljnom nigdje ne iščezavajućem prije, AIC je slično izveden s pravim parametrima koji su bili fiksni
Rekli ste da "postoji mnogo istraživača koji kažu da je BIC bolji od AIC-a, koristeći simulacije oporavka modela kao argument. Te se simulacije sastoje od generiranja podataka iz modela A i B, a zatim uklapanja oba skupa podataka s dva modela." Možete li biti ljubazni i uputiti neke reference. Znatiželjan sam prema njima! :)
Ne vjerujem izjavama u ovom postu.
Ne slažem se u potpunosti s Daveom posebno s obzirom na to da su ciljevi različiti. Mislim da obje metode nastoje pronaći dobar i u nekom smislu optimalan skup varijabli za model. Zaista u praksi nikad ne pretpostavljamo da možemo konstruirati "savršeni" model. Mislim da će u čisto vjerojatnom smislu, ako pretpostavimo da postoji "ispravan" model, BIC biti dosljedan, a AIC neće. Pod tim matematički statističari podrazumijevaju da će ga BIC s ​​porastom veličine uzorka pronaći s vjerojatnošću da iznosi 1.
Mislim da zato neki ljudi misle da AIC ne pruža dovoljno jaku kaznu.
(-1) Izvrsno objašnjenje, ali želio bih osporiti neku tvrdnju. @Dave Kellen Možete li, molim vas, dati referencu na to gdje ideja o TRUE modelu mora biti u setu za BIC? Volio bih istražiti ovo, jer u [ovoj knjizi] (http://books.google.es/books/about/Model_Selection_and_Multimodel_Inference.html?id=BQYR6js0CC8C&redir_esc=y) autori daju uvjerljiv dokaz da to nije slučaj.
Ovi slajdovi http://myweb.uiowa.edu/cavaaugh/ms_lec_2_ho.pdf kažu da AIC pretpostavlja da je generirajući model među nizom kandidacijskih modela.
rasprava o komentaru @gui11aume: http://stats.stackexchange.com/questions/205222/does-bic-try-to-find-a-true-model
Kada radite s dokazom AIC-a, da bi kazna bila jednaka broju linearno neovisnih parametara, mora vrijediti pravi model.Inače je jednako $ \ text {Trace} (J ^ {- 1} I) $ gdje je $ J $ varijansa rezultata, a $ I $ je očekivanje hesija vjerojatnosti dnevnika, s timočekivanja vrednovana prema istini, ali vjerojatnost dnevnika potječe od pogrešno određenog modela.Nisam siguran zašto mnogi izvori komentiraju da je AIC neovisan o istini.I ja sam imao takav dojam dok nisam zapravo proradio kroz izvođenje.
Izvrstan odgovor, ali snažno se ne slažem s tvrdnjom "stvarnost nikada ne bi trebala imati nisku dimenziju".To ovisi o tome na koju "znanost" primjenjujete yoru modele
#2
+83
John L. Taylor
2010-07-24 05:07:07 UTC
view on stackexchange narkive permalink

Iako su AIC i BIC procjena maksimalne vjerojatnosti pokretani i kažnjavaju slobodne parametre u nastojanju da se bore protiv prekomjerne opremljenosti, čine to na načine koji rezultiraju značajno različitim ponašanjem. Pogledajmo jednu uobičajeno predstavljenu verziju metoda (čiji rezultati oblikuju normalno distribuirane pogreške i druge pretpostavke koje se dobro ponašaju):

  • AIC = -2 * ln (vjerojatnost ) + 2 * k,

i

  • BIC = -2 * ln (vjerojatnost) + ln (N) * k,

gdje je:

  • k = model stupnjeva slobode
  • N = broj promatranja

Najbolji model u uspoređenoj grupi je onaj koji smanjuje ove rezultate, u oba slučaja. Jasno je da AIC ne ovisi izravno o veličini uzorka. Štoviše, općenito govoreći, AIC predstavlja opasnost da bi se mogao prekomjerno opremiti, dok BIC predstavlja opasnost da bi mogao biti nedovoljno zadovoljan, jednostavno na temelju načina na koji oni kažnjavaju slobodne parametre (2 * k u AIC; ln (N) * k u BIC). Dijakronično, kako se uvode podaci i preračunavaju bodovi, pri relativno niskom N (7 i manje) BIC je tolerantniji prema slobodnim parametrima od AIC, ali manje tolerantan pri višem N (jer prirodni log N prevladava 2).

Osim toga, AIC ima za cilj pronaći najbolji model približavanja nepoznatom procesu generisanja podataka (minimiziranjem očekivane procijenjene KL divergencije). Kao takav, ne uspijeva se konvergirati u vjerojatnosti s istinskim modelom (pod pretpostavkom da je jedan prisutan u procijenjenoj skupini), dok BIC konvergira dok N teži beskonačnosti.

Dakle, kao i u mnogim metodološkim pitanjima, koja je poželjno, ovisi o tome što pokušavate učiniti, koje su druge metode dostupne i hoće li neka od istaknutih značajki (konvergencija, relativna tolerancija za slobodne parametre, minimiziranje očekivane KL divergencije) odgovarati vašim ciljevima.

lijep odgovor. moguća alternativna primjena AIC-a i BIC-a je ta što AIC kaže da "lažni učinci" ne postaju lakši za otkrivanje s povećanjem veličine uzorka (ili da nas nije briga ulaze li lažni efekti u model), BIC kaže da jesu. Iz perspektive OLS-a može se vidjeti kao u Rafteryjevom radu iz 1994. godine, učinak postaje približno "značajan" (tj. Poželjan je veći model) u AIC-u ako je njegova t-statistika veća od $ | t |> \ sqrt {2} $, BIC ako je njegova t- statistika je veća od $ | t |> \ sqrt {log (n)} $
Lijep odgovor, +1. Posebno volim upozorenje o tome je li istinski model zapravo prisutan u grupi koja se ocjenjuje. Tvrdio bih da "pravi model" nikada nije prisutan. (Box & Draper rekao je da su "svi modeli lažni, ali neki su korisni", a Burnham & Anderson to nazivaju "sužavajućim efektima veličine".) Zbog toga nisam impresioniran konvergencijom BIC-a pod nerealnim pretpostavkama, a više ciljem AIC-a u najboljoj aproksimaciji među modelima koje zapravo gledamo.
#3
+73
Rob Hyndman
2010-07-24 08:58:58 UTC
view on stackexchange narkive permalink

Moje brzo objašnjenje je

  • AIC je najbolji za predviđanje jer je asimptotski ekvivalentan unakrsnoj provjeri valjanosti.
  • BIC je najbolji za objašnjenje jer omogućuje dosljednu procjenu temeljnog postupka generiranja podataka.
AIC je ekvivalentan K-puta unakrsne provjere valjanosti, BIC je ekvivalentan izostanku jednokratne provjere valjanosti. Ipak, oba teorema vrijede samo u slučaju linearne regresije.
mbq, to ​​je AIC / LOO (ne LKO ili K-fold) i mislim da se dokaz u Stoneu 1977 nije oslanjao na linearne modele. Ne znam detalje rezultata BIC-a.
ars je točan. To je AIC = LOO i BIC = K-fold, gdje je K komplicirana funkcija veličine uzorka.
Čestitam, imate me; Žurio sam s tim pisanjem i zato sam napravio ovu pogrešku, očito je tako Rob napisao. Ipak je to iz Shao 1995, gdje se pretpostavljalo da je model linearni. Analizirat ću Stone, ali ipak mislim da ste, ars, možda u pravu jer LOO u mom području ima jednako lošu reputaciju kao i razne * IC-ove.
Opis na Wikipediji (http://en.wikipedia.org/wiki/Cross-validation_(statistics)#K-fold_cross-validation) čini se da je K-fold unakrsna provjera otprilike poput ponovljene simulacije za procjenu stabilnost parametara. Vidim zašto bi se očekivalo da AIC bude stabilan s LOO-om (budući da se LOO može iscrpno provoditi), ali ne razumijem zašto bi BIC bio stabilan s K-foldom ako K nije također iscrpan. Čini li je složenom formulom koja predstavlja temelj vrijednosti K iscrpnost? Ili se nešto drugo događa?
BIC je istovjetan unakrsnoj provjeri valjanosti, ali unakrsna provjera valjanosti tipa "učenje". Za BIC postupak životopisa predviđa prvo opažanje bez podataka (samo prethodne informacije). Zatim "naučite" iz prvog opažanja, a predvidite drugo. Zatim učite iz prve i druge, predviđajte treću i tako dalje. To je točno zbog prikaza $ p (D_1 \ točkice D_n | MI) = p (D_1 | MI) \ prod_ {i = 2} ^ {n} p (D_i | D_1 \ točkice D_ {i-1} MI) $
#4
+17
Frank Harrell
2011-04-30 07:01:02 UTC
view on stackexchange narkive permalink

Prema mom iskustvu, BIC rezultira ozbiljnom nedovoljnom opremljenošću, a AIC obično ima dobre rezultate kada je cilj maksimizirati prediktivnu diskriminaciju.

Super kasni, ali budući da je ovo još uvijek visoko na Googleu, želite li razraditi u kojem području radite?Baš me zanima postoje li neki učinci domene koje bismo trebali pogledati.
@verybadatthis: klinička biostatistika (samo proguglajte "Frank Harrell", on je prisutan na mreži)
#5
+13
NRH
2011-04-30 10:49:45 UTC
view on stackexchange narkive permalink

Informativno i dostupno "izvođenje" AIC-a i BIC-a od strane Briana Ripleyja možete pronaći ovdje: http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf

Ripley daje neke primjedbe na pretpostavke iza matematičkih rezultata. Suprotno onome što neki drugi odgovori ukazuju, Ripley naglašava da se AIC temelji na pretpostavci da je model istinit. Ako model nije istinit, općenito izračunavanje otkrit će da "broj parametara" treba zamijeniti složenijom veličinom. Neke reference date su na dijapozitivima Ripleys. Međutim, imajte na umu da za linearnu regresiju (strogo govoreći s poznatom varijancom), općenito, složenija veličina pojednostavljuje da bude jednaka broju parametara.

(+1) Međutim, Ripley griješi kad kaže da modeli moraju biti ugniježđeni. Ne postoji takvo ograničenje na Akaikeovom izvornom izvodu, ili, da budemo jasniji, na izvodu pomoću AIC-a kao procjenitelja Kullback-Leiblerove divergencije. Zapravo, u radu na kojem radim, pomalo "empirijski" pokazujem da se AIC čak može koristiti za odabir modela kovarijancijskih struktura (različiti broj parametara, jasno nes ugniježđeni modeli). Iz tisuća simulacija vremenskih serija koje sam provodio s različitim kovarijancijskim strukturama, ni u jednoj od njih AIC nije pogriješio ...
... ako je "ispravan" model zapravo na skupu modela (to, međutim, podrazumijeva i da je za modele na kojima radim varijanca procjenitelja vrlo mala ... ali to je samo tehnička detalj).
@Néstor, slažem se. Poanta oko ugniježđenih modela je čudna.
Pri odabiru kovarijancijskih struktura za longitudinalne podatke (modeli s mješovitim efektima ili generalizirani najmanji kvadrati) AIC lako može pronaći pogrešnu strukturu ako postoji više od 3 strukture kandidata.Ako ih je više od 3, morat ćete upotrijebiti bootstrap ili druga sredstva za prilagodbu nesigurnosti modela uzrokovane korištenjem AIC za odabir strukture.
#6
+8
user88
2010-07-24 02:23:18 UTC
view on stackexchange narkive permalink

Zapravo je jedina razlika u tome što je BIC proširen AIC kako bi se uzeo u obzir broj objekata (uzoraka). Rekao bih da je, iako su obje prilično slabe (u usporedbi s primjerice unakrsnom provjerom valjanosti), bolje koristiti AIC, nego što će više ljudi biti upoznato sa kraticom - doista nikada nisam vidio rad ili program u kojem bi BIC (i dalje priznajem da sam pristran prema problemima kod kojih takvi kriteriji jednostavno ne rade).

Uredi: AIC i BIC jednaki su unakrsnoj provjeri pod uvjetom da postoje dvije važne pretpostavke - kada jesu definirano, pa kad je model najveće vjerojatnosti i kada vas performanse modela zanimaju samo na podacima treninga. U slučaju sažimanja nekih podataka u neku vrstu konsenzusa, oni su sasvim u redu.
U slučaju izrade stroja za predviđanje za neki stvarni problem, prvo je netačno, jer vaš set treninga predstavlja samo komadić informacija o problemu imate posla, pa jednostavno ne možete optimizirati svoj model; drugo je lažno, jer očekujete da će vaš model obraditi nove podatke za koje ne možete ni očekivati ​​da će set treninga biti reprezentativan. I u tu svrhu izumljen je CV; za simuliranje ponašanja modela kada se suočava s neovisnim podacima. U slučaju odabira modela, CV vam daje ne samo približnu kvalitetu, već i raspodjelu približne kvalitete, tako da ima tu veliku prednost da može reći "Ne znam, bez obzira na to koji će novi podaci doći, bilo koji od njih može biti bolje."

Znači li to da za određene veličine uzoraka BIC može biti manje strog od AIC?
Stringent ovdje nije najbolja riječ, već je tolerantniji prema parametrima; ipak, da, za uobičajene definicije (s prirodnim zapisnikom) to se događa za 7 i manje objekata.
AIC je asimptotski ekvivalentan unakrsnoj provjeri valjanosti.
@Rob Možete li dati referencu? Sumnjam da je općenito.
@Rob Što sam mogao pronaći, to vrijedi samo za linearne modele.
@mbq. Mislio sam na Shao 1995, koji je u stvari samo za linearne modele. Ne znam je li rezultat proširen na druge modele.
@mbq - Ne vidim kako unakrsno provjeravanje nadilazi problem "nereprezentativnosti". Ako vaši podaci o obuci ne predstavljaju podatke koje ćete dobiti u budućnosti, možete unakrsno provjeriti sve što želite, ali to neće predstavljati "generalizacijsku pogrešku" s kojom ćete se zapravo suočiti (kao " true "novi podaci nisu predstavljeni nemodeliranim dijelom podataka o osposobljavanju). Dobivanje reprezentativnog skupa podataka presudno je ako želite dobro prognozirati.
@probabilityislogic Naravno; Ovdje sam pokušao objasniti da * odabir temeljen na IC-u može postati nevaljanim gledajući iz perspektive životopisa; naravno CV se može podjednako lako razbiti zbog lošeg odabira uzorka. Međutim, ovo neće pomoći pri odabiru boljeg modela.
@mbq - moja poanta je da izgleda da "nježno odbijate" odabir temeljen na IC-u na temelju alternative koja ne rješava problem. Unakrsna provjera valjanosti je dobra (iako se računanje isplati?), Ali s nereprezentativnim podacima ne može se postupiti pomoću postupka vođenog podacima. Barem ne pouzdano. Morate imati prethodne informacije koje će vam reći kako su nereprezentativni (ili općenito, kakve logičke veze podaci "nereprezentativnog" imaju sa stvarnim budućim podacima koje ćete promatrati).
@probabilityislogic Pa, pokazujem da je IC sux u usporedbi s CV, pa činjenica da i CV sux čini IC sux još i većim. Ali u pravu ste da sam zloupotrijebio riječ "predstavnik" u odgovoru - pokušat ću je popraviti. Zapravo sam općenito poricatelj odabira modela =)
@mbq - model prosjeka ftw!
#7
+5
Amanda
2010-07-24 04:38:20 UTC
view on stackexchange narkive permalink

Kao što ste spomenuli, AIC i BIC su metode za kažnjavanje modela zbog više regresorskih varijabli. U tim se metodama koristi kaznena funkcija, koja je funkcija broja parametara u modelu.

  • Prilikom primjene AIC-a funkcija kazne je z (p) = 2 p .

  • Kada se primjenjuje BIC, funkcija kazne je z (p) = p ln ( n ), koja se temelji na tumačenju kazne kao da proizlazi iz prethodne informacije (otuda i naziv Bayesov informacijski kriterij).

Kad je n veliko, dva će modela dati sasvim različite rezultate. Tada BIC primjenjuje mnogo veću kaznu za složene modele, što će dovesti do jednostavnijih modela od AIC-a. Međutim, kao što je navedeno u Wikipediji na BIC-u:

treba imati na umu da se u mnogim aplikacijama ... BIC jednostavno smanjuje na odabir najveće vjerojatnosti jer broj parametara jednak je za modele koji nas zanimaju.

imajte na umu da je AIC također ekvivalentan ML kada se dimenzija ne mijenja. Iz vašeg se odgovora čini da je ovo samo za BIC.
#8
+5
probabilityislogic
2011-05-13 19:06:44 UTC
view on stackexchange narkive permalink

Prema onome što znam, nema velike razlike između AIC i BIC. Oboje su matematički prikladne aproksimacije koje netko može napraviti kako bi učinkovito usporedio modele. Ako vam daju različite "najbolje" modele, to vjerojatno znači da imate visoku nesigurnost modela, što je važnije brinuti nego biste li trebali koristiti AIC ili BIC. Meni se osobno BIC više sviđa jer traži više (manje) modela ako ima više (manje) podataka koji odgovaraju njegovim parametrima - nekako poput nastavnika koji traži viši (niži) standard izvedbe ako njihov učenik ima više (manje) ) vrijeme za učenje o toj temi. Meni se ovo čini samo kao intuitivna stvar. Ali tada sam siguran da postoje i jednako intuitivni i uvjerljivi argumenti za AIC, s obzirom na njegov jednostavan oblik.

Sad, kad god napravite aproksimaciju, sigurno će postojati neki uvjeti kada su te aproksimacije smeće. To se sigurno može vidjeti za AIC, gdje postoje mnoge "prilagodbe" (AICc) kako bi se uzeli u obzir određeni uvjeti koji čine izvornu aproksimaciju lošom. Ovo je prisutno i za BIC, jer postoje i druge druge egzaktnije (ali i dalje učinkovite) metode, poput potpuno Laplaceovih aproksimacija smjesa Zellnerovih g-priora (BIC je aproksimacija Laplaceove metode aproksimacije za integrale).

Jedno mjesto na kojem su obojica usrani je kada imate značajne prethodne informacije o parametrima unutar bilo kojeg datog modela. AIC i BIC nepotrebno kažnjavaju modele gdje su parametri djelomično poznati u usporedbi s modelima koji zahtijevaju procjenu parametara iz podataka.

jedno što mislim da je važno napomenuti jest da BIC ne pretpostavlja da "istinski" model a) postoji ili je b) sadržan u skupu modela. BIC je jednostavno aproksimacija integrirane vjerojatnosti $ P (D | M, A) $ (D = Podaci, M = model, A = pretpostavke). Samo množenjem s prethodnom vjerojatnošću i potom normalizacijom možete dobiti $ P (M | D, A) $. BIC jednostavno predstavlja vjerojatnost podataka ako je istinit prijedlog impliciran simbolom $ M $. Dakle, s logičnog gledišta, podaci koji podržavaju bilo koji prijedlog koji bi doveo do BIC-a jednako su podržani. Dakle, ako navedem $ M $ i $ A $ kao prijedloge

$$ \ begin {array} {l | l} M_ {i}: \ text {i-ti model je najbolji opis podaci} \\ A: \ text {iz skupa K modela koji se razmatraju, jedan od njih je najbolji} \ end {array} $$

A zatim nastavite dodjeljivati ​​iste modele vjerojatnosti (isti parametri, isti podaci, iste aproksimacije, itd.), dobit ću isti skup BIC vrijednosti. Tek dodavanjem nekakvog jedinstvenog značenja logičnom slovu "M" čovjek se uvlači u irelevantna pitanja o "istinskom modelu" (odjeci "istinske religije"). Jedino što "definira" M su matematičke jednadžbe koje ga koriste u izračunima - a ovo teško da ikad izdvaja jednu i jedinu definiciju. Jednako bih mogao staviti prijedlog predviđanja za M ("i-ti model dat će najbolje predviđanja"). Osobno ne mogu vidjeti kako bi ovo promijenilo bilo koju vjerojatnost, a time i koliko će BIC biti dobar ili loš (AIC i po tom pitanju - iako se AIC temelji na različitom izvodu)

, što nije u redu s izjavom Ako je istiniti model u skupu koji razmatram, postoji 57% vjerojatnosti da je to model B . Čini mi se dovoljno razumnim, ili biste mogli prijeći na "mekiju" verziju postoji 57% vjerojatnosti da je model B najbolji iz seta koji se razmatra

Posljednji komentar: Mislim da ćete pronaći otprilike onoliko mišljenja o AIC / BIC-u koliko ima ljudi koji znaju o njima.

#9
+4
user2875
2011-01-23 20:11:10 UTC
view on stackexchange narkive permalink

AIC se rijetko treba koristiti, jer on stvarno vrijedi samo asimptotski. Gotovo je uvijek bolje koristiti AICc (AIC s ispravkom c za konačnu veličinu uzorka). AIC ima tendenciju prekomjerne parameterizacije: taj se problem znatno smanjuje s AICc. Glavna iznimka korištenja AICc je kada su temeljne raspodjele jako leptokurtične. Više o tome potražite u knjizi Izbor modela autora Burnhama &a Andersona.

Dakle, ono što govorite je da AIC ne kažnjava u dovoljnoj mjeri modele za parametre, pa njegova upotreba kao kriterij može dovesti do preparametrizacije. Umjesto toga preporučujete upotrebu AICc. Da se ovo vrati u kontekst mog početnog pitanja, budući da je BIC već stroži od AIC-a, postoji li razlog za korištenje AICc-a nad BIC-om?
Što podrazumijevate pod AIC vrijedi asimptotski. Kao što je naglasio John Taylor, AIC je nedosljedan. Mislim da su najbolji komentari koji kontrastiraju AIC i BIC. Ne vidim da su to dvoje isto što i unakrsna provjera valjanosti. Svi oni imaju lijepo svojstvo koje obično dosežu kod modela s manje od maksimalnog broja varijabli. Ali svi oni mogu odabrati različite modele.
#10
+4
Peter Flom
2011-09-16 14:48:21 UTC
view on stackexchange narkive permalink

AIC i BIC su informacijski kriteriji za usporedbu modela. Svaki pokušava uravnotežiti uklapanje modela i štedljivost, a svaki kažnjava različito za broj parametara.

AIC je Akaikeov informativni kriterij, formula je $$ \ text {AIC} = 2k - 2 \ ln (L) $$ gdje je $ k $ broj parametara, a $ L $ najveća vjerojatnost; s ovom formulom, manje je bolje. (Sjećam se da neki programi daju suprotnih $ 2 \ ln (L) - 2k $, ali ne sjećam se detalja)

BIC je Bayesov informativni kriterij, formula je $$ \ text {BIC } = k \ ln (n) - 2 \ ln (L) $$ i favorizira više štedljive modele od AIC-a

Nisam čuo za KIC.

nisam čuo ni za KIC, ali za AIC i BIC pogledajte povezano pitanje ili potražite AIC. http://stats.stackexchange.com/q/577/442
(This reply was merged from a duplicate question that also asked for interpretation of "KIC".)
Modeli ne trebaju biti ugniježđeni da bi se uspoređivali s AIC ili BIC.
#11
+2
Tom Wenseleers
2019-06-25 15:22:21 UTC
view on stackexchange narkive permalink

Vrlo kratko:

  • AIC približno smanjuje pogrešku predviđanja i asimptotski je ekvivalentan unakrsnoj provjeri izostavljanja (LOOCV) (Stone 1977). Ipak nije dosljedan, što znači da čak i ako vrlo velika količina podataka ( $ n $ ide u beskonačnost) i ako je istinski model među modelima kandidatima, vjerojatnost odabira istinskog modela na temelju kriterija AIC ne bi se približila 1. Umjesto toga, zadržao bi previše značajki.
  • BIC je aproksimacija integrirane granične vjerojatnosti $ P (D | M, A) (D = Podaci, M = model, A = pretpostavke) $ , što je pod ravnim priorom ekvivalentno traženju modela koji maksimizira $ P (M | D, A) $ . Njegova je prednost što je dosljedan, što znači da s vrlo velikom količinom podataka ( $ n $ koji idu u beskonačnost) i ako je istinski model među modelima kandidatima , vjerojatnost odabira istinskog modela na temelju BIC kriterija približila bi se 1. To bi imalo malu cijenu za predviđanje izvedbe, iako da je $ n $ malo. BIC je također ekvivalentan unakrsnoj provjeri valjanosti izostavljanja (LKOCV) gdje je $ k = n [1−1 / (log (n) −1)] $ , s $ n = $ veličinom uzorka (Shao 1997). Postoji mnogo različitih verzija BIC-a koje se svode na donošenje različitih aproksimacija marginalne vjerojatnosti ili pretpostavku različitih prioriteta. Npr. umjesto da koristi prethodnu uniformu svih mogućih modela kao u originalnom BIC-u, EBIC koristi prethodnu uniformu modela fiksne veličine ( Chen & Chen 2008) dok BICq koristi Bernouillijevu distribuciju koja specificira prethodna vjerojatnost da svaki parametar bude uključen.

Imajte na umu da u kontekstu LM kažnjenih GLM (gdje kažnjavate vjerojatnost vjerojatnosti vašeg modela na temelju lambda * br. nula-koeficijenata, tj. L0-norme koeficijenata vašeg modela) možete optimizirati AIC ili BIC cilj izravno, kao $ lambda = 2 $ za AIC i $ lambda = log (n) $ za BIC, što je i učinjeno u paketu l0ara R. Za mene ovo ima više smisla od onoga što oni npr. učiniti u slučaju LASSO ili regresije elastične mreže u glmnet, gdje nakon optimizacije jednog cilja (LASSO ili elastične regresije mreže) slijedi podešavanje parametara regularizacije na temelju nekog drugog cilja (koji npr. minimizira pogrešku predviđanja unakrsne provjere valjanosti, AIC ili BIC).

Syed (2011) na stranici 10, bilješke "Također možemo pokušati steći intuitivno razumijevanje asimptotske ekvivalencije napominjući da AIC minimalizira Kullback-Leiblerovu divergenciju između približnog modela i istinskog model. Kullback-Leiblerova divergencija nije mjera udaljenosti između raspodjela, već zapravo mjera gubitka informacija kada se približni model koristi za modeliranje zemaljske stvarnosti. Izuzeta unakrsna provjera valjanosti koristi maksimalnu količinu podataka za trening napraviti predviđanje za jedno promatranje. To jest, $ n −1 $ promatranja kao dodaci za približni model u odnosu na pojedinačno promatranje koje predstavlja „stvarnost“. mogu ovo shvatiti kao učenje maksimalne količine informacija koje se mogu dobiti od podataka pri procjeni gubitka. S obzirom na neovisna i identično distribuirana promatranja, izvodeći ovo tijekom $ n $ skupova provjere valjanosti dovodi do asimptotski un pristrana procjena. "

Imajte na umu da se pogreška LOOCV također može izračunati analitički na osnovu ostataka i dijagonale matrice šešira, a da zapravo ne treba provesti nikakvu unakrsnu provjeru valjanosti.To bi uvijek bila alternativa AIC-u kao asimptotskoj aproksimaciji LOOCV pogreške.

References

Stone M. (1977) Asimptotska ekvivalencija izbora modela unakrsnom validacijom i Akaikeovim kriterijem.Časopis Kraljevskog statističkog društva Series B. 39, 44–7.

Shao J. (1997) Asimptotska teorija za linearni odabir modela.Statistica Sinica 7, 221-242.

Puno bolje razumijevanje od mnogih ostalih postova ovdje.Ako su ljudi zainteresirani za čitanje više o ovome (i alternativi koja je vjerojatno superiornija od AIC / BIC-a), predložio bih da pročitaju ovaj članak Andrew Gelman i suradnici: http://www.stat.columbia.edu/~gelman/istraživanje / objavljeno / waic_understand3.pdf
#12
+1
Saily_Shah
2020-03-19 14:26:11 UTC
view on stackexchange narkive permalink
  • AIC i BIC su kriteriji vjerojatnosti za kažnjavanje. Obično se zapisuju u obliku [-2logL + kp], gdje je L funkcija vjerojatnosti, p je broj parametara u modelu, a k je 2 za AIC i log (n) za BIC.
  • AIC je procjena konstante plus relativna udaljenost između nepoznate funkcije stvarne vjerojatnosti podataka i uklopljene funkcije vjerojatnosti modela, tako da niži AIC znači da se model smatra bližim istini.
  • BIC je procjena funkcije stražnje vjerojatnosti da je model istinit, pod određenim Bayesovim postavkama, tako da niži BIC znači da se vjerojatnije da je model istinski model.
  • Oba kriterija temelje se na raznim pretpostavkama i asimptotskim aproksimacijama.
  • AIC uvijek ima priliku odabrati prevelik model, bez obzira na n. BIC ima vrlo male šanse da odabere preveliki model ako je n dovoljan, ali ima veću šansu od AIC, za bilo koji n, da odabere premali model.

Reference:

  1. https://www.youtube.com/watch?v=75BOMuXBSPI
  2. https://www.methodology.psu.edu/resources/AIC-vs-BIC/


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 2.0 licenci pod kojom se distribuira.
Loading...