Pitanje:
Intuitivno zaključivanje iza pristranih procjena najveće vjerojatnosti
ssah
2014-03-05 04:52:00 UTC
view on stackexchange narkive permalink

Imam zabune u pristranim procjeniteljima maksimalne vjerojatnosti (ML). Matematika cijelog koncepta prilično mi je jasna, ali ne mogu dokučiti intuitivno obrazloženje koje stoji iza toga.

S obzirom na određeni skup podataka koji ima uzorke iz distribucije, koji je sam po sebi funkcija parametra koji želimo procijeniti, ML procjenitelj rezultira vrijednošću za parametar koji će najvjerojatnije proizvesti skup podataka .

Ne mogu intuitivno razumjeti pristrani ML procjenitelj u smislu da: kako najvjerojatnija vrijednost parametra može predvidjeti stvarnu vrijednost parametra s odstupanjem prema pogrešnoj vrijednosti?

Mogući duplikat [Procjene maksimalne vjerojatnosti (MLE) laički rečeno] (https://stats.stackexchange.com/questions/112451/maximum-likelihood-estimation-mle-in-layman-terms)
Mislim da fokus na pristranosti ovdje može razlikovati ovo pitanje od predloženog duplikata, iako su zasigurno vrlo usko povezani.
četiri odgovori:
Glen_b
2014-03-05 04:57:34 UTC
view on stackexchange narkive permalink

ML procjenitelj rezultira vrijednošću parametra koja će se najvjerojatnije pojaviti u skupu podataka.

S obzirom na pretpostavke, ML procjenitelj je vrijednost parametra koja ima najbolje šanse za stvaranje skupa podataka.

Ne mogu intuitivno razumjeti pristrani ML procjenjivač u smislu da "Kako najvjerojatnija vrijednost parametra može predvidjeti stvarnu vrijednost parametra s pristranosti prema pogrešnoj vrijednosti? "

Pristranost se odnosi na očekivanja distribucije uzorkovanja. "Najvjerojatnije da će proizvesti podatke" ne odnosi se na očekivanja distribucije uzorka. Zašto bi se očekivalo da idu zajedno?

Na čemu je iznenađujuće što se ne podudaraju nužno?

Predložio bih vam da razmotrite nekoliko jednostavnih slučajeva MLE-a i razmislite kako dolazi do razlike u tim određenim slučajevima.

Kao primjer, razmotrite promatranje uniforme na $ (0, \ theta) $ . Najveće opažanje (nužno) nije veće od parametra, tako da parametar može poprimiti vrijednosti barem toliko velike koliko je najveće opažanje.

Kada uzmete u obzir vjerojatnost za $ \ theta $ , to je (očito) veće što je $ \ theta $ bliže najvećem opažanju. Dakle, maksimizira se pri najvećem promatranju; to je očito procjena za $ \ theta $ koja maksimizira šansu za dobivanje uzorka koji ste dobili:

enter image description here

Ali s druge strane mora biti pristrano, jer je najveće opažanje očito (s vjerojatnošću 1) manje od stvarne vrijednosti $ \ theta $ ; bilo koja druga procjena $ \ theta $ koju već ne isključuje sam uzorak mora biti veća od nje i mora (sasvim očito u ovom slučaju) biti manje vjerojatno da će proizvesti uzorak.

Očekivanje najvećeg opažanja od $ U (0, \ theta) $ je $ \ frac {n } {n + 1} \ theta $ , pa je uobičajeni način poništavanja uzimanje za procjenitelja $ \ theta $ : $ \ hat \ theta = \ frac {n + 1} {n} X _ {(n)} $ , gdje $ X _ {( n)} $ je najveće opažanje.

Ovo leži desno od MLE-a, pa ima i manju vjerojatnost.

hvala na odgovoru. O prvom dijelu sam se netočno izrazio. U osnovi sam mislio na ono što ste rekli. Na temelju vašeg odgovora na drugi dio, mogu li zaključiti da će, s obzirom na drugi niz podataka izvučen iz iste distribucije, hoće li ML procjenitelj rezultirati drugačijom pristranošću? Budući da kažete da je ML procjenitelj onaj koji "najvjerojatnije" daje podatke. Ako promijenimo podatke, neki bi ih drugi procjenjivač mogao najvjerojatnije proizvesti. Je li to točno?
Procjenitelj se neće promijeniti ako se oblik distribucije populacije ne promijeni. Neka druga * procjena * izradit će se s različitim uzorkom, a iznos za koji je pristran općenito će biti različit - pristranost je obično povezana s veličinom uzorka, čak i ako je populacija ista. ... (ctd)
(ctd) ... $ \ quad $ Imajte na umu da sam gore napravio neke izmjene koje bi mogle pomoći. U kontekstu mog gornjeg primjera, s drugim uzorkom (ovaj put veličine $ m $, a ne $ n $, recimo) - oblik ML * procjenitelja * i dalje bi bio 'najveće opažanje u uzorku', ali * procjena * bi bila različita (čak i s istim $ \ theta $), a pristranost bi također bila različita (zbog učinka veličine uzorka).
Dobra upotreba kanonskog primjera za uočavanje razlike između nepristranih i ML procjenitelja.
Dimitriy V. Masterov
2014-03-05 05:05:27 UTC
view on stackexchange narkive permalink

$ \ beta ^ {MLE} $ nije najvjerojatnija vrijednost $ \ beta $. Najvjerojatnija vrijednost je sam $ \ beta $. $ \ beta ^ {MLE} $ maksimizira vjerojatnost crtanja uzorka koji smo zapravo dobili.

MLE je samo asimptotski nepristran i često možete prilagoditi procjenitelj da se bolje ponaša u konačnim uzorcima. Na primjer, MLE varijance slučajne varijable jedan je od primjera, kada je množenjem s $ \ frac {N} {N-1} $ transformira.

Oprostite na pogrešci u prvom dijelu. Uredio sam i popravio. Ali u vezi s onim što ste rekli o MLE-u, zašto bi on uopće bio pristran u neasimptotskom slučaju?
"Bolje" ovisi o tome što gledate; Besselova korekcija čini ga nepristranim, ali nepristranost nije sama po sebi automatski "bolja" (MSE je na primjer gori; zašto bih više volio nepristranost nego manji MSE?). Nepristrano bi se moglo tvrditi da je bolje, * ceteris paribus *, ali nažalost * ceteris * neće biti * paribus *.
Koliko sam shvatio, nepristrani procjenitelj može se pokazati nepristranim kroz odnos između MLE i Cramer-Rao donje granice.
@ssah Rečeno mi je da je to zato što u formuli koristimo srednju vrijednost uzorka umjesto prave srednje vrijednosti. Da budem iskren, nikad mi ovo objašnjenje nije bilo posebno intuitivno, jer ako je MLE procjenjivač srednje vrijednosti nepristran, zašto bi ovo trebalo ići po zlu? Svoje sumnje obično utažim simulacijom.
Aksakal
2014-03-05 09:28:39 UTC
view on stackexchange narkive permalink

Evo moje intuicije.

Pristranost je mjera točnosti , ali postoji i pojam preciznosti .

enter image description here

U idealnom svijetu dobili bismo procjenu koja je i precizna i točna, tj. uvijek pogodi bikovo oko. Nažalost, u našem nesavršenom svijetu moramo uravnotežiti točnost i preciznost. Ponekad možemo osjećati da bismo mogli dati malo točnosti kako bismo postigli veću preciznost: stalno se mijenjamo. Stoga činjenica da je procjenitelj pristran ne znači da je loš: može biti da je precizniji.

Thomas Lumley
2020-07-07 07:00:19 UTC
view on stackexchange narkive permalink

Obično-jezična i tehnička značenja pristrana različita su. Odgovor @Glen_b daje dobar opis zašto procjenitelji maksimalne vjerojatnosti mogu lako biti pristrani u tehničkom smislu.

Moguće je da je procjenitelj najveće vjerojatnosti pristran u nečemu poput uobičajenog jezika, ali to nije uobičajeno. Nešto mora poći po zlu.

Standardni primjeri nedosljednog MLE uključuju uparene podatke.

Pretpostavimo $ X_ {ij} \ sim N (\ mu_i, \ sigma ^ 2) $ , za $ j = 0,1 $ i $ i = 1,2,3, \ dots, n $ . MLE za $ \ mu_i $ je $ (X_ {i0} + X_ {i1}) / 2 $ span >. MLE $ \ hat \ sigma ^ 2 $ je $$ \ hat \ sigma ^ 2 = \ frac {1} {2n} \ sum_ {i = 1} ^ n \ sum_ {j = 0} ^ 1 (X_ {ij} - \ hat \ mu_i) ^ 2 $$

Kako dobivate više podataka, $ \ hat \ sigma ^ 2 $ konvergira ne u $ \ sigma ^ 2 $ ali na $ \ sigma ^ 2/2 $ .

Kod binarnih podataka s podudarnim parom generirajući model je $$ \ mathrm {logit} \, P [Y_ {ij} = 1] = \ alpha_i + \ beta \ puta j $ $ MLE $ \ hat \ beta $ konvergira u $ 2 \ beta $ , a ne u $ \ beta $ .

U oba slučaja problem je u tome što broj parametara raste s $ n $ , a rješenje je uvjetna vjerojatnost koja uklanja $ n $ presresti parametre prije procjene parametra koji vas zanima.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...