Pitanje:
Zašto se Poissonova regresija koristi za podatke o brojanju?
zaxtax
2010-09-24 00:38:40 UTC
view on stackexchange narkive permalink

Razumijem da za određene skupove podataka, poput glasanja, ima bolju izvedbu. Zašto se Poissonova regresija koristi u odnosu na običnu linearnu ili logističku regresiju? Koja je matematička motivacija za to?

Pogledajte moj odgovor na ovaj post za još jedno stajalište: http://stats.stackexchange.com/questions/142338/goodness-of-fit-and-which-model-to-choose-linear-regression-or-poisson/142353#142353
Pet odgovori:
#1
+56
Stephan Kolassa
2010-09-24 01:42:46 UTC
view on stackexchange narkive permalink

Poissonovi distribuirani podaci imaju cijelu vrijednost, što ima smisla za podatke o brojanju. Obični najmanji kvadrati (OLS, koje nazivate "linearnom regresijom") pretpostavljaju da su prave vrijednosti normalno raspoređene oko očekivane vrijednosti i mogu poprimiti bilo koju stvarnu vrijednost, pozitivnu ili negativnu, cijelu ili razlomljenu, bilo što. Konačno, logistička regresija djeluje samo za podatke koji vrijede 0-1 (TRUE-FALSE-value), poput "ima bolest" nasuprot "nema bolest". Dakle, Poissonova raspodjela ima najviše smisla za podatke o brojanju.

To je rečeno, normalna raspodjela često je prilično dobra aproksimacija za Poissonovu raspodjelu za podatke sa srednjom vrijednosti iznad 30 ili tako nešto. A u regresijskom okviru, gdje imate prediktore koji utječu na broj, OLS s njegovom normalnom raspodjelom može biti lakše uklopiti i zapravo bi bio općenitiji, jer Poissonova raspodjela i regresija pretpostavljaju da su srednja vrijednost i varijanca jednake, dok OLS može se nositi s nejednakim sredstvima i varijantama - za model podataka o brojanju s različitim sredstvima i varijansama može se koristiti, na primjer, negativna binomna raspodjela.

Imajte na umu da samo uklapanje pomoću OlS-a ne zahtijeva normalnost - to je slučaj kada zaključujete o parametrima koja vam trebaju pretpostavka normalne distribucije
@Dason: Stojim ispravljeno.
Ako koristite Huber / White / Sandwich procjenitelj varijance, možete opustiti pretpostavku srednje varijance
@Dason Iako to nije strogo potrebno, upotreba pravog oblika modela za ono što namještate gotovo uvijek daje bolju procjenu, a to možete vidjeti na crtežima ostataka.
#2
+26
Matt Parker
2010-09-24 01:52:16 UTC
view on stackexchange narkive permalink

U osnovi, to je zato što linearna i logistička regresija čine pogrešne pretpostavke o tome kako izgledaju ishodi brojanja. Zamislite svoj model kao vrlo glupog robota koji će neumorno slijediti vaše naredbe, bez obzira koliko te naredbe bile besmislene; potpuno mu nedostaje sposobnost procjene onoga što mu kažete. Ako kažete svom robotu da se nešto poput glasova kontinuirano distribuira od negativne beskonačnosti do beskonačnosti, to je ono što vjeruje da su glasovi slični i moglo bi vam dati besmislena predviđanja (Ross Perot dobit će -10.469 glasova na predstojećim izborima).

Suprotno tome, Poissonova raspodjela je diskretna i pozitivna (ili nula ... nula se računa kao pozitivna, zar ne?). To će u najmanju ruku prisiliti vašeg robota da vam da odgovore koji bi se zapravo mogli dogoditi u stvarnom životu. Oni mogu i ne moraju biti dobri odgovori, ali barem će se izvući iz mogućeg skupa "broja glasova".

Naravno, Poisson ima svoje problemi: pretpostavlja se da će i srednja vrijednost varijable brojanja glasova biti jednaka varijansi. Ne znam jesam li ikada zapravo vidio nenamišljeni primjer gdje je to bila istina. Srećom, pametni ljudi smislili su i druge raspodjele koje su također pozitivne i diskretne, ali koje dodaju parametre kako bi varijanca varirala (npr. Negativna binomna regresija).

#3
+5
Thylacoleo
2010-09-24 04:28:23 UTC
view on stackexchange narkive permalink

Matematički ako započnete s jednostavnom pretpostavkom da je vjerojatnost događaja koji se događa u definiranom intervalu $ T = 1 $ $ \ lambda $, možete prikazati očekivani broj događaja u intervalu $ T = t $ is je $ \ lambda.t $, varijansa je također $ \ lambda.t $, a raspodjela vjerojatnosti je
$$ p (N = n) = \ frac {(\ lambda.t) ^ {n} e ^ {- \ lambda.t}} {n!} $$

Putem ove i metode najveće vjerojatnosti & generalizirani linearni modeli (ili neka druga metoda ) dolazite do Poissonove regresije.

Jednostavno rečeno, Poissonova regresija je model koji odgovara pretpostavkama osnovnog slučajnog procesa koji generira mali broj događaja brzinom (tj. brojem po jedinici vremena) određena ostalim varijablama u modelu.

#4
+3
Dason
2010-09-24 04:10:50 UTC
view on stackexchange narkive permalink

Drugi su u osnovi rekli isto što i ja, ali mislio sam dodati svoje mišljenje. Ovisi o tome što točno radite, ali puno puta volimo konceptualizirati problem / podatke koji su nam dostupni. Ovo je malo drugačiji pristup u odnosu na samo izgradnju modela koji prilično dobro predviđa. Ako pokušavamo konceptualizirati što se događa, ima smisla modelirati podatke o brojanju koristeći nenegativnu raspodjelu koja masu stavlja samo na cjelobrojne vrijednosti. Također imamo mnogo rezultata koji se u osnovi svode na to da se pod određenim uvjetima podaci o brojanju zaista distribuiraju kao poison. Dakle, ako je naš cilj konceptualizirati problem, stvarno ima smisla koristiti poison kao varijablu odgovora. Drugi su istaknuli druge razloge zašto je to dobra ideja, ali ako stvarno pokušavate konceptualizirati problem i stvarno razumijete kako podaci koje vidite mogu biti generirani, a zatim pomoću poissonove regresije u nekim situacijama ima puno smisla.

#5
+2
crx
2010-09-24 01:28:49 UTC
view on stackexchange narkive permalink

Koliko razumijem, prvenstveno zato što su brojevi uvijek pozitivni i diskretni, Poisson takve podatke može sažeti s jednim parametrom. Glavna je zamka u tome što je varijanca jednaka srednjoj.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 2.0 licenci pod kojom se distribuira.
Loading...