Pitanje:
Kako se s odstupanjima treba nositi u linearnoj regresijskoj analizi?
Sharpie
2010-07-20 04:39:50 UTC
view on stackexchange narkive permalink

Često se statističkom analitičaru preda skup podataka i zatraži da uklopi model pomoću tehnike poput linearne regresije. Skup podataka vrlo često prati izjava o odricanju odgovornosti slična "Oh, da, zabrljali smo prikupljajući neke od ovih točaka podataka - učinite što možete".

Ova situacija dovodi do napada regresije na koji jako utječu prisutnost odstupanja koja mogu biti pogrešni podaci. S obzirom na sljedeće:

  • I sa znanstvenog i s moralnog stajališta opasno je izbacivati ​​podatke iz bilo kojeg razloga osim što "čini da fit izgleda loše".

  • U stvarnom životu ljudi koji su prikupili podatke često nisu dostupni za odgovaranje na pitanja poput "prilikom generiranja ovog skupa podataka koju ste točku točno zabrljali?"

Koji se statistički testovi ili osnovna pravila mogu koristiti kao osnova za izuzeće odstupanja u linearnoj regresijskoj analizi?

Postoje li posebna razmatranja za multilinearnu regresiju?

Povezano: mogući zavaravanje ovoga: https://stats.stackexchange.com/questions/37865/is-there-a-simple-way-of-detecting-outliers |R kako: https://stats.stackexchange.com/questions/53227/test-for-bivariate-outliers
Deset odgovori:
#1
+34
Rob Hyndman
2010-07-20 04:45:45 UTC
view on stackexchange narkive permalink

Umjesto da isključite izvanredne vrijednosti, možete se poslužiti robusnom metodom regresije. U R, na primjer, funkcija rlm () iz paketa MASS može se koristiti umjesto funkcije lm () . Metoda procjene može se podesiti tako da bude više ili manje robusna u odnosu na izvanredne vrijednosti.

Ako koristim funkciju rlm (), vidim da su proizvedeni koeficijenti i njihovi t-testovi.Ali kako odavde mogu dobiti vrijednosti f-testa, R-kvadrat?Pretpostavljam da ne mogu jednostavno donijeti ove vrijednosti f-testa i R kvadrata iz jednostavnih sažetih rezultata 'lm' ako sam u pravu.
Za robusnu regresiju pretpostavke iza F testa više nisu zadovoljene, a R ^ 2 se može definirati na nekoliko načina koji više nisu ekvivalentni.Pogledajte http://stats.idre.ucla.edu/stata/faq/how-can-i-get-an-r2-with-robust-regression-rreg/ za neke rasprave o tome za Stata.
Također pogledajte https://stats.stackexchange.com/a/68367/159
Ali pronalazim naredbu zvanu f.robftest iz paketa sfsmisc koja daje rezultat f-testa.Mogu li koristiti ovaj rezultat za definiranje statistike f-testa za rlm?Također, čini mi se da dobivam R kvadrat jednostavnim unosom vrijednosti u matematičku formulu R kvadrata poput 1 - zbroj (ostaci (rlm (y ~ x)) ^ 2) / zbroj ((y-sredina (y)) ^ 2).Da bi vrijednosti t-testa provjerile značaj koeficijenata, dobivam vrijednosti t-testa iz sažetka (rlm (y ~ x)) koje uspoređujem s t-vrijednostima od 95% razine pouzdanosti ili tako nekako.Mogu li se koristiti ovim metodama?
@RobHyndman zašto se uobičajeni $ 1-SSE / TSS $ (zbroj kvadrata pogrešaka, ukupan zbroj kvadrata) ne bi primjenjivao?Nismo promijenili model, već samo metodu procjene.Je li to nešto povezano s tim što su $ SSE $ i $ TSS $ posebno osjetljivi na izvanredne vrijednosti i druge ekstremne vrijednosti?
#2
+24
Neil McGuigan
2010-07-20 05:15:47 UTC
view on stackexchange narkive permalink

Ponekad su odstupanja loši podaci i treba ih izuzeti, poput pogrešaka pri upisu. Ponekad su Wayne Gretzky ili Michael Jordan, i njih bi trebalo zadržati.

Metode otkrivanja izvan okvira uključuju:

Univariate -> boxplot. izvan 1,5-kratnog interkvartilnog raspona je izvanredan.

Dvostruka -> raspršena ploha s elipsom samopouzdanja. izvan, recimo, 95% elipse pouzdanosti je neobično.

Multivarijantna -> Udaljenost mahalanobisa D2

Označite ta zapažanja kao izvanredna.

Pokrenite logističku regresiju (na Y = IsOutlier) kako biste provjerili postoje li sustavni uzorci.

Uklonite one za koje možete dokazati da nisu reprezentativni za bilo koju podpopulaciju.

A ako i dalje imate odstupanja, razmislite o korištenju modela koji nije linearni.Na primjer, ako koristite model s ponašanjem poput zakona moći, Michael Jordan više nije stranac (u smislu sposobnosti modela da ga prilagode).
Slažem se s većinom onoga što je ovdje rečeno, ali želio bih dodati dodatni oprez da je "* izvan 1,5-kratnog interkvartilnog raspona izvan okvira *" * konvencija *, a ne pravilo s bilo kojim teoretskim temeljima.Ne bi se trebao koristiti kao opravdanje za izuzeće podataka.
#3
+21
Chris Beeley
2010-07-21 12:51:34 UTC
view on stackexchange narkive permalink

Mislim da se ima nešto za reći samo ako se izuzmu iznimke. Regresijska crta trebala bi sažeti podatke. Zbog utjecaja možete imati situaciju da 1% vaših podatkovnih točaka utječe na nagib za 50%.

S moralnog i znanstvenog gledišta opasno je samo ako nikome ne kažete da ste isključili izvanredni. Sve dok ih ukazujete možete reći:

"Ova linija regresije prilično dobro odgovara većini podataka. 1% slučajeva kad se pojavi vrijednost koja ne odgovara ovom trendu, ali hej, ludi je svijet, nijedan sustav nije savršen "

"hej, ludi je svijet, nijedan sustav nije savršen" +1 za tog mog prijatelja!:)
Razmislite ipak o drugim modelima.Svijet, ako je pun uklonjenih "odstupanja" koji su bili stvarni podaci, što je rezultiralo neuspjehom predviđanja nečega doista važnog.Mnogi prirodni procesi ponašaju se poput zakona moći s rijetkim ekstremnim događajima.Čini se da linearni modeli odgovaraju takvim podacima (iako ne previše dobro), ali ako ih upotrebljavate i izbrišete "izvanredne vrijednosti" znači propustiti one ekstremne događaje, o kojima je obično važno znati!
#4
+10
Brenden
2010-10-05 02:29:51 UTC
view on stackexchange narkive permalink

Sharpie,

Ako vaše pitanje shvatim doslovno, tvrdio bih da ne postoje statistički testovi ili se osnovna pravila mogu koristiti kao osnova za isključivanje odstupanja u linearnoj regresijskoj analizi (za razliku od utvrđivanja je li neko opažanje neistinito). To mora potjecati iz znanja iz područja predmeta.

Mislim da je najbolji način za početak pitati imaju li odstupanja uopće smisla, posebno s obzirom na ostale varijable koje ste prikupili. Na primjer, je li stvarno razumno da u svojoj studiji imate ženu od 600 kilograma koja je regrutirana iz raznih klinika za sportske ozljede? Ili, nije li neobično da osoba navodi 55 godina ili profesionalno iskustvo kad ima samo 60 godina? I tako dalje. Nadamo se da tada imate razumnu osnovu ili da ih izbacite ili da natjerate sastavljače podataka da provjere zapise umjesto vas.

Također bih predložio robusne metode regresije i transparentno izvještavanje o opaženim opažanjima, kako su predložili Rob i Chris.

Nadam se da ovo pomaže, Brenden

#5
+7
Harvey Motulsky
2010-07-27 10:41:12 UTC
view on stackexchange narkive permalink

Objavio sam metodu za prepoznavanje odstupanja u nelinearnoj regresiji, a može se koristiti i prilikom ugradnje linearnog modela.

HJ Motulsky i RE Brown. Otkrivanje izvanrednih vrijednosti prilikom uklapanja podataka s nelinearnom regresijom - nova metoda koja se temelji na robusnoj nelinearnoj regresiji i stopi lažnog otkrivanja. BMC Bioinformatics 2006, 7: 123

#6
+6
Sympa
2010-09-25 05:38:40 UTC
view on stackexchange narkive permalink

Postoje dvije statističke mjere udaljenosti koje su posebno namijenjene otkrivanju izvanrednih vrijednosti, a zatim razmatranju trebaju li se takve izvanredne vrijednosti ukloniti iz vaše linearne regresije.

Prva je Cookova udaljenost. Prilično dobro objašnjenje možete pronaći na Wikipediji: http://en.wikipedia.org/wiki/Cook%27s_distance.

Što je Cookova udaljenost veća, to je više utjecajno (utjecaj na koeficijent regresije) promatranje je. Tipična granična točka za razmatranje uklanjanja opažanja je Cookova udaljenost = 4 / n (n je veličina uzorka).

Drugi je DFFITS koji je također dobro pokriven Wikipedijom: http://en.wikipedia.org/wiki/DFFITS. Tipična granica za razmatranje uklanjanja promatranje je DFFITS vrijednost 2 puta sqrt (k / n) gdje je k broj varijabli, a n veličina uzorka.

Obje mjere obično daju slične rezultate što dovodi do sličnog odabira promatranja.

#7
+3
Paul
2010-07-26 14:46:48 UTC
view on stackexchange narkive permalink

Smeće ulazi, smeće izlazi ....

Implicitno postizanje pune koristi linearne regresije je da buka prati normalnu raspodjelu. U idealnom slučaju imate uglavnom podatke i malo šuma .... ne uglavnom buku i malo podataka. Možete ispitati normalnost ostataka nakon linearnog uklapanja gledajući ostatke. Također možete filtrirati ulazne podatke prije linearnog uklapanja zbog očiglednih, eklatantnih pogrešaka.

Evo nekoliko vrsta buke u ulaznim podacima za smeće koje obično ne odgovaraju normalnoj distribuciji:

  • Znamenke nedostaju ili se dodaju ručno unesenim podacima (isključuje faktor od 10 ili više)
  • Pogrešne ili pogrešno pretvorene jedinice (grami u odnosu na kilograme u kilogramima; metri, stope, milje, km), moguće od spajanja više skupova podataka (Napomena: Smatralo se da je Mars Orbiter izgubljen na taj način, tako da čak i NASA-ini raketni znanstvenici mogu napraviti ovu pogrešku)
  • Upotreba kodova poput 0, -1, -99999 ili 99999 u značenju ne-brojčanog tipa poput "nije primjenjivo" ili "stupac nedostupan" i samo izbacivanje ovog u linearni model zajedno s važećim podacima

Pisanje specifikacije za "valjane podatke" za svaki stupac može vam pomoći da označite nevaljane podatke. Na primjer, visina osobe u cm trebala bi biti u rasponu, recimo, 100-300 cm. Ako za visinu nađete 1,8, to je pogreška u kucanju, a iako možete pretpostaviti da je bila 1,8 m i izmijeniti je na 180 - rekao bih da je obično sigurnije izbaciti je i najbolje dokumentirati što veći dio filtriranja.

#8
+1
babelproofreader
2010-07-21 06:23:01 UTC
view on stackexchange narkive permalink

Za linearnu regresiju mogli biste upotrijebiti ponovljeno poravnanje srednje linije.

#9
+1
mkrasmus
2016-12-09 06:58:11 UTC
view on stackexchange narkive permalink

Statistički testovi koji će se koristiti kao osnova za izuzeće: - standardizirani ostaci - statistika utjecaja - Cookova udaljenost, koja je kombinacija gore spomenutog.

Iz iskustva, izuzeće treba ograničiti na slučajevenetočan unos podataka.Ponderiranje outliers-a u modelu linearne regresije vrlo je dobra metoda kompromisa.Primjenu ovoga u R nudi Rob.Sjajan primjer je ovdje: http://www.ats.ucla.edu/stat/r/dae/rreg.htm

Ako je potrebno izuzeće, 'jedno pravilo odthumb 'odnosi se na Dfbeta statistiku (mjeri promjenu u procjeni kada se odstupanje izbriše), tako da ako apsolutna vrijednost DfBeta statistike prelazi 2 / sqrt (n), to opravdava uklanjanje odstupanja.

#10
  0
Ankit Kumar
2020-06-20 17:40:34 UTC
view on stackexchange narkive permalink

u linearnoj regresiji možemo se nositi s odstupanjima slijedeći korake u nastavku:

  1. Korištenjem podataka o treningu pronađite najbolji hiperravan ili liniju koji najbolje odgovaraju
  2. Pronađite točke udaljene od crte ili hiperravnine
  3. pokazivač koji je vrlo daleko od hiperravnine uklonite ih uzimajući u obzir te točke kao odstupanje.tj. D (vlak) = D (vlak) -putiji
  4. prekvalificirati model
  5. prijeđite na prvi korak.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 2.0 licenci pod kojom se distribuira.
Loading...