Pitanje:
Zašto se ANOVA podučava / koristi kao da se radi o drugoj metodologiji istraživanja u usporedbi s linearnom regresijom?
user28
2010-07-23 20:17:57 UTC
view on stackexchange narkive permalink

ANOVA je ekvivalent linearnoj regresiji uz upotrebu prikladnih lažnih varijabli. Zaključci ostaju isti bez obzira upotrebljavate li ANOVA ili linearnu regresiju.

S obzirom na njihovu ekvivalentnost, postoji li razlog zašto se ANOVA koristi umjesto linearne regresije?

Napomena: Posebno me zanima slušanje o tehničkim razlozima upotrebe ANOVA umjesto linearne regresije.

Evo jednog primjera korištenja jednosmjerne ANOVE. Pretpostavimo da želite znati je li prosječna visina mužjaka i ženki jednaka. Da biste testirali svoju hipotezu, prikupili biste podatke iz slučajnog uzorka muškaraca i žena (recimo po 30) i izvršili ANOVA analizu (tj. Zbroj kvadrata za spol i pogrešku) kako biste odlučili postoji li učinak.

Mogli biste upotrijebiti i linearnu regresiju da to testirate na sljedeći način:

Definirajte: $ \ text {Gender} = 1 $ ako je ispitanik muško, a $ 0 $ inače. $$ \ text {Height} = \ text {Intercept} + \ beta * \ text {Gender} + \ text {error} $$ gdje je: $ \ text {error} \ sim \ mathcal N (0, \ sigma ^ 2) $

Zatim test je li $ \ beta = 0 $ ekvivalentan test za vašu hipotezu.

Ako se ne varam, linearna regresija je procjena koeficijenata koji definiraju dobru linearnu kartu od X do Y. ANOVA je test kojim se utvrđuje postoje li značajne razlike u X kada Y zauzima dvije različite vrijednosti. Možete li nam objasniti zašto mislite da su isti?
ANOVA se može vidjeti kao "sintaktički šećer" za posebnu podskupinu modela linearne regresije. ANOVA redovito koriste istraživači koji nisu statističari po obrazovanju. Oni su sada "institucionalizirani" i teško ih je vratiti natrag u upotrebu općenitijeg predstavljanja ;-)
Podržali ste vaš komentar, ali eksperimentalisti su još luđi nego što sam mislio ako je ovo za njih sintaktički šećer! Koja je verzija intuitivnija .... ANOVA test hipoteze na $ \ beta $: je li omjer objašnjene varijance i neobjašnjive varijance dovoljno visok? T-test na $ \ beta $ terminu regresijskog modela: je li učinak $ \ beta $ dovoljno različit od nule? A, s potonjom formulacijom dobivate i smjer promjene. A ako ste morali transformirati podatke, možete pretvoriti procjenu parametra u fizički značajnu količinu. Za razliku od SS-a.
Također pogledajte https://stats.stackexchange.com/questions/268006/whats-the-difference-between-regression-and-analysis-of-variance
Pet odgovori:
#1
+56
Graham Cookson
2010-07-23 20:35:56 UTC
view on stackexchange narkive permalink

Kao ekonomist, analiza varijance (ANOVA) podučava se i obično se razumije u odnosu na linearnu regresiju (npr. u Tečaj ekonometrije Arthura Goldbergera). Ekonomisti / ekonometričari ANOVU obično smatraju nezanimljivom i radije prelaze ravno na regresijske modele. Iz perspektive linearnih (ili čak generaliziranih linearnih) modela, ANOVA dodjeljuje koeficijente u serije, pri čemu svaka serija odgovara "izvoru varijacije" u terminologiji ANOVA.

Općenito možete ponoviti zaključke koje biste dobili iz ANOVE koristeći regresiju, ali ne uvijek OLS regresiju. Modeli na više razina potrebni su za analizu hijerarhijskih struktura podataka, poput "dizajna podijeljene parcele", gdje se efekti između grupa uspoređuju s pogreškama na razini grupe, a efekti unutar grupe uspoređuju s pogreškama na razini podataka. Gelmanov rad [1] ulazi u detalje o ovom problemu i učinkovito tvrdi da je ANOVA važan statistički alat koji se još uvijek treba podučavati zbog sebe.

Gelman posebno tvrdi da je ANOVA način razumijevanja i strukturiranja višerazinskih modela. Stoga ANOVA nije alternativa regresiji već kao alat za sažimanje složenih visoko-dimenzionalnih zaključaka i za analizu istraživačkih podataka.

Gelman je ugledni statističar i njegovu stajalištu treba dati određenu vjeru. Međutim, gotovo bi sav empirijski posao koji radim bio podjednako dobro poslužio linearnom regresijom, tako da čvrsto padam u tabor promatrajući ga pomalo besmislenim. Neke discipline sa složenim dizajnom studija (npr. Psihologija) mogu smatrati ANOVA korisnim.

[1] Gelman, A. (2005). Analiza varijance: zašto je važnija nego ikad (uz raspravu). Anali statistike 33, 1–53. doi: 10.1214 / 009053604000001048

Hvala na referenci o Gelmanu. Pročitat ću njegov rad. Ali, ne možemo li analizirati višerazinske modele koristeći klasičnu maksimalnu vjerojatnost? Slažem se da je OLS neučinkovit / neprikladan za višerazinske modele.
@Srikant - postoji mnogo načina za rješavanje podataka na više razina, a Gelman je "kralj" ovog polja. Njegova je poanta da je ANOVA jednostavna / jasna metoda hvatanja ključnih značajki složenih i hijerarhijskih struktura podataka ili dizajna studija, a ANOVA je jednostavan / jasan način predstavljanja ključnih rezultata. U tom je smislu njegova uloga komplementarna ili istraživačka.
+1 za lijep jasan odgovor. Stavak 3. u osnovi je ono što sam predavao kao student biologije, s naglaskom na lakoći kombiniranja kontinuiranih i kategorijalnih neovisnih varijabli u ANOVA okviru.
#2
+24
ars
2010-07-23 23:42:05 UTC
view on stackexchange narkive permalink

Mislim da je Grahamov drugi odlomak u srži stvari. Pretpostavljam da nije toliko tehnički nego povijesni, vjerojatno zbog utjecaja " statističkih metoda za istraživačke radnike" i lakoće podučavanja / primjene alata za nestaliste u eksperimentalnoj analizi koja uključuje diskretne čimbenike , umjesto da se upušta u izradu modela i povezane alate. U statistici se ANOVA obično uči kao poseban slučaj regresije. (Mislim da je to slično onome zašto je biostatistika ispunjena bezbrojem istoimenih "testova", umjesto da naglašava izgradnju modela.)

#3
+14
Michael R. Chernick
2012-08-18 20:29:37 UTC
view on stackexchange narkive permalink

Rekao bih da neki od vas koriste izraz regresija kad bi trebali koristiti opći linearni model. Regresiju smatram glmom koji uključuje kontinuirane kovarijate. Kada se kontinuirane kovarijante kombiniraju s lažnim varijablama, to bi trebalo nazvati analizom kovarijance. Ako se koriste samo lažne varijable, taj posebni oblik glm-a nazivamo analizom varijance. Mislim da analiza varijance ima drugo drugo značenje kao postupak ispitivanja značajnih koeficijenata u glm-u pomoću raščlanjivanja varijance na komponente modela i komponentu pogreške.

(+1) Također sam odmah primijetio dvosmislenu terminologiju "regresija" tijekom rasprave.
(+1) GLM bi mogao biti najbolji način za razdvajanje različitih značenja. Također treba napomenuti da su se u povijesti ANOVA-e koristili postupci izračuna koji prikrivaju vezu između OLS-a i ANOVA-e. Nomenklatura bi se stoga mogla opravdati povijesnim razlozima.
#4
+10
Ηλίας
2010-10-13 13:53:32 UTC
view on stackexchange narkive permalink

ANOVA se može koristiti s kategoričnim varijablama objašnjenja (čimbenicima) koje zauzimaju više od 2 vrijednosti (razine) i daje osnovni test da je srednji odgovor jednak za svaku vrijednost. Time se izbjegava problem regresije pri provođenju višestrukih t-testova u parovima između tih razina:

  • Više t-testova na fiksnoj razini značajnosti od 5%, otprilike 5% od njih dalo bi pogrešne rezultate.
  • Ovi testovi nisu međusobno neovisni. Usporedba razina A s B povezana je s usporedbom A s C, jer se podaci A koriste u oba testa.

Bolje je koristiti kontraste za različite kombinacije na razine faktora koje želite testirati.

Možda biste željeli pojasniti ovaj odgovor; kao što je napisano, vidim 3 broja. Prva dva su pomalo izbirljiva, ali bi ih ipak trebalo urediti, treća je sadržajna u kontekstu ove rasprave. (1) ANOVA se može koristiti sa samo 2 skupine (iako većina ljudi tada samo izvrši t-test). (2) više t-testova w / $ \ alpha = .05 $ asimptotski će dati pogreške tipa I za 5% onih kontrasta kod kojih * ne postoji stvarna razlika *; koliko će se pogrešaka dogoditi ovisi o tome koliko je nula istinitih.
(3) vaš odgovor implicira da se problem višestruke usporedbe odnosi na OLS regresiju, a ako nije pravilno, ako se pravilno provede. Ispravan način testiranja faktora u regresijskom kontekstu je testiranje ugniježđenog modela sa svim faktorskim lutkama spuštenim u odnosu na puni model, uključujući sve faktorske lutke. Ovaj test identičan je onom koji provodi ANOVA. Istina je da ne biste trebali koristiti testove pojedinačnih lažnih varijabli (što pretpostavljam da je ono što ovdje pokušavate opisati).
#5
+4
Jamal
2013-10-19 21:30:46 UTC
view on stackexchange narkive permalink

ANOVA ispitujete postoji li značajna razlika između sredstava populacije pod pretpostavkom da uspoređujete više od dva sredstva populacije, tada ćete koristiti F test.

U regresijskoj analizi gradite model između neovisnih varijabli i ovisne varijable. Ako imate jednu neovisnu varijablu s četiri razine, možete koristiti tri lažne varijable i pokrenuti regresijski model. F-test za regresijski model koji se koristi za testiranje značajnosti regresijskog modela jednak je F koji dobijate pri testiranju razlike između srednjih vrijednosti populacije. Ako pokrenete postupnu regresiju, neke će se lažne varijable možda izbaciti iz modela, a vaša F-vrijednost razlikovat će se od one kada provodite ANOVA test.

To čini da je ANOVA postupak ispitivanja, a regresija postupak modeliranja u kojem možete provoditi ispitivanja. Ali ANOVA također ima temeljni model, bez obzira je li to naglašeno u svim uvodnim tretmanima. Dakle, ovaj odgovor ne bilježi nikakvu razliku među njima. Niti se to rješava na tom pitanju, zbog čega se poučavaju kao različiti bez obzira na jake sličnosti.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 2.0 licenci pod kojom se distribuira.
Loading...