Pitanje:
Koja je razlika između korelacije i jednostavne linearne regresije?
Neil McGuigan
2010-08-26 04:53:00 UTC
view on stackexchange narkive permalink

Osobito se referiram na Pearsonov koeficijent korelacije proizvoda i trenutka.

Imajte na umu da se jedan pogled na odnos između regresije i korelacije može razabrati iz mog odgovora ovdje: [Koja je razlika između linearne regresije na y s x u odnosu na x s y?] (Http://stats.stackexchange.com/questions / 22718 // 22721 # 22721).
Deset odgovori:
#1
+117
Jeromy Anglim
2010-08-26 07:48:15 UTC
view on stackexchange narkive permalink

Koja je razlika između korelacije između $ X $ i $ Y $ i linearne regresije koja predviđa $ Y $ iz $ X $?

Prvo, neke sličnosti :

  • standardizirani koeficijent regresije jednak je Pearsonovom koeficijentu korelacije
  • Kvadrat Pearsonovog koeficijenta korelacije jednak je $ R ^ 2 $ u jednostavnoj linearnoj regresiji
  • Ni jednostavna linearna regresija ni korelacija ne odgovaraju izravno na pitanja kauzalnosti. Ova je poanta važna, jer sam upoznao ljude koji misle da jednostavna regresija može čarobno dopustiti zaključak da $ X $ uzrokuje $ Y $.

Drugo, neke razlike :

  • Regresijska jednadžba (tj. $ a + bX $) može se koristiti za predviđanje $ Y $ na temelju vrijednosti $ X $
  • Dok korelacija se obično odnosi na linearni odnos, može se odnositi i na druge oblike ovisnosti, poput polinomskih ili doista nelinearnih odnosa
  • Iako se korelacija obično odnosi na Pearsonov koeficijent korelacije, postoje i druge vrste korelacije, poput Spearmanove .
Pozdrav Jeromy, hvala na objašnjenju, ali ovdje još uvijek imam pitanje: Što ako ne trebam prognozirati i samo želim znati koliko su dvije varijable bliske i u kojem smjeru / snazi? Postoji li još uvijek drugačija upotreba ove dvije tehnike?
@yue86231 Tada zvuči kao da bi mjera korelacije bila prikladnija.
(+1) Sličnostima bi moglo biti korisno dodati da standardni testovi hipoteze "korelacija = 0" ili, ekvivalentno tome, "nagib = 0" (za regresiju u bilo kojem redoslijedu), kao što ih provodi `lm`i `cor.test` u` R`, dobit će identične p-vrijednosti.
Slažem se da treba dodati prijedlog @whuber, ali na vrlo osnovnoj razini mislim da vrijedi istaknuti da su * znak * nagiba regresije i koeficijent korelacije jednaki.To je vjerojatno jedna od prvih stvari koje većina ljudi sazna o odnosu korelacije i "linije koja najbolje odgovara" (čak i ako je još ne zovu "regresija"), ali mislim da je to vrijedno pažnje.S obzirom na razlike, činjenica da ćete dobiti isti odgovor korelacije X s Y ili obrnuto, ali da je regresija Y na X različita od one X na Y, također bi mogla zavrijediti spomen.
#2
+36
Harvey Motulsky
2010-08-26 08:21:46 UTC
view on stackexchange narkive permalink

Evo odgovora koji sam objavio na web mjestu graphpad.com:

Korelacija i linearna regresija nisu isto. Razmotrite ove razlike:

  • Korelacija kvantificira stupanj povezanosti dviju varijabli. Korelacija ne odgovara liniji kroz podatke.
  • Uz korelaciju ne morate razmišljati o uzroku i posljedici. Jednostavno kvantificirate koliko su dvije varijable međusobno povezane. S regresijom morate razmišljati o uzroku i posljedici jer je regresijska crta određena kao najbolji način za predviđanje Y iz X.
  • Uz korelaciju, nije važno koju od dvije varijable pozivate "X" i koje vi nazivate "Y". Dobit ćete isti koeficijent korelacije ako ih zamijenite. S linearnom regresijom, odluka o tome koju varijablu nazivate "X", a koju "Y" je puno važna, jer ćete zamijeniti dvije najbolje crte. Linija koja najbolje predviđa Y iz X nije isto što i linija koja predviđa X iz Y (osim ako imate savršene podatke bez rasipanja.)
  • Korelacija se gotovo uvijek koristi kada mjerite obje varijable. Rijetko je prikladno kada je jedna varijabla nešto čime eksperimentalno manipulirate. S linearnom regresijom, varijabla X obično je nešto čime eksperimentalno manipulirate (vrijeme, koncentracija ...), a varijabla Y nešto što mjerite.
"najbolji način za predviđanje Y iz X" nema nikakve veze s uzrokom i posljedicom: X bi mogao biti uzrok Y ili obrnuto. Može se rasuđivati ​​od uzroka do posljedica (odbitak) ili od posljedica do uzroka (otmica).
"dobit ćete drugu najprikladniju liniju ako zamijenite njih dvije" pomalo vara;standardizirani nagibi bit će isti u oba slučaja.
#3
+26
russellpierce
2010-08-26 11:37:23 UTC
view on stackexchange narkive permalink

U pojedinačnom slučaju prediktora linearne regresije, standardizirani nagib ima istu vrijednost kao koeficijent korelacije. Prednost linearne regresije je u tome što se odnos može opisati na takav način da možete predvidjeti (na temelju odnosa između dvije varijable) rezultat na predviđenoj varijabli s obzirom na bilo koju određenu vrijednost prediktorske varijable. Konkretno jedan podatak linearnom regresijom daje vam da korelacija nije presretanje, vrijednost predviđene varijable kada je prediktor 0.

Ukratko - računski daju identične rezultate, ali postoje je više elemenata koji su sposobni za interpretaciju u jednostavnoj linearnoj regresiji. Ako vas zanima jednostavno karakteriziranje veličine odnosa između dvije varijable, upotrijebite korelaciju - ako ste zainteresirani za predviđanje ili objašnjenje rezultata u određenim vrijednostima, vjerojatno želite regresiju.

"Konkretno jedan podatak linearnom regresijom daje vam da korelacija nije presretanje" ... Velika razlika!
Pa, osvrćući se na to, istina je samo da regresija pruža presretanje jer je to zadana za mnoge statističke pakete.Jednostavno se može izračunati regresija bez presretanja.
Da, mogao bi se lako izračunati regresija bez presretanja, ali to bi rijetko kad bilo smisleno: https://stats.stackexchange.com/questions/102709/when-forcing-intercept-of-0-in-linear-regression-is-prihvatljivo-preporučljivo / 102712 # 102712
@kjetilbhalvorsen Osim kao u slučaju koji sam opisao kada postavljate standardizirani nagib.Član presjeka u standardiziranoj regresijskoj jednadžbi uvijek je 0. Zašto?Budući da su i IV i DV standardizirani na jedinične ocjene - rezultat je presretanja definitivno 0. Upravo takav slučaj opisujete u svom odgovoru. (ekvivalentno standardizaciji IV i DV).Kada su i IV i DV standardizirani na 0, presjek je definitivno 0.
#4
+13
vonjd
2018-05-05 16:05:26 UTC
view on stackexchange narkive permalink

Svi dosadašnji odgovori pružaju važne uvide, ali ne treba zaboraviti da parametre jednog možete transformirati u drugi:

Regresija: $ y = mx + b $

Povezanost između regresijskih parametara i korelacije, kovarijance, varijance, standardne devijacije i sredstava: $$ m = \ frac {Cov (y, x)} {Var (x)} = \ frac {Cor (y, x) \ cdot Sd (y)} {Sd (x)} $$ $$ b = \ bar {y} -m \ bar {x} $$

Dakle, oboje možete transformirati skaliranjem i pomicanjem njihovih parametara.

Primjer u R:

  y <- c (4.17, 5.58, 5.18, 6.11, 4.50, 4.61, 5.17, 4.53, 5.33, 5.14)
x <- c (4.81, 4.17, 4.41, 3.59, 5.87, 3.83, 6.03, 4.89, 4.32, 4.69)
lm (y ~ x)
##
## Poziv:
## lm (formula = y ~ x)
##
## Koeficijenti:
## (presretanje) x
## 6.5992 -0,3362
(m <- cov (y, x) / var (x)) # nagib regresije
## [1] -0,3362361
cor (y, x) * sd (y) / sd (x) # isto s korelacijom
## [1] -0,3362361
srednja vrijednost (y) - m * srednja vrijednost (x) # presretanje
## [1] 6,599196
 
#5
+11
syeda maryium fatima
2010-10-22 14:17:26 UTC
view on stackexchange narkive permalink

Analiza korelacije samo kvantificira odnos između dvije varijable zanemarujući koja je ovisna varijabla, a koja neovisna. Ali prije regresije primjene morate utvrditi utjecaj koje varijable želite provjeriti na drugu varijablu.

#6
+3
radia
2012-09-21 00:18:40 UTC
view on stackexchange narkive permalink

Iz korelacije možemo dobiti samo indeks koji opisuje linearni odnos između dvije varijable; u regresiji možemo predvidjeti odnos između više od dvije varijable i pomoću nje možemo identificirati koje varijable x mogu predvidjeti varijablu ishoda y .

#7
+3
Carlo Lazzaro
2013-12-11 17:31:42 UTC
view on stackexchange narkive permalink

Citirajući Altmana DG-a, "Praktična statistika za medicinska istraživanja" Chapman & Hall, 1991., stranica 321: "Korelacija smanjuje skup podataka na jedan broj koji nema izravne veze sa stvarnim podacima. Regresija je puno korisnija metoda, s rezultatima koji su jasno povezani s dobivenim mjerenjima. Snaga veze je eksplicitna, a nesigurnost se može jasno vidjeti iz intervala pouzdanosti ili intervala predviđanja "

Iako suosjećam s Altmanom - regresijske metode često su prikladnije od korelacije u mnogim slučajevima - ovaj citat postavlja argument slama.U OLS regresiji proizvedene informacije ekvivalentne su onima koje daju informacije koje ulaze u izračun korelacije (svi prvi i drugi bivarijantni momenti i njihove standardne pogreške), a koeficijent korelacije daje iste informacije kao i nagib regresije.Ta se dva pristupa ponešto razlikuju u temeljnim modelima podataka koje pretpostavljaju i u njihovoj interpretaciji, ali ne i u načinima na koje tvrdi Altman.
#8
+1
Kanon Das Zinku
2014-10-22 21:57:46 UTC
view on stackexchange narkive permalink

Regresijska analiza tehnika je za proučavanje uzroka posljedice veze između dvije varijable. dok je korelacijska analiza tehnika za proučavanje kvantificiranja odnosa između dvije varijable.

Dobrodošli u životopis!S obzirom na to da na ovo pitanje već postoji toliko odgovora, želite li ih pogledati i vidjeti dodaje li vaš nešto novo?Ako imate još što za reći, možete to urediti da biste to učinili.
#9
  0
Jdub
2012-06-20 00:51:58 UTC
view on stackexchange narkive permalink

Korelacija je indeks (samo jedan broj) snage veze. Regresija je analiza (procjena parametara modela i statistički test njihove značajnosti) adekvatnosti određenog funkcionalnog odnosa. Veličina korelacije povezana je s koliko će precizne biti predviđanja regresije.

Ne, nije.Korelacija nam daje ograničeni odnos, ali se ne odnosi na to koliko bi predviđanja mogla biti točna.R2 daje to.
#10
-3
shakir sabir
2014-08-14 13:28:47 UTC
view on stackexchange narkive permalink

Korelacija je pojam u statistici koji određuje postoji li veza između dvoje i stupnja povezanosti. Raspon je od -1 do +1. Dok regresija znači povratak prema prosjeku. Iz regresije predviđamo vrijednost zadržavajući jednu varijablu ovisnom, a drugu neovisnom, ali treba pojasniti vrijednost kojoj varijabli želimo predvidjeti.

Pozdrav, @shakir, i dobrodošli u Cross Validated! Vjerojatno ste primijetili da je ovo staro pitanje (iz 2010.) i na njega je već dato sedam (!) Odgovora. Bilo bi dobro osigurati da vaš novi odgovor doda nešto važno u raspravu koja prije nije bila obrađivana. Trenutno nisam siguran da je to slučaj.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 2.0 licenci pod kojom se distribuira.
Loading...