Pitanje:
Koji su glavni rezultati komponenata?
vrish88
2010-07-20 10:37:47 UTC
view on stackexchange narkive permalink

Koji su glavni rezultati komponenata (PC rezultati, PCA rezultati)?

el chef ovdje ima sažeti odgovor -> http://stats.stackexchange.com/questions/146/pca-scores-in-multiple-regression. HTH
[Rezultati računala / faktori kao izračunati standardizirani kroz opterećenja] (http://stats.stackexchange.com/q/126885/3277).
[Rezultati računala i učitavanja računara kao samo koordinate reda i stupca na biplotu] (http://stats.stackexchange.com/q/141754/3277).
(Standardizirano) [PC rezultati (i faktorski rezultati nekoliko vrsta)] (http://stats.stackexchange.com/q/126885/3277).
Sedam odgovori:
#1
+71
Tony Breyal
2010-07-20 17:02:27 UTC
view on stackexchange narkive permalink

Prvo, definirajmo rezultat.

John, Mike i Kate dobivaju sljedeće postotke za ispite iz matematike, znanosti, engleskog jezika i glazbe kako slijedi:

  Matematika Znanost Engleski Glazba John 80 85 60 55 Mike 90 85 70 45Kate 95 80 40 50  

U ovom slučaju ima ukupno 12 rezultata. Svaka ocjena predstavlja rezultate ispita za svaku osobu iz određenog predmeta. Dakle, rezultat u ovom slučaju je jednostavno prikaz mjesta gdje se redak i stupac sijeku.

Ajmo sada neformalno definirati glavnu komponentu.

U tablici gore, možete li jednostavno ucrtati podatke u 2D graf? Ne, jer postoje četiri predmeta (što znači četiri varijable: matematika, znanost, engleski jezik i glazba), tj .:

  • Dva predmeta biste mogli nacrtati na potpuno isti način kao i s $ x $ i $ y $ koordinate u 2D grafu.
  • Možete čak i tri subjekta nacrtati na isti način kao što biste ucrtali $ x $, $ y $ i $ z $ u 3D graf (iako je to općenito loša praksa, jer je izobličenje neizbježno u 2D prikaz 3D podataka).

Ali kako biste ucrtali 4 predmeta?

Trenutno imamo četiri varijable koje svaka predstavljaju samo jedan predmet. Dakle, metoda oko toga može biti kombiniranje subjekata u možda samo dvije nove varijable koje onda možemo zacrtati. To je poznato kao višedimenzionalno skaliranje .

Analiza glavne komponente oblik je višedimenzionalnog skaliranja. To je linearna transformacija varijabli u prostor niže dimenzije koji zadržava maksimalnu količinu informacija o varijablama. Na primjer, to bi značilo da bismo mogli pogledati vrste predmeta kojima svaki student možda više odgovara.

Glavna komponenta je stoga kombinacija izvornih varijabli nakon linearne transformacije. U R, ovo je:

  DF<-data.frame (Matematika = c (80, 90, 95), Znanost = c (85, 85, 80), engleski = c (60, 70, 40), Glazba = c (55, 45, 50)) prcomp (DF, razmjera = FALSE)  

Što će vam dati ovako nešto (prve dvije glavne komponente samo zbog sebe jednostavnosti):

  PC1 PC2Maths 0,27795606 0,76772853 Znanost -0,17428077 -0,08162874 engleski -0,94200929 0,19632732 Glazba 0,07060547 -0.60447104 

Prvi stupac ovdje prikazuje koeficijente linearnih kombinacija koja definira glavnu komponentu # 1, a drugi stupac prikazuje koeficijente za glavnu komponentu br. 2.

Pa što je ocjena glavne komponente?

To je rezultat iz tablice na kraju ovog posta (vidi dolje).

Gornji izlaz iz R-a znači da sada možemo na 2D grafikonu prikazati ocjenu svake osobe za sve predmete u 2D grafu. Prvo, moramo centrirati izvorne varijable što moj oduzimajući stupac znači:

  Maths Science English Music John -8,33 1,66 3,33 5 Mike 1,66 1,66 13,33 -5Kate 6,66 -3,33 -16,66 0  

A zatim za formiranje linearnih kombinacija da bi se dobili PC1 i PC2 bodovi:

  x yJohn -0,28 * 8,33 + -0,17 * 1,66 + - 0,94 * 3,33 + 0,07 * 5 -0,77 * 8,33 + -0,08 * 1,66 + 0,19 * 3,33 + -0,60 * 5 Mike 0,28 * 1,66 + -0,17 * 1,66 + -0,94 * 13,33 + -0,07 * 5 0,77 * 1,66 + -0,08 * 1,66 + 0,19 * 13,33 + -0,60 * 5Kate 0,28 * 6,66 + 0,17 * 3,33 + 0,94 * 16,66 + 0,07 * 0 0,77 * 6,66 + 0,08 * 3,33 + -0,19 * 16,66 + -0,60 * 0  

Što pojednostavljuje na:

  x yJohn -5,39 -8,90Mike -12,74 6.78Kate 18.13 2.12  

Postoji šest glavnih komponenata bodovi u gornjoj tablici. Sada rezultate možete ucrtati u 2D graf kako biste stekli dojam o vrsti predmeta kojima je svaki student možda prikladniji.

Isti izlaz može se dobiti u R ukucavanjem prcomp (DF, scale = FALSE) $ x .

EDIT 1: Hmm, vjerojatno bih mogao smisliti bolji primjer, i tu ima više od onoga što sam ovdje stavio, ali nadam se da ste shvatili.

EDIT 2: u cijelosti zahvaljujem @drpaulbreweru za njegov komentar na poboljšanje ovog odgovora.

Trud je hvalevrijedan - ALI - ni PC1 ni PC2 ne govore tko je najbolje prošao u svim predmetima. Da bi to učinili, svi koeficijenti predmeta na računalu morali bi biti pozitivni. PC1 ima pozitivne težine za matematiku i glazbu, ali negativne za znanost i engleski jezik. PC2 ima pozitivne težine za matematiku i engleski jezik, ali negativne za znanost i glazbu. Ono što vam kažu računala je gdje je najveća varijansa u skupu podataka. Dakle, ponderiranjem ispitanika s koeficijentima u PC1 i korištenjem toga za ocjenjivanje učenika, dobivate najveće odstupanje ili širenje u ponašanju učenika. Može klasificirati vrste, ali ne i izvedbu.
+1 dobar komentar, živjeli. Naravno, u pravu ste, to sam trebao bolje napisati i sada urediti uvredljivi redak kako bih to jasno učinio, nadam se.
Možete standardizirati vare, pa izračunati zbroj, kako biste vidjeli tko je najbolji, ili ako želite, u R: `primijeniti (dtf, 1, funkcija (x) zbroj (skala (x)))`
Ne bi li redak "Trenutno imamo četiri varijable od kojih svaka predstavlja samo jedan subjekt" trebao glasiti "Trenutno imamo TRI varijable koje svaka predstavljaju samo jedan predmet"?
@JohnPrior Četiri varijable (stupci) su Matematika, Znanost, Engleski i Glazba, a redovi predstavljaju pojedince.Pojam "subjekt" ponekad postaje dvosmislen jer sam prije pet godina za odgovor odabrao grozan primjer.
@Tony, Nastavio sam i uredio vaš odgovor kako bih centrirao varijable prije izračunavanja rezultata.Sada se izračunati rezultati uklapaju u ono što `prcomp` daje.Prije nije.
Nije li ono što nazivate "Glavnim komponentama" zapravo samo svojstveni vektori ($ W $)?A ono što vi nazivate "rezultatima glavnih komponenata" zapravo su "glavne komponente" ($ PC $) bez ikakvih "rezultata"?Dakle, $ PC = XW $.Zašto miješati stvari s razgovorom o "rezultatima", "faktorima", "učitavanju" itd.?
#2
+23
seancarmody
2010-07-20 11:23:22 UTC
view on stackexchange narkive permalink

Analiza glavnih komponenata (PCA) jedan je od popularnih pristupa koji analizira varijance kada se radi o viševarijantnim podacima. Imate slučajne varijable X1, X2, ... Xn koje su sve korelirane (pozitivno ili negativno) u različitim stupnjevima i želite bolje razumjeti što se događa. PCA vam može pomoći.

PCA vam daje promjenu varijable u Y1, Y2, ..., Yn (tj. Isti broj varijabli) koje su linearne kombinacije X-a. Na primjer, možda imate Y1 = 2,1 X1 - 1,76 X2 + 0,2 X3 ...

Lijepo je svojstvo da svaki od njih međusobno ima nultu korelaciju. Još bolje, dobivate ih u opadajućem redoslijedu odstupanja. Dakle, Y1 "objašnjava" velik dio varijance izvornih varijabli, Y2 nešto manje i tako dalje. Obično nakon prvih nekoliko Y, varijable postaju pomalo besmislene. PCA rezultat za bilo koji od Xi samo je njegov koeficijent u svakom od Y. U mom ranijem primjeru, rezultat za X2 u prvoj glavnoj komponenti (Y1) je 1,76.

Način na koji PCA čini ovu magiju izračunava vlastite vektore matrice kovarijance.

Za navedite konkretan primjer, zamislite X1, ... X10 su promjene u prinosu od 1 godine, 2 godine, ..., 10 godina u trezorskim obveznicama u određenom vremenskom razdoblju. Kada računate PCA, obično utvrdite da prva komponenta ima ocjene za svaku vezu istog znaka i približno istog znaka. To vam govori da većina varijacija u prinosima obveznica dolazi od svega što se kreće na isti način: "paralelni pomaci" gore ili dolje. Druga komponenta obično pokazuje "zaoštravanje" i "izravnavanje" krivulje i ima suprotne znakove za X1 i X10.

Kako veća vrijednost Y "objašnjava" veći dio varijance? Je li to kako se izračunava PCA? Ako je tako, mislim da imam još jedno pitanje za objaviti;)
Točno - ako je varijansa računala, recimo 3,5, tada to računalo "objašnjava" varijabilnost 3,5 varijable iz početnog skupa. Budući da su računala aditivna, `PC1> PC2> ...> PCn`, a zbroj njihovih varijanci jednak je zbroju varijanci početnog skupa varijabli, budući da se PCA izračunava na osnovi kovarijantne matrice, tj. Varijable su standardizirane ( SD = 1, VAR = 1).
#3
+8
probabilityislogic
2011-08-28 05:03:40 UTC
view on stackexchange narkive permalink

Volim smatrati ocjene glavnih komponenata "u osnovi besmislenim" dok im zapravo ne date neko značenje. Tumačenje rezultata računala u terminima "stvarnosti" nezgodan je posao - i zaista ne može postojati jedinstveni način za to. Ovisi o tome što znate o određenim varijablama koje ulaze u PCA i o tome kako se međusobno odnose u smislu interpretacija.

Što se tiče matematike, volim rezultate PC-a tumačiti kao koordinate svake točke, s obzirom na glavne osi komponenata. Dakle, u sirovim varijablama imate $ \ bf {} x_i $ $ = (x_ {1i}, x_ {2i}, \ dots, x_ {pi}) $ što je "točka" u p-dimenzionalnom prostoru. U tim koordinatama to znači da je duž osi $ x_ {1} $ točka točka udaljena $ x_ {1i} $ od ishodišta. Sada je PCA u osnovi drugačiji način opisivanja ove "točke" - s obzirom na njezinu os glavne komponente, a ne na os "sirove varijable". Tako imamo $ \ bf {} z_i $ $ = (z_ {1i}, z_ {2i}, \ dots, z_ {pi}) = \ bf {} A (x_i- \ overline {x}) $, gdje $ \ bf {} A $ je matrica $ p \ puta p $ glavnih težina komponenata (tj. vlastiti vektori u svakom retku), a $ \ bf {} \ overline {x} $ je "centroid" podataka (ili srednja vrijednost vektor podatkovnih točaka).

Dakle, vlastite vektore možete smatrati opisom gdje su "ravne crte" koje opisuju računala. Tada rezultati glavne komponente opisuju gdje se nalazi svaka točka podataka na svakoj pravoj liniji, u odnosu na "centriod" podataka. Rezultate računala također možete zamisliti u kombinaciji s utezima / vlastitim vektorima kao niz predviđanja ranga 1 za svaku od izvornih točaka podataka, koje imaju oblik:

$$ \ hat {x} _ {ji} ^ {(k)} = \ overline {x} _j + z_ {ki} A_ {kj} $$

Gdje je $ \ hat {x} _ {ji} ^ {(k) } $ je predviđanje za $ i $ -to promatranje, za $ j $ -tu varijablu pomoću $ k $ -tog računala.

#4
+6
Jonas
2010-07-20 11:47:14 UTC
view on stackexchange narkive permalink

Recimo da imate oblak od N točaka u, recimo, 3D-u (koji se može navesti u nizu 100x3). Tada se analiza glavnih komponenata (PCA) u podatke uklapa proizvoljno orijentirani elipsoid. Rezultat glavne komponente je duljina promjera elipsoida.

U smjeru u kojem je promjer velik podaci se jako razlikuju, dok u smjeru u kojem je promjer mali podaci variraju u litrima. Ako ste željeli projicirati N-d podatke u dvodimenzionalnu grafiku raspršenja, nacrtajte ih duž dvije najveće glavne komponente, jer s tim pristupom prikazujete većinu varijance u podacima.

Bi li bilo kakve koristi ili biste ih mogli nacrtati na trodimenzionalnoj raspršenoj plohi?
#5
+4
Roman Luštrik
2010-07-20 11:24:33 UTC
view on stackexchange narkive permalink

Neka $ i = 1, \ dots, N $ indeksiraju retke, a $ j = 1, \ dots, M $ indeksiraju stupce. Pretpostavimo da linearizirate kombinaciju varijabli (stupaca):

$$ Z_ {i, 1} = c_ {i, 1} \ cdot Y_ {i, 1} + c_ {i, 2} \ cdot Y_ {i, 2} + ... + c_ {i, M} \ cdot Y_ {i, M} $$

Gornja formula u osnovi kaže množenje elemenata retka s određenom vrijednošću $ c $ (opterećenja) i zbroji ih po stupcima. Rezultirajuće vrijednosti ($ Y $ vrijednosti puta učitavanje) su bodovi.

Glavna komponenta (PC) je linearna kombinacija $ Z_1 = (Z_ {1,1}, ..., Z_ {N, 1} $) (vrijednosti po stupcima koji se nazivaju ocjene). U osnovi, računalo bi trebalo predstaviti najvažnije značajke varijabli (stupci). Ergo, možete izvući onoliko računala koliko ima varijabli (ili manje).

Izlaz iz R na PCA (lažni primjer) izgleda ovako. PC1, PC2 ... glavne su komponente 1, 2 ... Primjer u nastavku prikazuje samo prvih 8 glavnih komponenata (od 17). Iz PCA možete izvući i druge elemente, poput učitavanja i rezultata.

  Važnost komponenata: PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8Standardno odstupanje 1,0889 1,0642 1,0550 1,0475 1,0387 1,0277 1,0169 1,0105Odnos varijance 0,0697 0,0666 0,0655 0,0645 0,0635 0,0621 0,0608 0,0601Kumulativni udio 0,0697 0,1364 0.2018 0,2664 0,3298 0,3920 0,4528 0,5129  
Oprostite, ali što su opterećenja (c u vašoj formuli) i kako ih odrediti?
@vrish88 Vjerujem da su c "opterećenja" vlastitih vektora.Koliko razumijem, to su u osnovi samo ponderiranja koja dajete svakoj od varijabli.Tim to dobro objašnjava u svom odgovoru.
#6
+4
Tim
2010-07-27 00:58:28 UTC
view on stackexchange narkive permalink

Glavne komponente matrice podataka su parovi svojstveni vektor-vlastita vrijednost njegove matrice varijance-kovarijance. U osnovi, oni su dekorrelirani dijelovi varijance. Svaka je linearna kombinacija varijabli za promatranje - pretpostavimo da mjerite w, x, y, z na svakoj gomili ispitanika. Vaše prvo računalo moglo bi izgledati poput

0.5w + 4x + 5y - 1.5z

Ovdje su opterećenja (vlastiti vektori) (0.5, 4, 5, -1.5) . Rezultat (vlastita vrijednost) za svako promatranje je rezultirajuća vrijednost kada zamijenite promatrano (w, x, y, z) i izračunate zbroj.

To dobro dođe kada stvari projicirate na njihov glavni komponente (za, recimo, otkrivanje neobičnih slučajeva) jer na svaku ocjenjujete samo ocjene kao i bilo koje druge podatke. To može otkriti puno o vašim podacima ako je velik dio varijance povezan (== u prvih nekoliko računala).

Samo radi jasnoće, kad kažete "pretpostavimo da mjerite w, x, y, z na svakoj gomili predmeta", ne mislite na "subjekte" iz gornjeg odgovora @TonyBreyal-a, zar ne?Riječ "subjekti" upotrebljavate da bi bila sinonim za "zapažanja" / "zapisi" / "redovi podataka"?
#7
+3
russellpierce
2010-07-20 13:20:36 UTC
view on stackexchange narkive permalink

Rezultati glavnih komponenata su skupina ocjena koja se dobiva temeljem Analize glavnih komponenata (PCA). U PCA se analiziraju odnosi između skupine rezultata tako da se stvara jednak broj novih "imaginarnih" varijabli (aka glavne komponente). Prva od ovih novih imaginarnih varijabli maksimalno je u korelaciji sa svim izvornim skupinama varijabli. Sljedeća je nešto manje korelirana, i tako sve do trenutka da biste, ako ste koristili rezultate svih glavnih komponenata za predviđanje bilo koje zadane varijable iz početne skupine, mogli objasniti svu njezinu varijansu. Način na koji se PCA odvija složen je i ima određena ograničenja. Među njima je ograničenje da je korelacija između bilo koje dvije glavne komponente (tj. Imaginarnih varijabli) jednaka nuli; stoga nema smisla pokušavati predvidjeti jednu glavnu komponentu drugom.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 2.0 licenci pod kojom se distribuira.
Loading...