Pitanje:
Postoji li intuitivno tumačenje $ A ^ TA $ za podatkovnu matricu $ A $?
Alec
2012-02-09 14:05:17 UTC
view on stackexchange narkive permalink

Za danu podatkovnu matricu $ A $ (s varijablama u stupcima i podatkovnim točkama u redovima), čini se da $ A ^ TA $ igra važnu ulogu u statistici. Na primjer, važan je dio analitičkog rješenja običnih najmanjih kvadrata. Ili su za PCA njegovi vlastiti vektori glavne komponente podataka.

Razumijem kako izračunati $ A ^ TA $, ali pitao sam se postoji li intuitivna interpretacija onoga što ova matrica predstavlja, što dovodi do svojoj važnoj ulozi?

Analiza na http://stats.stackexchange.com/a/66295/919 može pružiti određenu intuiciju.
šest odgovori:
ttnphns
2012-02-09 18:47:53 UTC
view on stackexchange narkive permalink

Geometrijski se matrica $ \ bf A'A $ naziva matricom skalarnih proizvoda (= točkasti proizvodi, = unutarnji proizvodi). Algebarski se naziva matrica zbroja kvadrata i unakrsnih proizvoda ( SSCP ).

Njegov $ i $ -ti dijagonalni element jednak je $ \ sum a_ {(i)} ^ 2 $, gdje $ a _ {(i)} $ označava vrijednosti u $ i $ -tom stupcu $ \ bf A $, a $ \ sum $ je zbroj u retcima. $ Ij $ -ti izvandijagonalni element u njemu je $ \ sum a _ {(i)} a _ {(j)} $.

Postoji niz važnih koeficijenata pridruživanja i njihove kvadratne matrice zovu se kutne sličnosti ili sličnosti tipa SSCP:

  • Dijeljenje SSCP matrice s $ n $, veličinom uzorka ili brojem redaka $ \ bf A $, dobivate MSCP (matricu srednjeg kvadrata i više proizvoda). Dvostruka formula ove mjere pridruživanja stoga je $ \ frac {\ sum xy} {n} $ (s vektorima $ x $ i $ y $ koji su par stupaca iz $ \ bf A $).

  • Ako centrirate stupce (varijable) $ \ bf A $, tada je $ \ bf A'A $ raspršivač (ili co -razsipaj, ako treba biti rigorozna) matrica i $ \ mathbf {A'A} / (n-1) $ je matrica kovarijancije . Parna formula kovarijancije je $ \ frac {\ sum c_xc_y} {n-1} $ s $ c_x $ i $ c_y $ koji označavaju centrirane stupce.

  • Ako z- standardiziraj stupce $ \ bf A $ (oduzmi srednju vrijednost stupca i podijeli sa standardnom devijacijom), a zatim je $ \ mathbf {A'A} / (n-1) $ Pearsonova korelacija matrica: korelacija je kovarijancija za standardizirane varijable. Parna formula korelacije je $ \ frac {\ sum z_xz_y} {n-1} $ s $ z_x $ i $ z_y $ koji označavaju standardizirane stupce. Korelacija se naziva i koeficijent linearnosti.

  • Ako jedinica- skala stupca $ \ bf A $ (dovedite njihov SS, zbroj kvadrata na 1), tada je $ \ bf A'A $ kosinusna matrica sličnosti. Čini se da je ekvivalentna parna formula $ \ sum u_xu_y = \ frac {\ sum {xy}} {\ sqrt {\ sum x ^ 2} \ sqrt {\ sum y ^ 2}} $ s $ u_x $ i $ u_y $ označava L2-normalizirane stupce. Sličnost kosinusa naziva se i koeficijent proporcionalnosti.

  • Ako centrirate , a zatim jedinice- ljestvica stupci $ \ bf A $, pa $ \ bf A'A $ opet je Pearsonova korelacijska matrica, jer je korelacija kosinus za centrirane varijable $ ^ {1,2} $: $ \ sum cu_xcu_y = \ frac {\ zbroj {c_xc_y}} {\ sqrt {\ sum c_x ^ 2} \ sqrt {\ sum c_y ^ 2}} $

Uz ove četiri glavne mjere pridruživanja dopustimo i nama spomenite još neke, također temeljene na $ \ bf A'A $, za kraj. Mogu se smatrati mjerama alternativnim kosinusnoj sličnosti jer usvajaju različitu od njega normalizaciju, nazivnik u formuli:

  • Koeficijent identiteta [Zegers & ten Berge, 1985] ima svoj nazivnik u obliku aritmetičke sredine, a ne geometrijske sredine: $ \ frac {\ sum {xy}} {(\ sum x ^ 2 + \ sum y ^ 2) / 2} $. Može biti 1 ako i samo ako su uspoređeni stupci $ \ bf A $ identični.

  • Drugi korisni koeficijent poput njega naziva se omjer sličnosti : $ \ frac {\ sum {xy}} {\ sum x ^ 2 + \ zbroj y ^ 2 - \ zbroj {xy}} = \ frac {\ zbroj {xy}} {\ zbroj {xy} + \ zbroj {(xy) ^ 2}} $.

  • Napokon, ako su vrijednosti u $ \ bf A $ nenegativne i njihov zbroj unutar stupaca je 1 (npr. To su proporcije), tada je $ \ bf \ sqrt {A} '\ sqrt A $ matrica vjernosti ili koeficijenta Bhattacharyya .


$ ^ 1 $ Jedan od načina za izračunavanje matrice korelacije ili kovarijance, koju koriste mnogi statistički paketi, zaobilazi centriranje podataka i na ovaj način odlazi ravno iz SSCP matrice $ \ bf A'A $. Neka $ \ bf s $ bude vektor retka suma podataka stupca podataka $ \ bf A $, dok je $ n $ broj redaka u podacima. Zatim (1) izračunajte matricu raspršenja kao $ \ bf C = A'A-s's / \ it n $ [odatle će $ \ mathbf C / (n-1) $ biti matrica kovarijance]; (2) dijagonala $ \ bf C $ je zbroj kvadratnih odstupanja, vektor retka $ \ bf d $; (3) izračunati matricu korelacije $ \ bf R = C / \ sqrt {d'd} $.

$ ^ 2 $ Akutnom, ali statistički početnom čitatelju moglo bi biti teško uskladiti dvije definicije korelacije - kao "kovarijancija" (koja uključuje usrednjavanje prema veličini uzorka, podjela s df = "n-1") i kao "kosinus" (što ne podrazumijeva takvo usrednjavanje). Ali zapravo se ne događa stvarno usrednjavanje u prvoj formuli korelacije. Stvar je u tome što sv. odstupanje, kojim je postignuta z-standardizacija, izračunato je pak dijeljenjem s tim istim df ; i tako nazivnik "n-1" u formuli korelacije-kao-kovarijancije u potpunosti poništava ako odmotate formulu: formula pretvara se u formulu kosinusa. Da biste izračunali empirijsku vrijednost korelacije, doista trebate ne znati $ n $ (osim kada računate srednju vrijednost, centrirajte).

NRH
2012-02-09 15:04:38 UTC
view on stackexchange narkive permalink

Matrica $ A ^ TA $ sadrži sve unutarnje proizvode svih stupaca u $ A $. Dijagonala tako sadrži kvadratne norme stupaca. Ako razmišljate o geometriji i pravokutnim projekcijama na prostor stupaca obuhvaćenog stupcima u $ A $, možete se sjetiti da norme i unutarnji proizvodi vektora koji obuhvaćaju taj prostor igraju središnju ulogu u izračunavanju projekcije. Regresija najmanjih kvadrata, kao i glavne komponente, mogu se razumjeti u smislu ortogonalnih projekcija.

Također imajte na umu da ako su stupci od $ A $ ortonormalni, čineći tako ortonormalnu osnovu za prostor stupaca, tada $ A ^ TA = I $ $ - $ matrica identiteta.

Peter Flom
2012-02-09 17:42:24 UTC
view on stackexchange narkive permalink

@NRH je dao dobar tehnički odgovor.

Ako želite nešto stvarno osnovno, možete zamisliti $ A ^ TA $ kao matrični ekvivalent $ A ^ 2 $ za skalara.

Iako su drugi odgovori "tehnički" točniji, ovo je najintuitivniji odgovor.
Marshall M. Cohen
2017-01-21 09:52:33 UTC
view on stackexchange narkive permalink

Važan pogled na geometriju $ A'A $ je ovaj (stajalište je snažno naglašeno u Strangovoj knjizi o "Linearnoj algebri i njezinim primjenama"): Pretpostavimo da je A $ m \ puta n $ -materika ranga k , koji predstavlja linearnu kartu $ A: R ^ n \ rightarrow R ^ m $. Neka su Col (A) i Row (A) prostori stupaca i redaka $ A $. Tada

(a) Kao prava simetrična matrica, $ (A'A): R ^ n \ rightarrow R ^ n $ ima osnovu $ \ {e_1, ..., e_n \} $ od vlastiti vektori s nula svojstvenim vrijednostima $ d_1, \ ldots, d_k $. Dakle:

$ (A'A) (x_1e_1 + \ ldots + x_ne_n) = d_1x_1e_1 + ... + d_kx_ke_k $.

(b) Raspon (A) = Col ( A), prema definiciji Col (A). Dakle, A | Red (A) preslikava Red (A) u Col (A).

(c) Jezgra (A) je ortogonalni dodatak Redu (A). To je zato što je umnožavanje matrice definirano u smislu točkastih proizvoda (redak i) * (col j). (Dakle, $ Av '= 0 \ iff \ text {v je u kernelu (A)} \ iff v \ text {je u ortogonalnom komplementu Reda (A)} $

(d) $ A ( R ^ n) = A (\ text {Red} (A)) $ i $ A | \ text {Red (A)}: \ text {Red (A)} \ rightarrow Col (A) $ je izomorfizam.

  Razlog: Ako je v = r + k (r \ u retku (A), k \ u kernelu (A), od (c)), tada A (v) = A (r) + 0 = A (r) gdje je A (r) = 0 < == > r = 0 $.  

[Slučajno daje dokaz da je poredak reda = rang stupca!]

(e) Primjena (d), $ A '|: Col (A) = \ text {Red (A)} \ rightarrow \ text {Col (A')} = \ text {Red (A)} $ je izomorfizam

(f) Prema (d) i (e): $ A'A (R ^ n) = \ text {Red (A)} $ i A'A preslikavaju red (A) izomorfno na red (A).

Možete dodati formulu u \ $ i \ $ da biste dobili $ \ LaTeX $.
camillejr
2018-11-03 01:49:22 UTC
view on stackexchange narkive permalink

Iako je već raspravljano da $ \ textbf {A} ^ T \ textbf {A} $ ima značenje uzimanja točkastih proizvoda, samo bih dodao grafički prikaz ovog množenja.

Doista, dok su retci matrice $ \ textbf {A} ^ T $ (i stupci matrice $ \ textbf {A} $ ) predstavljaju varijable, mi mjerimo svaku varijablu kao višedimenzionalni vektor. Množenje retka $ row_p $ od $ \ textbf {A} ^ T $ sa stupcem $ col_p $ od $ \ textbf {A} $ ekvivalent je uzimanju točkanog proizvoda dva vektora: $ dot (row_p, col_p) $ - rezultat je unos na položaju $ (p, p) $ unutar matrica $ \ textbf {A} ^ T \ textbf {A} $ .

Slično tome, množenje retka $ p $ od $ \ textbf {A} ^ T $ s stupac $ k $ od $ \ textbf {A} $ ekvivalentan je točkasti proizvod: $ dot (row_p, col_k) $ , s rezultatom na položaju $ (p, k) $ .

Unos $ (p, k) $ rezultirajuće matrice $ \ textbf {A} ^ T \ textbf {A} $ znači koliko je vektor $ row_p $ u smjeru vektora $ col_k $ . Ako je točkasti proizvod dva vektora $ row_i $ i $ col_j $ različit od nule, neki informacije o vektoru $ row_i $ nosi vektor $ col_j $ i obrnuto.

Ova ideja igra važnu ulogu u Analizi glavnih komponenata, gdje želimo pronaći novi prikaz naše početne matrice podataka $ \ textbf {A} $ takav da , nema više podataka o bilo kojem stupcu $ i $ u bilo kojem drugom stupcu $ j \ neq i $ span >. Dubljim proučavanjem PCA vidjet ćete da se izračunava "nova verzija" matrice kovarijance i ona postaje dijagonalna matrica koju prepuštam vama da shvatite da ... doista to znači ono što sam izrazio u prethodnoj rečenici.

enter image description here

Aksakal
2018-11-03 02:08:54 UTC
view on stackexchange narkive permalink

Postoje razine intuicije. Za one koji poznaju instatistike matričnih notacija, intuicija je da o tome misle kao o kvadratu slučajne varijable: $ x \ to E [x ^ 2] $ vs $ A \ to A ^ TA $

U matričnom zapisu uzorak slučajne varijable $ x $ opažanja $ x_i $ ili populacije predstavljeni su vektorom stupaca: $$ a = \ begin {bmatrix} x_1 \\ x_2 \\ \ dots \\ x_n \ end {bmatrix} $$

Dakle, ako želite dobiti primjer srednje vrijednosti kvadrata varijable $ x $ , jednostavno ćete dobiti točkasti proizvod $$ \ bar {x ^ 2} = \ frac {a \ cdot a} n $$ , što je u matričnom zapisu isto kao $ A ^ TA $ .

Primijetite da ako je srednja vrijednost uzorka varijable NULA, tada je varijanca jednaka srednjoj vrijednosti kvadrata: $ \ sigma ^ 2 = E [x ^ 2] $ što je analogno $ A ^ TA $ . To je razlog zašto vam je u PCA potrebna nulta srednja vrijednost i zašto se pojavljuje $ A ^ TA $ , nakon što je sav PCA razgraditi matricu varijance skupa podataka .



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...