Pitanje:
Kako najbolje vizualizirati razlike u mnogim omjerima u tri skupine?
Andrew
2014-03-14 02:36:23 UTC
view on stackexchange narkive permalink

Pokušavam vizualno usporediti kako tri različite novinske publikacije pokrivaju različite teme (utvrđene kroz model teme LDA). Imam dvije povezane metode za to, ali dobio sam puno povratnih informacija od kolega da ovo nije baš intuitivno. Nadam se da netko tamo ima bolju ideju za vizualizaciju ovoga.

Na prvom grafikonu prikazujem proporcije svake teme u svakoj publikaciji, otprilike tako:

Proportions for all topics and publications

Ovo je prilično jednostavno i intuitivno za gotovo sve s kojima sam razgovarao. Međutim, teško je uočiti razlike između publikacija. Koje novine više pokrivaju koju temu?

Da bih to postigao, utvrdio sam razliku između publikacije s najvećim i drugim najvećim udjelom tema, obojane publikacijom s najvišom. Ovako:

Difference between first and second highest topics

Dakle, ogromna šansa za nogomet, na primjer, zaista je udaljenost između al-Ahrama English i Daily News Egypt (br. 2 u nogometnom izvještavanju) ), a obojena je crveno jer je Al-Ahram # 1. Slično tome, ispitivanja su zelena jer Egypt Independent ima najveći udio, a veličina trake je udaljenost između Egypt Independenta i Daily News Egypt (# 2 opet).

Činjenica da moram objasniti da sve u dva odlomka prilično je siguran znak da graf ne uspijeva na ispitivanju samodostatnosti. Teško je reći što se zapravo događa samo gledanjem.

Ima li općih prijedloga o tome kako vizualno istaknuti dominantnu publikaciju za svaku temu na intuitivniji način?

Uredi: Podaci za igranje: Evo dput izlaza iz R, kao i CSV datoteka.

Uredi 2: Evo preliminarne verzije crtanja točaka, s promjerom točaka proporcionalnim udjelu teme u korpusu (tako su teme prvotno poredane). Iako ga još uvijek moram malo prilagoditi, čini mi se puno intuitivnijim od onoga što sam radio prije. Hvala svima!

Dot plot

Upravo sam dodao neke podatke (za R i CSV). Još nisam završio s odabirom dobrih boja (dakle božićno crvena / zelena), iako sam svjestan problema sa slijepim bojama :)
Spominjanje "proporcija" ovdje je pomalo crvena haringa, jer podaci zapravo nisu proporcije i što je još važnije, niti jedno grafičko rješenje zasad ne ovisi o podacima koji su proporcije. To je dobro jer rješenja imaju važnost za širok raspon podataka, ali nemojte se zavarati.
(+1) Lijepo pitanje, uključujući skup podataka koji se može preuzeti i brzo praćenje!
Andrew, što se tiče vašeg zadnjeg uređivanja, mislim da bi bilo bolje s okomitim linijama mreže. Stvaraju obrazac provjere, ali ne dodaju veliku vrijednost, pod pretpostavkom da vam nije stalo do čitanja preciznih vrijednosti s grafa.
* Bez * okomitih crta?
četiri odgovori:
Nick Cox
2014-03-14 07:19:22 UTC
view on stackexchange narkive permalink

Zahvaljujemo što ste učinili podatke dostupnima te na zanimljivom skupu podataka i grafičkom izazovu.

Moj glavni prijedlog je točkasti grafikon (Cleveland).

enter image description here

Najvažniji detalji koje bih želio naglasiti:

  1. Superimpozicija ovdje omogućuje i olakšava usporedbu.

  2. Redoslijed tema na vašim zaslonima izgleda prilično proizvoljan. U odsutnosti prirodnog poretka (npr. Vrijeme, prostor, uređena varijabla) uvijek bih sortirao jednu od varijabli kako bih pružio okvir. Što koristiti, može biti pitanje je li netko posebno zanimljiv ili važan, odluka istraživača. Druga je mogućnost naručiti neku mjeru razlika između radova, tako da su teme s sličnim pokrivanjem bile na jednom kraju, a one na drugom kraju.

  3. Otvoreni markeri ili simboli točaka omogućuju rješavanje preklapanja ili identiteta bolje od zatvorenih ili punih markera ili simbola, koji se u najgorim slučajevima međusobno prikrivaju ili zaklanjaju. (Alternativa koja bi ovdje mogla sasvim dobro funkcionirati su slova kao što su A, D i I za tri novine.)

Jasno je da postoji mnogo prostora za poboljšanje mog dizajna. Na primjer, je li natpis prevelik i / ili pretežak? S druge strane, naslovi moraju biti lako čitljivi, inače grafikon nije u pravu.

Neke manje izbirljive točke:

a. Crvena i zelena na vašem grafikonu kombinacija su boja koje treba izbjegavati. Kada se koriste različiti markeri, odabir boja je malo manje važan.

b. Horizontalni tikovi na vašem grafikonu odvlače pažnju. Suprotno tome, potrebne su rešetkaste linije na mojoj, ali nastojim ih učiniti neupadljivima pomoću tankih, laganih linija.

c. Vaš grafikon prikazuje postotke, a ukupni iznos je oko 20 $ \ puta 0,1% ili 2%, dakle 98% radova je nešto drugo? Proporcije sam koristio izravno u navedenom .csv formatu.

Točkaste karte u Clevelandu najviše duguju

Cleveland, W.S. 1984. Grafičke metode za prezentaciju podataka: prijelomi u cjelini, tačkaste tablice i bilježenje s više baza. Američki statističar 38: 270-80.

Cleveland, W.S. 1985. Elementi grafičkih podataka. Monterey, CA: Wadsworth.

Cleveland, W.S. 1994. Elementi grafičkih podataka. Summit, NJ: Hobart Press.

Jedan od prethodnika (statistički poznatiji po posve različitom radu !!!) bio je

Pearson, ES 1956. Neki aspekti geometrije statistike: uporaba vizualnog prikaza u razumijevanju teorije i primjene matematičke statistike. Časopis Kraljevskog statističkog društva A 119: 125-146.

Za zainteresirane je grafikon pripremljen u Stati nakon čitanja u .csv s kodom

  graf tačka (asis) oslonac, preko (pub) preko (label, sort (1)) asyvars marker (1, ms (Oh)) marker (2, ms (+)) marker (3, ms Th)) vrsta linije (linija) linije (lc (gs12) lw (vthin)) shema (s1color)  
Ovo je sjajno - hvala! Postoci se, nažalost, ne zbrajaju ni u čemu, jer su vrijednosti standardizirana sredstva iz velikog korpusa dokumenata (tj. Svaki dokument u svakoj publikaciji sastoji se od neke kombinacije 20 tema, koje je otkrila [LDA] (http: // en. wikipedia.org/wiki/Latent_Dirichlet_allocation)— ovo pokazuje normalizirana sredstva ... dakle mali broj)
Također, teme su poredane prema udjelu u korpusu. Upravljanje Egiptom je tema koja se najčešće pojavljuje, dok je razno najrjeđa tema. Ali ako ovdje upotrijebite taj redoslijed, točke i simbole je malo teže vizualno slijediti.
Ovo je super! Hvala! Ažurirao sam izvorni post kako bi odražavao vaše prijedloge i dodao proporcije korpusa.
(+6) Lijep odgovor! I uvijek je lijepo imati reference i ponovljivi kod.
@chl Veliko hvala na zahvalnim komentarima i dodatnoj reputaciji.
xan
2014-03-14 07:32:57 UTC
view on stackexchange narkive permalink

Grafički prikaz Nicka Coxa vjerojatno je najbolji za cjelovitu sliku. Ako stvarno želite naglasiti odnos prvi naspram drugog, evo izmjene na vašem grafikonu koja pomiče traku razlike s duljinom druge trake.

enter image description here

A za drugačiji prikaz velike slike, možete isprobati nešto poput dijagrama nagiba ili dijagrama paralelnih koordinata. Ovdje su linije možda previše pretrpane, ali možda će uspjeti ako želite istaknuti podskup tema.

enter image description here

Također, možete pokušati helpmeviz.com koji je usmjeren na vrlo specifične podatke, poput takvih pitanja.

Zanimljiv! Minuta točka: naslov osi ili oznaka "proporcija" ne odgovara jedinicama%.
Ooh, ovo je stvarno zanimljivo. Poigrat ću se s ovim da vidim može li nadopuniti točkicu.
AmeliaBR
2014-03-14 22:39:42 UTC
view on stackexchange narkive permalink

Moj prvi instikt bio je predložiti mozaičnu zavjeru; grafički prikazuje svaku potkategoriju kao pravokutnik, pri čemu jedna dimenzija predstavlja ukupan broj glavnih kategorija, a druga dimenzija proporcionalni udio potkategorije. Postoji paket R za njihovo crtanje, ali to je i prilično jednostavno učiniti s grafičkim alatima niže razine.

Međutim, grafički prikazi mozaika (poput naslaganih trakastih grafikona temeljenih na postocima) rade najbolje ako u dimenziji postoje samo 2 ili 3 kategorije u kojima želite usporediti proporcije. Tako bi dobro funkcionirali ako želite usporediti razlike između tema u omjeru članaka koji su bili u svakoj od tri novine , ali ne toliko za vašu namjenu, uspoređujući razlike između tri novine u omjeru pokrivenosti za svaku temu . Suptilna, ali važna razlika!

Za ono što želite naglasiti, mislim da je najučinkovitiji graf jedan od najjednostavnijih - grupirani trakasti graf. Više ljudi razumije stupčaste grafove od točkastih grafikona; na prvi pogled možete vidjeti da uspoređujete količine različitih veličina, a vrijednosti koje želite usporediti usporedno su.

Međutim, ako ste doista željeli naglasiti razlike u omjeru, mogli biste stvoriti prilagođeni grupirani trakasti grafikon, modificiran tako da pozicionira svaku grupu tako da je srednja vrijednost po kategoriji poravnana s osi, umjesto nultih vrijednosti:

  Razlika u udjelu pokrivenosti po novinama, u odnosu na medijan kategorije (uske trake) ____- 0,1% ____ 0 _____ 0,1% ____ 0,2% _____ | | ******** | ***** A | ~~~~~~~~ | | #### | | | **** | ********** B | ~~ | | #### | | | ***** | C | ~~~~~~~ | ~~~~~ | ####### | | | *** | D | ~~~~~~~~~~~ | | ########### | ##
| 0,2% _____ 0,1% ____ 0_____ Srednji udio pokrivenosti po kategoriji, svi papiri (velike trake)  

Imajte na umu da su trake u svakoj grupi još uvijek poravnate radi lakše usporedbe veličine i da svaka osnovna crta grupe sada je postavljena na lijevo osi prema medijanu vrijednosti te grupe, dok su trake koje se projiciraju na desno osi ekvivalentne vašem drugom stupčastom grafikonu pokazujući razliku između prve dvije kategorije.

Bez obzira koristite li standardni grupirani trakasti grafikon ili graf prilagođen pomaku poput gore navedenog, ipak biste mogli uzeti ideju iz mozaičnih ploha i širinu svake trake učiniti proporcionalnom ukupnom broju članaka za te novine (tako da je veličina trake proporcionalna broju članaka u tim novinama u toj kategoriji).

Budući da je vaša testna statistika svojstvo svake usporedbe , ne pojedinačnih vrijednosti, mislim da nije korisno svaku točku podataka prilagoditi značajnosti. Umjesto toga, imao bih ikonu pored svake grupe koja predstavlja značaj. Za akademske publikacije standardni * / ** / *** ima prednost poznavanja, ali možete postati kreativni ako to želite prikazuju puni kontinuum statistike.

Glavna ideja ovdje je grupirati šipke okomito. To je široko korišten dizajn, ali podrazumijeva 60 stupnjeva okomito, a ne 20 u originalu postera. Iako možete jasno podesiti širinu trake, mislim da će vam u ovom slučaju trebati više prostora da biste to dobro izveli, pogotovo jer želite dodati razmak između grupa.
@NickCox To je loša strana u odnosu na kompaktniji izvorni grafikon, iako biste mogli zakrenuti cijeli graf za 90 stupnjeva ako pejzažno orijentirana slika odgovara vašem ukupnom rasporedu.
Mogli biste, ali i 60 bara je teško s lijeva na desno, a 20 etiketa poput "Muslimanska braća i politika" moralo bi ostati čitljivo ...
Možda ćete ga uspjeti pokrenuti postavljanjem šipki u grupi jednu iznad druge, umjesto da stoje jedna pored druge. Teško je reći bez da se vidi maketa (a moja ASCII umjetnost nije baš dobra u prenošenju izgleda i osjećaja). Bilo bi manje intuitivno jer nije toliko poznata struktura i moglo bi dovesti do zabune ako su dvije šipke približno iste visine. Ali ako su alternativa šipke širine jednog piksela ...
Dakle, približavate se prijedlogu u mom odgovoru na točkasti grafikon.
rocinante
2014-03-14 05:10:20 UTC
view on stackexchange narkive permalink

Jeste li probali grafikon s mjehurićima? https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart

Pojedine teme mogu biti krugovi, a svaki krug može biti tortni dijagram postotak da svaka vijest pokriva temu. Veličina kruga mogla bi ukazivati ​​na relativnu pokrivenost teme. npr. ako se o ulju napiše više članaka nego o kulturi, tada uljni krug ima veći promjer.

Koje bi tada bile koordinate $ [X, Y] $?
@NickStauner Nisam vidio uređeno pitanje sa skupom podataka kad sam izvorno odgovorio na ovo. Koordinate ne bi značile puno, ali broj publikacija. Krugovi se mogu grupirati prema temi ili veličini promjera. Ne znam zašto su se uopće koristili postoci, jer su brojevi izuzetno mali.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...