Pitanje:
Koje informacije pruža Box Plot, a histogram ne?
user46925
2016-03-20 18:56:39 UTC
view on stackexchange narkive permalink

Histogrami daju dobar osjećaj za raspodjelu varijable. Grafičke kutije pokušavaju učiniti isto, međutim, ne daju dobru sliku o raspodjeli ove varijable.

Ne razumijem zašto ljudi koriste plosnate kutije. Histogrami su bolji u svakom pogledu. Postoji li razlog da koristim obojicu?

Jedino što mislim da pružaju parcele s kutijama je: outliers! Govori nam koja opažanja mogu biti izvanredna.

Je li histogram gori u svakom pogledu od prikaza cjelokupne distribucije?
Nisi baš odgovorio na pitanje.Grafičke kutije pružaju vrlo malu prednost u odnosu na histograme.Na histogramu mogu odgovoriti na svako pitanje u usporedbi s grafičkim prikazom.
Ovisno o tome što želite, s grafičkim prikazom okvira možete dobiti neke precizne vrijednosti (npr. Medijan, P75), koje nemate s histogramom.Prikazuje manje informacija, ali je više sintetički.Moja je poanta da je čak i histogram pojednostavljenje i gubljenje informacija u usporedbi s cijelom distribucijom.Ali to može biti jednostavnije za upotrebu
Nisam sasvim uvjeren u ovaj koncept "uvjerljivosti".Marginalne dobitke dobivam samo pomoću box plot-a.Grafičke kutije omogućuju nam da izravno vidimo robusne statistike.Naravno, mogli bismo se obratiti violinskoj radnji koja je najbolja s oba svijeta.
Suprotno stajalište o korisnosti histograma jasno je izraženo i dobro ilustrirano u visoko glasanom postu na http://stats.stackexchange.com/a/51753 (koje se može pronaći pretraživanjem "histograma" na našoj web stranici).
hvala to je vrlo ugodan odgovor.Dakle, usporedne parcele okvira pružaju bolje usporedbe?Zašto ne povećati veličinu kante?
Zanimljiva misao - ali povećanje veličine kante smanjilo bi histogram na figuru nalik ploči, zadržavajući nesretnu ovisnost o odabiru točaka rezanja.IMHO, stvarne zasluge ploča najbolje se mogu procijeniti proučavanjem Tukeyeve upotrebe sažetka N-slova za istraživačku analizu multivarijantnih podataka i prisjećanjem da je u to vrijeme računao olovkom i papirom.Za vizualizacije poput "lutajućeg shematskog traga" drugi univarijatni sažeci uvjetnih odgovora, poput histograma ili plota violine, jednostavno ne bi uspjeli.
Dva kvara (imo) histograma događaju se kad je malo uzoraka ili kada su okviri pogrešne veličine.Slabost dobrog plota (i mislim na JMP varijabilnost kad to kažem) su multimodalnost i fini detalji.Jedino mjesto na kojem blista ploča je kad ima malo uzoraka.Također mi se sviđa kad postoji niz interaktivnih varijabli na različitim razinama - dakle JMP grafikon varijabilnosti.
četiri odgovori:
dsaxton
2016-03-20 22:20:41 UTC
view on stackexchange narkive permalink

Činjenica da grafički prikazi daju više sažetka raspodjele također se može smatrati prednošću u određenim slučajevima. Ponekad kada uspoređujemo distribucije, ne brinemo o ukupnom obliku, već o tome gdje distribucije leže jedna prema drugoj. Ucrtavanje kvantila jedan pored drugog može biti koristan način da se to učini, a da nas ne odvrate drugim detaljima do kojih nam možda nije stalo.

Ovo je najbolji odgovor.Boxplots su bolji za usporedbu distribucija od histograma!
Cliff AB
2016-03-20 21:55:03 UTC
view on stackexchange narkive permalink

U univarijantnom slučaju, grafički prikazi pružaju neke informacije koje histogram ne daje (barem ne eksplicitno). Odnosno, obično daje medijan, 25. i 75. percentil, min / max koji nije odstupanje i izričito odvaja točke koje se smatraju izvanrednim. To se sve može "uočiti" iz histograma (i možda je bolje da se uoči u slučaju izvanrednih vrijednosti).

Međutim, mnogo je veća prednost u usporedbi distribucija u više različitih grupa odjednom. S više od 10 grupa ovo je naporan zadatak s uporednim histogramima, ali vrlo lak s grafikonima u kutijama.

Kao što ste spomenuli, plohe violine (ili grah) nešto su informativnija alternativa. Međutim, oni zahtijevaju nešto više statističkog znanja od kartografskih grafikona (tj. Ako se predstavljaju ne-statističkoj publici, to može biti malo zastrašujuće), a kartografski grafički prikazi postoje puno duže od procjenitelja gustoće zrna, otuda i njihova veća popularnost.

+1.Ispravak, ipak, grafički prikazi pružaju medijane, a ne sredstva.
Svi mogu biti u pravu.Grafikoni u okvirima kao što se obično crtaju prikazuju medijane (vidio sam da se to odbija, ali ne sjećam se da sam vidio primjer).Ali neke implementacije omogućuju vam da pokažete i sredstva.To je često dobra ideja.
Hvala što ste to istakli.Stalno mislim (netočno) da je to obično srednja vrijednost, koja bi u ekstremnim slučajevima mogla dovesti do nekih vrlo čudnih zavjera.
bilo bi lijepo kada bi se uz ovu sliku pojavile slike koje pokazuju vrijednost usporednih usporedbi s grafikonima okvira u odnosu na histograme
Glen_b
2017-06-19 15:11:42 UTC
view on stackexchange narkive permalink
  1. Ako vam pokažem histogram i pitam vas gdje je medijan, možda ćete proživjeti neko vrijeme ... i tada ćete dobiti samo približnu vrijednost. Ako učinim isto s kutijom, odmah je imate; ako je to ono što vas zanima, plohe očito pobjeđuju.

  2. Slažem se da okviri za ploču nisu toliko učinkoviti kao opis distribucije pojedinog uzorka, jer ga smanjuju na nekoliko točaka, a to vam ne govori puno.

    Međutim, ako uspoređujete desetke distribucija, posjedovanje svih pojedinosti svake od njih može biti više informacija nego što se to lako može usporediti - možda ćete ih htjeti svesti na manji broj stvari za usporedbu.

  3. Ako je više informacija bolje, postoji mnogo boljih izbora od histograma; ploha stabljike i lišća, na primjer, ili ecdf / kvantilna parcela.

    Ili možete dodati podatke u histogram:

histogram with marginal boxplot histogram rugplot with jitter histogram with stripchart

(zacrtava iz ovog odgovora)

Prva od njih - dodavanje uskog okvira na marginu - pruža vam bilo kakve prednosti koje možete dobiti od bilo kojeg zaslona.

Shiv_90
2017-06-19 14:34:09 UTC
view on stackexchange narkive permalink

Grafičke crte pružaju samo opseg učestalosti promatranja, dok plosnate kutije bolje govore gdje leži nekoliko parametara raspodjele, srednja vrijednost primjera i varijanse koje šipke ne mogu.Grafičke kutije se stoga koriste kao učinkovit usporedni alat ako se ima nekoliko distribucija.

Rijetko je kad boxplot prikaže srednju vrijednost - gotovo uvijek koriste medijane - i * nikad * ne predstavljaju izravno varijance.Također imajte na umu da se ove količine obično ne smatraju "parametrima raspodjele": one su * opisna statistika * za skup * podataka *.
Točno su lijep alat za opisivanje raspodjele bez previše izračunavanja.I oni prikazuju više medijane, a budući da se u puno slučajeva obje mjere podudaraju, grafikoni okvira dobar su alat za približavanje srednje vrijednosti.
Čini se da vaš komentar i dalje miješa * podatke * s * osnovnom distribucijom *.Vrlo je rijetko da je srednja vrijednost jednaka medijanu u bilo kojoj seriji podataka.Štoviše, jedna od boljih i najčešćih primjena boxplota je prepoznavanje asimetrije, koja obično podrazumijeva važnu razliku između srednje i srednje vrijednosti.Jedno od temeljnih načela koja stoji iza izvorne koncepcije boxplota jest da on bude * robustan * istraživački alat - što podrazumijeva da se bolje ne temelji na osjetljivim statistikama poput prosjeka ili varijance.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...