Pitanje:
Postoji li prihvaćena definicija za medijanu uzorka na ravnini ili više uređene prostore?
phv3773
2010-08-20 00:36:01 UTC
view on stackexchange narkive permalink

Ako da, što? Ako ne, zašto ne?

Za uzorak na liniji, medijan umanjuje ukupno apsolutno odstupanje. Činilo bi se prirodnim proširiti definiciju na R2, itd., Ali nikada je nisam vidio. Ali onda sam već dugo u lijevom polju.

http://stats.stackexchange.com/questions/89676/k-medians-formula-to-compute-the-median/271441#271441
Sedam odgovori:
#1
+20
ars
2010-08-20 00:48:17 UTC
view on stackexchange narkive permalink

Nisam siguran da postoji jedna prihvaćena definicija za multivarijantnu medijanu. Poznata mi je Ojina srednja točka, koja minimalizira zbroj volumena pojednostavljenih oblika nastalih u podskupinama točaka. (Pogledajte vezu za tehničku definiciju.)

Ažuriranje: Web mjesto na koje se odnosi gornja definicija Oja također ima lijep rad koji pokriva brojne definicije multivarijantne medijane:

Lijepa referenca: hvala. Sveobuhvatno pokriva sve ovdje spomenuto.
Ista web stranica također sadrži pregled niva u html-u: http://cgm.cs.mcgill.ca/~athens/Geometric-Estimators/intro.html
#2
+17
robin girard
2010-08-20 14:52:04 UTC
view on stackexchange narkive permalink

Kao što je rekao @Ars , nema prihvaćene definicije (i to je dobra stvar). Postoje općenite alternative obitelji načina generaliziranja kvantila na $ \ mathbb {R} ^ d $, mislim da su najznačajniji:

  • Generalizirati kvantilni postupak Neka je $ P_n (A) $ empirijska mjera (= udio promatranja u $ A $). Zatim, s $ \ mathbb {A} $ dobro odabranim podskupom Borelovih skupova u $ \ mathbb {R} ^ d $ i $ \ lambda $ stvarnoj vrijednosti, možete definirati empirijsku funkciju kvantila:

    $ U_n (t) = \ inf (\ lambda (A): P_n (A) \ geq t A \ in \ mathbb {A}) $

    Pretpostavimo da možete pronaći jedan $ A_ { t} $ što vam daje minimum. Tada vam skup (ili element skupa) $ A_ {1 / 2- \ epsilon} \ cap A_ {1/2 + \ epsilon} $ daje medijanu kada je $ \ epsilon $ dovoljno malen. Definicija medijane se obnavlja kada se koristi $ \ mathbb {A} = (] - \ infty, x] x \ in \ mathbb {R}) $ i $ \ lambda (] - \ infty, x]) = x $ . Odgovor Ars spada u taj okvir, pretpostavljam ... tukey-ovo pola prostora može se dobiti pomoću $ \ mathbb {A} (a) = (H_ {x} = ( t \ in \ mathbb {R} ^ d: \; \ langle a, t \ rangle \ leq x) $ i $ \ lambda (H_ {x}) = x $ (s $ x \ in \ mathbb {R} $ , $ a \ in \ mathbb {R} ^ d $).

  • varijacijska definicija i M-procjena ideja je ovdje da $ \ alpha $ -quantile $ Q _ {\ alpha} $ slučajne varijable $ Y $ u $ \ mathbb {R} $ može biti definirano varijacijskom jednakošću.

    • Najčešća definicija je upotreba funkcije kvantilne regresije $ \ rho _ {\ alpha} $ (poznata i kao gubitak flipera, pogodite zašto?) $ Q _ {\ alpha} = arg \ inf_ {x \ in \ mathbb {R}} \ mathbb {E} [\ rho _ {\ alpha} (Yx)] $. Slučaj $ \ alpha = 1/2 $ daje $ \ rho_ {1/2} (y) = | y | $ i to možete generalizirati na višu dimenziju pomoću udaljenosti od $ l ^ 1 $ kao što je učinjeno u @Srikant Answer . Ovo je teoretska medijana, ali daje vam empirijsku medijanu ako očekivanje zamijenite empirijskim očekivanje (srednje).

    • Ali Kolshinskii predlaže upotrebu Legendre-Fenchelove transformacije: budući da $ Q _ {\ alpha} = Arg \ sup_s (s \ alpha-f (s)) $ gdje $ f (s ) = \ frac {1} {2} \ mathbb {E} [| sY | - | Y | + s] $ za $ s \ in \ mathbb {R} $. Za to navodi puno dubokih razloga (vidi papir ;)). Generaliziranje ovog na veće dimenzije zahtijeva rad s vektorijem $ \ alpha $ i zamjenu $ s \ alpha $ s $ \ langle s, \ alpha \ rangle $, ali možete uzeti $ \ alpha = (1/2, \ dots, 1 / 2) $.

  • Djelomični poredak Definiciju kvantila možete generalizirati u $ \ mathbb {R} ^ d $ čim možete stvoriti djelomični poredak (s razredima ekvivalencije).

Očito postoje mostovi između različitih formulacija. Nisu sve očite ...

Lijep odgovor, Robin!
#3
+12
whuber
2010-08-20 01:58:59 UTC
view on stackexchange narkive permalink

Postoje različiti načini da se koncept medijane generalizira na više dimenzije. Jedna još nije spomenuta, ali koja je davno predložena, jest konstruiranje konveksne trupnice, odljepljivanje i ponavljanje koliko god možete: ono što je ostalo u posljednjem trupu je skup točaka koje svi kandidati trebaju biti. " medijana. "

" Lupanje glavom " još je jedan noviji pokušaj (oko 1980.) da se izgradi robusno središte za oblak 2D točaka. (Veza je na dokumentaciju i softver koji su dostupni na Američkom nacionalnom institutu za rak.)

Glavni razlog zašto postoji više različitih generalizacija, a niti jedno očito rješenje je što se R1 može naručiti, ali R2, R3,. .. ne može biti.

Svaka mjera koja se podudara s uobičajenom medijanom kada je ograničena na R1 predstavlja generalizaciju kandidata. Mora ih biti puno.
phv:> može se tražiti '' generalizacija kako bi se sačuvala (u višim dimenzijama) neka zanimljiva svojstva medijana. Ovo ozbiljno ograničava broj kandidata (vidi komentar nakon Srikantova odgovora u nastavku)
@Whuber:> tada se pojam uređenja može generalizirati na R ^ n za unimodalne raspodjele (vidi moj odgovor u nastavku).
@kwak: biste li mogli malo razraditi? Uobičajena matematička definicija uređenja prostora neovisna je o bilo kojoj vrsti raspodjele vjerojatnosti, tako da implicitno morate imati na umu neke dodatne pretpostavke.
@Whuber:> Naveli ste: "R1 se može naručiti, ali R2, R3, ... ne može biti". R2, .., R3 se mogu na više načina naručiti mapiranjem od Rn do R. Jedan od takvih načina je dubina tukeyja. Ima mnoga važna svojstva (robusnost do neke mjere, neparametarska, invarijantnost, ...), ali ona vrijede samo za slučaj unimodalnih raspodjela. Javite mi ako želite više detalja.
@Kwak: Neprekidno preslikavanje od R ^ n do R ne može izazvati ukupan poredak. Tehnički, pogriješio sam, jer će bilo koja bijekcija od R ^ n do R "narediti" R ^ n putem reda na R, ali ovaj poredak neće biti kompatibilan ni s jednom metričkom strukturom na R ^ n (što je bitno dio koncepta "medijane"), i to je bio duh mog komentara.
Veza za lupanje glavom nažalost je umrla.Postoji li prikladna zamjena?
@Silverfish Hvala vam što ste primijetili ovo.Srećom materijal je još uvijek dostupan, ali je premješten.Ažurirao sam vezu.U budućnosti bismo se svi trebali potruditi da vanjske veze popratimo s dovoljno podataka da ih oporavimo ako se pokvare.
#4
+7
Yaroslav Bulatov
2010-08-25 00:25:15 UTC
view on stackexchange narkive permalink

Geometrijska medijana je točka s najmanjom prosječnom euklidskom udaljenostom od uzoraka

Također https://stats.stackexchange.com/questions/113239/why-is-the-geometric-median-called-the-l-1-estimator, https://stats.stackexchange.com/questions/89676/k-medijani-formula-za-izračunavanje-medijane
#5
+6
Gary Campbell
2010-08-23 23:34:06 UTC
view on stackexchange narkive permalink

Srednja vrijednost Tukey-ovog poluprostora može se proširiti na> 2 dimenzije pomoću DEEPLOC, algoritma zaslužnog za Struyfa i Rousseeuwa; detalje potražite u ovdje .

Algoritam se koristi učinkovito pribliziti točku najveće dubine; naivne metode koje pokušavaju to točno utvrditi obično se nađu na (računalnoj verziji) "prokletstva dimenzionalnosti", gdje vrijeme izvođenja potrebno za izračunavanje statistike raste eksponencijalno s brojem dimenzija prostora.

#7
  0
user28
2010-08-20 00:53:51 UTC
view on stackexchange narkive permalink

Ne znam postoji li takva definicija, ali pokušat ću proširiti standardnu ​​definiciju medijane na $ R ^ 2 $. Upotrijebit ću sljedeći zapis:

$ X $, $ Y $: slučajne varijable povezane s dvije dimenzije.

$ m_x $, $ m_y $: odgovarajuće medijane.

$ f (x, y) $: zajednički pdf za naše slučajne varijable

Da bismo proširili definiciju medijane na $ R ^ 2 $, odabiremo $ m_x $ i $ m_y $ da minimizira sljedeće:

$ E (| (x, y) - (m_x, m_y) | $

Problem je sada što nam treba definicija za ono što mislimo pod:

$ | (x, y) - (m_x, m_y) | $

Gornje je u neku ruku metrika udaljenosti i moguće je nekoliko mogućih definicija kandidata.

Eucliedova metrika

$ | (x, y) - (m_x, m_y) | = \ sqrt {(x -m_x) ^ 2 + (y-m_y) ^ 2} $

Izračunavanje medijane pod euklidskom metrikom zahtijevat će izračunavanje očekivanja gore navedenog s obzirom na gustoću zgloba $ f (x, y) $.

Taksija metrike

$ | (x, y) - (m_x, m_y) | = | x- m_x | + | y-m_y | $

Izračunavanje medijane u slučaju metrike taksija uključuje izračunavanje medijane od $ X $ i $ Y $ odvojeno, jer se mjerni podatak može razdvojiti u $ x $ i $ y $.

Srikant:> Ne. Definicija mora imati dvije važne značajke univarijatne medijane. a) Invarijantna monotonoj transformaciji podataka, b) robusna na kontaminaciju izvanrednim vrijednostima. Nijedno od proširenja koja predlažete nema ih. Dubina Tukeyja ima ove osobine.
@kwak Ono što kažete ima smisla.
@Srikant:> Provjeri R&S rad koji je gore naveo Gary Campbell;). Najbolje,
@kwak Kad malo bolje razmislim, metrički taksib ima značajke koje ste spomenuli jer se u osnovi svodi na univarijantne medijane. Ne?
@Sri:> br. Na primjer: ako unaprijed pomnožite $ x, y $ s ne singularnom, simetričnom $ 2 \ puta 2 $ matricom $ A $, poredak $ | (x_i, y_i) - (m_x, m_y) | $ promijenit će se . Mjerna vrijednost taksija nije afinantna invarijanta. Medijana je invarijantna za još veću skupinu transformacije (ona je monotona invarijanta). Isto kao i za robusnost, proizvoljna mala kontaminacija vašeg skupa podataka opažanjem $ x_i $ smještenom na $ + \ infty $ uzrokovat će da se mjesto $ m_x $ pomiče bez granica, pa će opet mijenjati sve ljestvice $ | ( x_i, y_i) - (m_x, m_y) | $. Metrička vrijednost taksija ima točku sloma 0 USD.
Medijana, opet, ima točku raspada od 50 posto (bivarijantna dubina tukey-a ima točku raspada od 33 posto (1 / (1 + p)) i monotono je invarijantna.
@kwak vidim smisao. Neću izbrisati ovaj netočan odgovor u korist budućih čitatelja.
@Srikant:> nema netočnih odgovora na phv-ova pitanja jer nema ni "dobrih odgovora"; ovo se područje istraživanja još uvijek razvija. Jednostavno sam želio naglasiti zašto je to još uvijek otvoreni problem.


Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 2.0 licenci pod kojom se distribuira.
Loading...