Pitanje:
Koju distribuciju slijede moji podaci?
Legend
2013-05-06 03:53:46 UTC
view on stackexchange narkive permalink

Recimo da imam 1000 komponenata i prikupljao sam podatke koliko puta ovi bilježe kvar i svaki put kad zabilježe kvar, također pratim koliko je mom timu trebalo da riješi problem. Ukratko, bilježim vrijeme popravka (u sekundama) za svaku od ovih 1000 komponenata. Podaci su dati na kraju ovog pitanja.

Uzeo sam sve ove vrijednosti i nacrtao Cullen i Freyjev graf u R koristeći descdist iz fitdistrplus paket. Nadao sam se da ću razumjeti slijedi li vrijeme popravka određenu distribuciju. Evo grafikona s boot = 500 za dobivanje bootstrapped vrijednosti:

enter image description here

Vidim da mi ovaj plot govori da opažanje spada u beta distribucija (ili možda ne, u tom slučaju, što otkriva?) Sad, s obzirom na to da sam arhitekt sustava, a ne statističar, što ova radnja otkriva? (Tražim praktičnu stvarnu intuiciju iza ovih rezultata).

EDIT:

QQplot pomoću qqPlot funkcija u paketu car . Prvo sam procijenio parametre oblika i razmjere pomoću funkcije fitdistr .

  > fitdistr (Data $ Duration, "weibull") skala oblika 3.783365e-01 5.273310e + 03 (6.657644e-03) (3.396456e + 02)  

Tada sam učinio ovo:

  qqPlot (LB $ Trajanje, distribucija = "weibull ", shape = 3.783365e-01, scale = 5.273310e + 03)  

enter image description here

UREDI 2:

Ažuriranje pomoću lognormalnog QQplota.

enter image description here

Evo mojih podataka:

  c (1528L, 285L, 87138L, 302L , 115L, 416L, 8940L, 19438L, 165820L, 540L, 1653L, 1527L, 974L, 12999L, 226L, 190L, 306L, 189L, 138542L, 3049L, 129067L, 21806L, 456L, 22745L, 198L, 44568L, 29335L, 29335L , 4218L, 3672L, 10100L, 290L, 8341L, 128L, 11263L, 1495243L, 1699L, 247L, 249L, 300L, 351L, 608L, 186684L, 524026L, 1392L,
396L, 298L, 1063L, 11102L, 6684L, 6546L, 289L, 465L, 261L, 175L, 356L, 61652L, 236L, 74795L, 64982L, 294L, 95221L, 322L, 38892L, 2146L, 59347L, 211867L, 31080L 5980L, 66102L, 36495L, 580277L, 27600L, 509L, 21795L, 21795L, 301L, 617L, 331L, 250L, 123501L, 144L, 347L, 121443L, 211L, 232L, 445783L, 9715L, 10308L, 1921L, 1921L 6915L, 6735L, 1008478L, 274L, 20L, 3287L, 591208L, 797L, 586L, 170613L, 938L, 3121L, 249L, 1497L, 24L, 1407L, 1217L, 1323L, 272L, 443L, 49466L, 323L, 900, 323L 26814L, 2452L, 214713L, 3668L, 325L, 20439L, 12304L, 261L, 137L, 379L, 2273L, 274L, 17760L, 920699L, 13L, 485644L, 1243L, 226L, 20388L, 584L, 17695L, 1477L, 1477L, 1477L 17964L, 7073L, 308L, 260692L, 155L, 58136L, 16644L, 29353L, 543L, 276L, 2328L, 254L, 1392L, 272L, 480L, 219L, 60L, 2285L, 2676L, 256L, 234L, 1240L, 219714, 102174L 266L, 33043L, 530L, 6334L, 94047L, 293L, 536L, 48557L, 4141L, 39079L, 23259L, 2235L, 17673L, 28268L, 112L, 64824L, 127992L, 5291L, 51693L, 762L, 1070735L, 179L, 189L, 157L, 157L, 122L, 1045L, 1317L, 186L, 57901L, 456126L, 674L, 2375L, 1782L, 257L, 23L, 248L, 216L, 114L, 11662L, 107890L, 114L, 20L 2549L, 146L, 53331L, 1690L, 10752L, 1648611L, 148L, 611L, 198L, 443L, 10061L, 720L, 10L, 24L, 220L, 38L, 453L, 10066L, 115774L, 97713L, 7234L, 773L, 90154L, 151L, 1560L 222L, 51558L, 214L, 948L, 208L, 1127L, 221L, 169L, 1528L, 78959L, 61566L, 88049L, 780L, 6196L, 633L, 214L, 2547L, 19088L, 119L, 561L, 112L, 17557L, 101086L, 24L 94483L, 6189L, 236L, 248L, 966L, 117L, 333L, 278L, 553L, 568L, 356L, 731L, 25258L, 127931L, 7735L, 112717L, 395L, 12960L, 11383L, 16L, 229067L, 259076, 311L90 7265L, 259076L, 3551L, 7782L, 4256L, 87121L, 4971L, 4706L, 245L, 34457L, 4971L, 4706L, 245L, 34457L, 258L, 36071L, 301L, 2214L, 2231L, 247L, 537L, 301L, 2214L, 3014L, 2214L 1881L, 266L, 4371L, 88304L, 50056L, 50056L, 232L, 186336L, 48200L, 112L, 48200L,
48200L, 6236L, 82158L, 6236L, 82158L, 1331L, 713L, 89106L, 46315L, 220L, 5634L, 170601L, 588L, 1063L, 2282L, 247L, 804L, 125L, 5507L, 1271L, 2567L, 441L, 1578, 6423L. 240L, 2921L, 777L, 697L, 2018L, 24064L, 199L, 183L, 297L, 9010L, 16304L, 930L, 6522L, 5717L, 17L, 20L, 364418L, 58246L, 7976L, 304L, 4814L, 307L, 487L, 292016L, 692016L, 692016L, 692016L 15L, 40922L, 471L, 2342L, 2248L, 23L, 2434L, 23342L, 807L, 21L, 345568L, 324L, 188L, 184L, 191L, 188L, 198L, 195L, 187L, 185L, 33968L, 1375L, 121L, 56872L, 35970L, 929L, 151L, 5526L, 156L, 2687L, 4870L, 26939L, 180L, 14623L, 265L, 261L, 30501L, 5435L, 9849L, 5496L, 1753L, 847L, 265L, 280L, 1840L, 1107L, 2174L, 18907L, 14762L, 14762L 9648L, 1080L, 45L, 6453L, 136351L, 521L, 715L, 668L, 14550L, 1381L, 13294L, 13100L, 6354L, 6319L, 84837L, 84726L, 84702L, 2126L, 36L, 572L, 1448L, 215L, 12L, 7108 4694L, 29369L, 7579L, 709L, 121L, 781L, 1391L, 2166L, 160403L, 674L, 1933L, 320L, 1628L, 2346L, 2955L, 204852L, 206277L, 2408L, 2162L, 312L, 280L, 243 L, 84050L, 830L, 290L, 10490L, 119392L, 182960L, 261791L, 92L, 415L, 144L, 2006L, 1172L, 1886L, 233L, 36123L, 7855L, 554L, 234L, 2292L, 21L, 132L, 142L, 3848L, 3847L 3965L, 3431L, 2465L, 1717L, 3952L, 854L, 854L, 834L, 14608L, 172L, 7885L, 75303L, 535L, 443347L, 5478L, 782L, 9066L, 6733L, 568L, 611L, 533L, 102228, 334L, 334L, 334L, 33LL 34L, 486L, 279L, 2530L, 504L, 525L, 367L, 293L, 258L, 1854L, 209L, 152L, 1139L, 398L, 3275L, 284178L, 284127L, 826L, 751L, 1814L, 398L, 1517L, 25545, 13745L 1463L, 385L, 64L, 5279L, 885L, 1193L, 190L, 451L, 1093L, 322L, 453L, 680L, 452L, 677L, 295L, 120L, 12184L, 250L, 1165L, 476L, 211L, 4437L, 7310L, 778L, 260L, 260L, 855L, 353L, 97L, 34L, 87L, 137L, 101L, 416L, 130L, 148L, 832L, 187L, 291L, 4050L, 14569L, 271L, 1968L, 6553L, 2535L, 227L, 202L, 647L, 266L, 2681L, 106L, 158L, 257L, 234L, 1726L, 34L, 465L, 436L, 245L, 245L, 2790L, 104L, 1283L, 44416L, 142L, 13617L, 232L, 171L, 221L, 719L, 176L, 5838L, 37488L, 12214L, 3780L, 5556L
5368L, 106L, 246L, 101L, 158L, 10743L, 5L, 46478L, 5286L, 9866L, 32593L, 174L, 298L, 19617L, 19350L, 230L, 78449L, 78414L, 78413L, 78413L, 6260L, 6260L, 209L, 2552L, 2552L, 2552L, 2552L, 2552L 178L, 140L, 173046L, 299L, 265L, 132360L, 132252L, 4821L, 4755L, 197L, 567L, 113L, 30314L, 7006L, 10L, 30L, 55281L, 8263L, 8244L, 8142L, 568L, 1592L, 1750L, 628L 212553L, 51393L, 222L, 13471L, 3423L, 306L, 325L, 2650L, 74796L, 37807L, 103751L, 6924L, 6727L, 667L, 657L, 752L, 546L, 1860L, 230L, 217L, 1422L, 347L, 341055L 179670L, 796L, 1210L, 2579L, 250L, 273L, 407L, 192049L, 236L, 96084L, 5808L, 7546L, 10646L, 197L, 188L, 19L, 167877L, 200509L, 429L, 632L, 495L, 471L, 2578L, 251L, 251L 175L, 19161L, 289L, 20718L, 201L, 937L, 283L, 4829L, 4776L, 5949L, 856907L, 2747L, 2761L, 3150L, ​​3142L, 68031L, 187666L, 255211L, 255231L, 65L, 392991L, 858L, 1158L 125433L, 6850L, 6684L, 23L, 529L, 562L, 216L, 1450L, 838L, 3335L, 1446L, 178L, 130101L, 239L, 1838L, 286L, 289L, 68974L, 757L, 764L 218L, 207L, 3485L, 16597L, 236L, 1387L, 2121L, 2122L, 957L, 199899L, 409803L, 367877L, 1650L, 116710L, 5662L, 12497L, 613889L, 10182L, 260L, 9654L, 422947L, 994L 2373L, 308L, 1522L, 288L, 937L, 291L, 93L, 17629L, 5151L, 184L, 161L, 3273L, 1090L, 179840L, 1294L, 922L, 826L, 725L, 252L, 715L, 6116L, 259L, 6171L, 198L 5679L, 862L, 332L, 1324L, 536L, 98737L, 316L, 5608L, 5526L, 404L, 255L, 251L, 14067L, 3360L, 3623L, 8920L, 288L, 447L, 453L, 1604687L, 115L, 127L, 127L, 2398L, 2398L, 2398L, 2398L, 2398L 2396L, 2398L, 2396L, 2397L, 154L, 154L, 154L, 154L, 887L, 636L, 227L, 227L, 354L, 7150L, ​​30227L, 546013L, 545979L, 251L, 171647L, 252L, 583L, 593L, 10222L, 2660L , 2884L, 1577L, 1304L, 337L, 2642L, 2462L, 280L, 284L, 3463L, 288L, 288L, 540L, 287L, 526L, 721L, 1015L, 74071L, 6338L, 1590L, 582L, 765L, 291L, 983L, 158L , 581L, 350L, 6896L, 13567L, 20261L, 4781L, 1025L, 722L, 721L, 1618L, 1799L, 987L, 6373L, 733L, 5648L, 987L, 1010L, 985L, 920L, 920L, 4696L, 1154L, 1132L,
927L, 4546L, 692L, 702L, 301L, 305L, 316L, 313L, 801L, 788L, 14624L, 14624L, 9778L, 9778L, 9778L, 9778L, 757L, 275L, 1480L, 610L, 68495L, 1152L, 1155L, 1155L, 1155L, 1155L 303L, 298L, 1641L, 1607L, 1645L, 616L, 1002L, 1034L, 1022L, 1030L, 1030L, 1027L, 1027L, 934L, 960L, 47L, 44L, 1935L, 1925L, 43L, 47L, 1933L, 1898L, 938L, 830L, 830L 286L, 287L, 807L, 807L, 741L, 628L, 482L, 500L, 480L, 431L, 287L, 298L, 227L, 968L, 961L, 943L, 932L, 704L, 420L, 548L, 3612L, 1723L, 780L, 337L, 780L 527L, 528L, 499L, 679L, 308L, 1104L, 314L, 1607L, 990L, 1156L, 562L, 299L, 16L, 20L, 287L, 581L, 1710L, 1859L, 988L, 962L, 834L, 1138L, 363L, 294L, 2678L 362L, 539L, 295L, 996L, 977L, 988L, 39L, 762L, 579L, 595L, 405L, 1001L, 1002L, 555L, 1102L, 54L, 1283L, 347L, 1384L, 603L, 307L, 306L, 302L, 302L, 288L 288L, 286L, 292L, 529L, 56844L, 1986L, 503L, 751L, 3977L, 367L, 4817L, 4631L, 4609L, 4579L, 937L, 402L, 257L, 570L, 1156L, 3297L, 3948L, 4527L, 311993, 15227L 538L, 802L, 5128L, 595L, 522L, 1346L, 449L, 443L, 323L, 372L, 369L, 307L, 246L, 260L, 342L, 283L, 963L, 751L, 108L, 280L, 320L, 287L, 285L, 283L, 529L, 536L, 298L, 29427L, 29413L, 761L, 249L, 255L, 304L 297L, 256L, 119L, 288L, 564L, 234L, 226L, 530L, 766L, 223L, 5858L, 5568L, 481L, 462L, 8692L, 498L, 330L, 7604L, 15L, 121738L, 121833L, 826L, 760L, 208937L 1166L, 446L, 85598L, 513L, 84897L, 50239L, 308L, 1351L, 283L, 7100L, 7101L, 321L, 1019L, 287L, 253L, 634L, 629L, 628L, 678L, 1391L, 1147L, 853, 287L, 197145L, 197116L, 147L, 147L, 712L, 274L, 283L, 907L, 434L, 1164L, 30L, 599L, 577L, 315L, 1423L, 1250L, 30L, 1502L, 296L, 348L, 617L, 339L, 328L, 123L, 338L 332L, 47133L, 288L, 340L, 1524L, 1049L, 1072L, 1031L, 1059L, 1038L, 989L, 52L, 54L, 986L, 46L, 1202L, 1272L, 43L, 785L, 761L, 16924L, 289L, 264L, 453L, 365L, 26L 356L, 280L, 16520L, 281L, 255L, 244L, 642L, 1003L, 951L, 921L, 1011L, 45L, 932L, 973L, 39L, 40L, 159L, 566L, 49L, 1161L, 50L, 200L, 215L, 361L, 377L, 980L, 935L, 882L, 281L, 280L, 1025L,
319L, 690L, 284L, 271L, 276L, 286L, 371L, 324L, 304L, 311L, 341L, 603L, 11566L, 270L, 286L, 342L, 326L, 11018L, 282L, 271L, 286L, 586L, 604L, 750L, 608L 523L, 506L, 3303L, 1079797L, 1079811L, 530L, 2631L, 882L, 628L, 30L, 11905L, 12966L, 390995L, 322353L, 1763L, 1755L, 709L, 713L, 365L, 351L, 205L, 393L, 32017L 322L, 8039L, 995L, 625L, 785L, 298L, 518L, 467L, 1050L, 329L, 141345L, 55566L, 40318L, 287L, 220L, 309346L, 220L, 215314L, 304L, 296L, 4301L, 4311L, 1543L, 1511L, 1511L, 1511L 2894L, 287L, 290L, 215L, 605L, 577L, 254L, 1330L, 1863L, 140L, 328L, 284L, 291L, 283L, 1701L, 1696L, 519L, 499L, 2440007L, 289L, 294L, 311L, 324L, 4793L, 4808L, 4808L 249L, 205L, 219L, 638L, 2653L, 2648L, 351L, 323L, 1056L, 327L, 794L, 1491L, 284L, 289L, 220L, 765L, 565L, 808L, 832L, 772L, 41668L, 42307L, 6843912, 6612L 241164L, 531L, 554L, 1246L, 459L, 971504L, 805L, 2615L, 2290L, 2086L, 2063L, 2685L, 2704L, 275L, 461L, 458L, 317L, 889L, 335L, 974L, 959L, 253142L, 252L, 252L, 252L, 252L 293L, 666L, 499 1L, 287L, 588L, 555L, 3585L, 3195L, 481L, 2405L, 135266L, 571L, 1805L, 365L, 340L, 232L, 224L, 298L, 3682L, 3677L, 577L, 571L, 288L, 297L, 293L, 291L, 256L 214L, 1257L, 1271L, 65471L, 65471L, 65476L, 65476L, 4680L, 4675L, 339L, 329L, 284L, 288L, 4859L, 4851L, 2534L, 24222L, 330684L, 330684L, 2116L, 23, 422L, 1978L 412L, 1978L 422L, 1978L 412L, 1978 502L, 286L, 943149L, 256L, 288L, 286L, 1098L, 1125L, 442L, 240L, 182L, 2617L, 1068L, 25204L, 170L, 418L, 1867L, 8989L, 1804L, 1240L, 6610L, 1237L, 1750L, 1565L, 1565L, 1565L, 1565L, 1565L, 1565L, 1565L, 1565L 3662L, 1803L, 218L, 172L, 780L, 1418L, 2390L, 7514L, 23214L, 1464L, 1060L, 1503L, 308802L, 308357L, 21691L, 298817L, 289875L, 4442L, 289284L, 235L, 45697, 676L 288030L, 287899L, 287767L, 287635L, 286639L, 286509L, 286157L, 1427L, 2958L, 4340L, 5646L, 282469L, 7016L, 279353L, 278568L, 316L, 558L, 3501L, 1630L, 278443L, 278169L, 278035L, 277671L, 277541L, 277400L, 277277L, 276567L, 285L, 555L, 834L, 1084L, 1355L, 5249L,
14776L, 1441L, 755L, 755L, 70418L, 3135L, 1026L, 1497L, 949663L, 68L, 526058L, 1692L, 150L, ​​48370L, 4207L, 4088L, 197551L, 197109L, 196891L, 196634L, 2960L, 194279L, 194037, 1940 178762L, 178567L, 403L, 178124L, 2590L, 177405L, 177179L, 301L, 328L, 390685L, 390683L, 575L, 1049L, 819L, 367L, 289L, 277L, 390L, 301L, 318L, 3806L, 3778L, 3778L, 3778L, 3778L kod> 
Taj vam dijagram * ne * govori da je vaša distribucija beta. Kaže da su iskrivljenost i kurtoza * u skladu * s beta verzijom - na primjer, lako mogu biti lognormalni, ali vjerojatno zapravo nisu * niti jedna od distribucija navedenih na tom dijagramu.
@Glen_b: Hvala. Upravo sam uključio i qqplot za lognormal, ali čini se da ni to ne odgovara. Možete li mi još nešto preporučiti da isprobam? Uključio sam svoje podatke u pitanje.
Vjerojatno to neće biti ništa što bih mogao predložiti. Kako se veličina uzorka povećava, vjerojatno ćete moći odbiti bilo koju dobro poznatu distribuciju. O ovome ću se nadovezati u odgovoru.
Zanima me zašto ovo nazivate "radnjom Cullen Freya", kad ju je Rhind uveo 1909. (a generacijama nakon toga dobro poznata), 90 godina prije nego što su Cullen i Frey nešto zajedno napisali! Pogledajte članak na Wikipediji o [sustavu distribucija Pearson] (http://en.wikipedia.org/wiki/Pearson_distribution).
+1 Zahvaljujem na referenci i ispričavam se zbog upotrebe. Nisam htjela nikoga ne poštivati. Biblioteka koju sam koristio `fitdistrplus` nazvala ga je Cullen-Frey grafom i nastavio sam ga koristiti.
Vidimo [Stiglerov zakon o eponimiji] (https://en.wikipedia.org/wiki/Stigler%27s_law_of_eponymy) u akciji. :-)
@whuber To je Cullenova i Freyjeva radnja, a ne Rhindova vizualizacija Pearsonovog prostora.Ima izrazito različite značajke, kao što su prikaz boostrapiranih vrijednosti, prekrivanje jednolike raspodjele itd., Itd. Gradi se na Rhindovom grafikonu, ali sve se u znanosti nadovezuje na nešto prije njega (i ne želimo to moratisve pripisati izvornim, nepoznatim izumiteljima vatre i kotača ...).
Prekrivanje ostalih distribucija ne potječe ni od Cullena i Freya;svaka značajka radnje, osim dodavanja uzoraka bootstrapa, zasigurno im prethodi (i oni priznaju da osnovna radnja nije nova u njihovoj knjizi, čak i ako njihovo referenciranje njezinog podrijetla nema određenih napora).Mislim da bi bilo razumno razmisliti o tome da ga nazovemo Cullenovim i Freyevim zapletom kad uključuje vrijednosti bootstrapa, ali inače je lako desetak ljudi u redu za kredit prije njih, a mnoge od tih ranijih namjena mogu se pronaći.
Tri odgovori:
Glen_b
2013-05-06 06:46:08 UTC
view on stackexchange narkive permalink

Stvar je u tome što stvarni podaci ne prate nužno bilo koju određenu distribuciju koju možete imenovati ... i doista bi bilo iznenađujuće da jest.

Dakle, iako bih mogao nabrojati desetak mogućnosti, stvarni postupak generiranja ovih opažanja vjerojatno neće biti ništa što bih mogao predložiti. Kako se veličina uzorka povećava, vjerojatno ćete moći odbiti bilo koju dobro poznatu distribuciju.

Parametarske raspodjele često su korisna izmišljotina, a ne savršen opis.

Pogledajmo barem podatke dnevnika, prvo u normalnom qqplot-u, a zatim kao procjenu gustoće jezgre za pogledajte kako se to čini:

qqnorm log(x)

Imajte na umu da su u QQ crtežu izvedenom na ovaj način najravniji dijelovi nagiba tamo gdje obično vidite vrhove. Ovo jasno sugerira vrhunac blizu 6 i drugi oko 12,3. Procjena gustoće jezgre dnevnika pokazuje isto:

kernel density estimate

U oba slučaja indikacija je da je raspodjela dnevnika vremena je ispravno iskrivljeno, ali nije očito unimodalno. Jasno je da je glavni vrh negdje oko 5 minuta. Može se dogoditi da postoji drugi mali vrh u gustoći dnevnika, koji se čini negdje u području od oko 60 sati. Možda postoje dvije vrlo kvalitativno različite "vrste" popravka, a vaša distribucija odražava kombinaciju dvije vrste. Ili samo možda jednom kada popravak postigne cjelodnevni rad, obično traje duže vrijeme (to jest, umjesto da odražava vrhunac u nešto više od tjedan dana, može odraziti anti-vrh u nešto više od jednog dana - jednom popravak dobijete duže od manje od jednog dana, poslovi se obično 'usporavaju'.

Čak je i dnevnik dnevnika u nekoj prilici iskrivljen. Pogledajmo jaču transformaciju, gdje je drugi vrh sasvim jasan - minus inverzna četvrtina korijena vremena:

hist of -1/(x^0.25)

Označene crte su na 5 minuta (plava) i 60 sati (crtkasto zelena); kao što vidite, vrh je nešto ispod 5 minuta, a drugi negdje iznad 60 sati. Imajte na umu da je gornji "vrh" oko 95. percentila i neće nužno biti blizu vrha u nepreoblikovanoj raspodjeli.

Postoji i prijedlog za još jedan pad oko 7,5 minuta sa širokim pikom između 10 i 20 minuta, što bi moglo sugerirati vrlo blagu tendenciju 'zaokruživanja' u toj regiji (ne da se nužno događa nešto neugodno; čak i ako tamo nema pada / vrhunca u inherentnom vremenu posla, to bi čak moglo biti nešto kao jednostavno kao funkcija ljudske sposobnosti da se usredotoči u jednom neprekinutom razdoblju dulje od nekoliko minuta.)

Čini mi se kao dvokomponentna (dvojaka) ili možda trokomponentna mješavina desnog kosa distribucije bi proces opisivale prilično dobro, ali ne bi bile savršen opis.

Čini se da paket logspline odabire četiri vrha u zapisniku (vrijeme):

logpsine plot

s vrhovima blizu 30, 270, 900 i 270 tisuća sekundi (30s, 4,5m, 15m i 75h).

Korištenjem logsplinea s drugim transformacijama obično se pronađu 4 vrha b ut s malo drugačijim središtima (kad se prevede na izvorne jedinice); to se može očekivati ​​s transformacijama.

+1 Ovo je moja zlatna rudnik informacija. Pokušavam probaviti sve što ste napisali i do sada me ovo naučilo kako zapravo pristupiti ovoj vrsti problema. Koji je smisao jače transformacije? Mogu li vas pitati kako ste to smislili? Je li to s iskustvom ili postoji formalniji način odabira takve nekonvencionalne transformacije? Molim vas, oprostite na mom neznanju ako je ovo uobičajena mudrost u zajednici statistika. Ali bio bih vam zahvalan ako biste me uputili na dobru referencu da naučim ovu vrstu "detektivskog" djela koje mi se čini strašno.
Zaboravio sam to prihvatiti kao odgovor. Mnogo sam naučio iz vašeg posta. Hvala vam još jednom. Moje prethodno pitanje i dalje vrijedi: doista bih vam zahvalio ako mi predložite knjigu / referencu pomoću koje bih naučio ovo "detektivsko" djelo :)
Transformacija je u stvari bila samo [Box-Coxova transformacija] (http://en.wikipedia.org/wiki/Power_transform), iako nije prilagođena za $ | \ lambda | $ (niti pomaknuta za 1, jer nisam mnogo brige o ljestvici u ovom trenutku), koja ima 'ljestvicu' jačih / slabijih transformacija snage istim redoslijedom kao i izvornik. Želio sam nešto jače od dnevnika, ali slabije od negativnog-inverznog, kako bih mogao jasnije razumjeti regiju između "malo ispod 5 minuta" i "malo iznad 60 sati", a da to nemam prejako povučeni okolo krajnostima. ... ctd
ctd ... Pretpostavljam da sam se prvi put susreo s ovom vrstom ljestvica transformacija moći čitajući jednu od Tukeyevih knjiga koje se odnose na istraživačku analizu podataka, možda i samu EDA-u. Prvo sam pokušao (negativ) obrnutog korijena kocke (koji je radio dovoljno dobro), ali (-inverzni) četvrti korijen jasnije je istaknuo značajke o kojima sam želio razgovarati.
Ako googlate * Tukey ljestvicu moći *, trebali biste dobiti nekoliko korisnih pogodaka. Jedan od ljudi od kojih sam naučio statistiku bio je jedan od Tukeyevih učenika, što je nesumnjivo povećalo utjecaj Tukeyevog općeg pristupa na način na koji pristupam istraživanju podataka, ali također sam se obvezao pročitati više onoga što je napisao sam. Obično se na Tukeyevoj ljestvici ne biste spustili do obrnutog četvrtog korijena; uobičajeni korak između inverza i dnevnika je inverzni kvadratni korijen, ali to je bilo previše, pa mi je trebao još jedan korak između toga i dnevnika.
Ispravno pozivanje na EDA: Tukey, J. W. (1977). * Istraživačka analiza podataka *. Addison-Wesley, Reading, MA.
Formalniji način da mu se pristupite ako tražite ekran približno normalnog izgleda (što ja nisam bio) bio bi `MASS :: boxcox (lm (x ~ 1))` koji prikazuje uski vrh negdje oko inverzne -šesti korijen. Međutim, niti jedna takva transformacija neće vas približiti normalnosti; Samo sam pokušavao značajke koje sam vidio učiniti prilično jednostavnima i sve između inverse-cube-root i log je razumno adekvatno.
Kao što je spomenuto u gornjem odgovoru, možete pokušati prilagoditi raspodjelu smjese. Evo članka koji koristi ove hibride za brzinu vjetra - mislim da su neke distribucije kombinacije 3 druge distribucije. http://www.journal-ijeee.com/content/3/1/27/
@Glen_b: Sjajno! Hvala vam puno. Pročitat ću reference koje ste dali.
@rbatt: +1 Hvala. Postoji li R biblioteka koju bih mogao iskoristiti za to ili bi ova analiza trebala biti prilično ručno vođena?
@Legend Ne znam postoji li knjižnica ili ne. Ako naletim na jedno, sigurno ću podijeliti. Pošaljite ovdje ako ga nađete!
@rbatt: Definitivno! U međuvremenu se nadam da vam neće smetati što vas još malo prisluškujem: kako to netko danas radi? Odnosno, pokušaj uklapanja više distribucija? Postoji li način da formalno podijelimo skup podataka i kažemo da ovaj skup pripada prvoj distribuciji, a ovaj skup drugoj? Možete li mi pokazati primjer kako se radi ova analiza?
@Legend Da budem iskren, nikad prije to nisam radio. Međutim, vjerujem da je hibridizirana distribucija (tj. Kombinirate 3 funkcije raspodjele vjerojatnosti u 1), a ne podaci (tj. Skup podataka nije "podijeljen"). Ima smisla? Prošlo je neko vrijeme otkako sam pažljivo pogledao taj papir, ali mogli bi izvijestiti jednadžbe koje su koristili. Nisam siguran (mogu to provjeriti kasnije, preplavljeni bankomat)
Za smjesu je važno otkriti koliko komponenata želite, koju ćete distribuciju ili distribucije uzeti (o čemu ste prvotno objavili), a zatim kako ćete prepoznati parametre komponenata i proporcije komponenata. Postoji niz paketa koji mogu pomoći u izvršavanju tih zadataka; evo [rada] (http://www.jstatsoft.org/v32/i06/paper) (pdf) o jednom od njih. Nekoliko paketa za modeliranje smjese spomenuto je u [Prikaz zadataka analize klastera i modeliranja konačnih smjesa] (http://cran.r-project.org/web/views/Cluster.html) ... (ctd)
(ctd) ... Drugi primjer paketa je [rebmix] (http://cran.r-project.org/web/packages/rebmix/). Moja se vlastita analiza temeljila na jednostavnijim istraživačkim pristupima, no trenutno stanje još nije u potpunosti identificirani model smjese; sugerira da bi mogla biti potrebna 4-komponentna smjesa. Završni dio mog odgovora - dio s log-splineom je drugačiji (neparametarski) pristup modeliranju kompliciranih gustoća.
@Glen_b: Sjajno! Čini se da je "logspline" vrlo zanimljiv i postavlja ta vremena na puno jasniji način od četvrte transformacije korijena. Ispitaću ih detaljnije. Koristio sam `rebmix` ovako:` REBMIX (Skup podataka = popis (trajanje = t), Prethodna obrada = c ("histogram", "Parzen prozor"), cmax = 4, Kriterij = c ("AIC", "BIC" ), Varijable = "kontinuirano", pdf = "lognormal", K = 7: 20, b = 0) `Pretpostavljam da sada trebam napisati funkciju za izračunavanje vrijednosti KS kako bih razumio prilagodbu ove smjese?
Ako pod KS mislite na Kolmogorov-Smirnov, kako ćete koristiti KS s ugrađenim distribucijama, kada je KS za potpuno određene distribucije?
@Glen_b: Oprostite. Možda ovdje idem van staze. Vidio sam ovdje nešto: http://stats.stackexchange.com/questions/28873/goodness-of-fit-test-for-a-mixture-in-r Također, ono što se činilo vrhom koristeći Box Cox transformaciju br. duže se pojavljuje u logsplineu. Ili mislim da ove transformacije mogu pronaći međusobno isključive vrhove? Nacrtao sam logspline, ali ne mogu shvatiti kako dobiti vrijednosti x i y od objekta kako bih to detaljno ispitao.
Rješenje problema koji sam pokrenuo predloženo je u odgovoru jbowmana. Razlog zbog kojeg sam bio zabrinut je taj što toliko ljudi samo primjenjuje test vanilije KS bez ikakvog takvog prepoznavanja i podešavanja .... (ctd)
(ctd) ... Na koje vrhove mislite? Moja posljednja dva prikaza - histogram $ -x ^ {- 1/4} $ i logspline pokazuju po 4 moguća načina (iako nisam raspravljao o malom krajnje lijevo od histograma; ova gruba korespondencija često će se dogoditi ali ne baš uvijek), međutim - kao što sam * već * spomenuo u svom odgovoru, oni ne bi trebali biti na identičnim mjestima čak i nakon što ih transformirate natrag u izvornu ljestvicu (mjesta modusa nisu sačuvana u monotonim transformacijama - pa čak ni njihovo postojanje u nekim slučajevima. Ni sredstva nisu sačuvana, ali kvantili se prenose)
Moja greška! U pravu si. Oboje doista pokazuju četiri vrha. Još jednom hvala na vašem vremenu.
Vrlo zanimljivo pitanje, odgovori i rasprava!Upravo to sada radim i za svoju studiju disertacije.Pitao sam se koji su pristupi dostupni za prepoznavanje / razlikovanje u vremenski zasnovanoj distribuciji * mješavine * nekoliko distribucija i * sezonskih trendova *.Također, kako bih mogao procijeniti potencijalnu ulogu i / ili (moderirajući) učinak poznatih ili nepoznatih * čimbenika * s obzirom na mješovitu raspodjelu ovisne varijable.Bilo kako da to mogu / trebam povezati s * EFA *?Javite mi ako ima smisla pretvoriti svoj komentar u pitanje.
Samo pročitajte preporučene radove na paketima `mixtools` i` rebmix`.Odgovorio je na moja pitanja o otkrivanju čimbenika / komponenata (sezonsko pitanje još uvijek vrijedi).Ima li smisla koristiti oba paketa i uspoređivati rezultate ili bi to bilo pretjerano?
gung - Reinstate Monica
2013-05-06 04:28:12 UTC
view on stackexchange narkive permalink

Funkcija descdist ima mogućnost pokretanja distribucije kako bi se stekao osjećaj preciznosti povezane s nacrtanom procjenom. Možda biste to pokušali.

  descdist (time_to_repair, boot = 1000)  

Pretpostavljam da su vaši podaci u skladu s ne samo beta distribucijom.

Općenito, beta distribucija distribucija je kontinuiranih proporcija ili vjerojatnosti. Na primjer, raspodjela p-vrijednosti iz t-testa bio bi neki specifični slučaj beta raspodjele, ovisno o tome je li nulska hipoteza istinita i količini snage koju ima vaša analiza.

Smatram da je krajnje malo vjerojatno da bi raspodjela vašeg vremena za popravak zapravo bila beta. Imajte na umu da taj graf samo uspoređuje iskrivljenost i kurtozu vaših podataka s navedenom distribucijom. Beta je vezana za 0 i 1; Kladim se da vaši podaci nisu, ali taj graf ne provjerava tu činjenicu.

S druge strane, Weibullova distribucija uobičajena je za kašnjenja. Gledajući sliku (bez uzoraka čizama nacrtanih za procjenu nesigurnosti), pretpostavljam da su vaši podaci u skladu s Weibullom.

Možete i provjeriti jesu li vaši podaci Weibull, vjerujem da pomoću qqPlot iz paketa automobila napravite qq-plot.

+1 Hvala. U vrijeme dok razumijem vaš odgovor, upravo sam ažurirao svoje pitanje parametrom `bootstrap` postavljenim na 500 u funkciji` descdist`. I da, u pravu ste što moje vrijednosti nisu u [0,1]. Mogu li na taj način prikazati tu činjenicu (koja pripada weibullu) pomoću ovog grafa? Pokušat ću uskoro ažurirati svoje pitanje pomoću QQPlota.
Upravo sam ažurirao svoje pitanje `qqPlot` iz paketa` car`.
Hmmm. Pa, qq-plota ne čini da Weibullova distribucija dobro pristaje.
I još jedan za lognormalnu raspodjelu. Preporučujete li bilo kakvu prethodnu obradu koju bih trebao obaviti s podacima? Ili postoji bolji način za procjenu najpogodnijih? Još se uvijek pitam kako mogu koristiti Cullen / Freyjev graf u svom kontekstu.
Također, ažurirao sam svoje pitanje podacima koje koristim na kraju u slučaju da pomogne.
`descdist` ne prihvaća` boot = TRUE`, želi veličinu uzorka (> 10).Uredio to u.
Kakva je korist dodati `boot = 1000`?
Carl
2018-02-23 03:13:53 UTC
view on stackexchange narkive permalink

Koliko vrijedi, koristeći Mathematicinu rutinu FindDistribution, logaritmi su približno mješavina dvije normalne raspodjele,

enter image description here

To jest, $ x = \ ln (\ text {data}) $, i $$ f (x) = 0,0585522 e ^ {- 0,33781 (x-11,7025) ^ 2} +0,229776 e ^ {- 0,245814 (x-6,66864) ^ 2} $$

Korištenje 3 distribucije za izradu smjese to može biti

enter image description here $$ f (x) = 0.560456 \ text {Laplace} (5.85532,0.59296) +0.312384 \ text {LogNormal} (2.08338,0.122309) +0.12716 \ text {Uobičajeno} (11.6327,1.02011) \ ,, $$ što je brojčano $$ \ početak {niz} {cc} \ Bigg \ {& \ begin {niz} {ll} 0,472592 e ^ {- 1,668646 (5,8532 \, -x)} \, +0,0497292 e ^ {- 0,480476 (x-11,6327) ^ 2} & x \ leq 0 \\ 0,472592 e ^ {- 1,668646 (5,8532 \, -x)} + 0,0497292 e ^ {- 0,480476 (x-11,6327) ^ 2} + \ frac {1,01893} {x} e ^ {- 33,4238 (\ ln (x) - 2.08338) ^ 2} & 0<x<5.85532 \\ 0,472592 e ^ {- 1,668646 (x-5,85532)} + 0,0497292 e ^ {- 0,480476 (x-11,6327) ^ 2} + \ frac {1,01893} {x} e ^ {- 33,4238 (\ ln (x) -2,08338) ^ 2} & \ text {Inače} \\ \ end {niz} \\ \ end {niz {$$

Postoje mnoge druge mogućnosti. Na primjer, uklapanje triju normalnih distribucija u snagu 1/10 $ ^ \ text {th} $ podataka. Za kôd Mathematica, daljnje metode su prema ovoj poveznici.



Ova pitanja su automatski prevedena s engleskog jezika.Izvorni sadržaj dostupan je na stackexchange-u, što zahvaljujemo na cc by-sa 3.0 licenci pod kojom se distribuira.
Loading...