Testovi

Wald-Wolfowitz runs test

Uvod i definicija

Wald–Wolfowitzov test (engl. Wald–Wolfowitz runs test) je statistički test bez parametara koji provjera hipotezu o slučajnosti nad nizom podataka s dvije vrijednosti, odnosno, jesu li elementi niza međusobno neovisni. Nazvan je po statističarima Abrahamu Waldu i Jacobu Wolfowitzu. Test odgovara na pitanje “Jesu li ovi uzorci podataka generirani nasumičnim procesom?”. Prvi korak u runs testu je brojanje broja izvoda u nizu podataka. Postoji nekoliko načina za definiranje izvoda ovisno o setu podataka nad kojim se provodi test. Najlakši primjer za to prikazati je bacanje novčića; gdje će sekvenca podataka izgledati npr. G G P G P G P P G G za 10 bacanja novčića (G - glava, P - pismo). Što se može isto prikazati kao niz ++-+-+--++, koji se sastoji od 7 izvoda duljina 2, 1, 1, 1, 1, 2, 2. Test se temelji na nultoj hipotezi, odnosno, da je svaki element u nizu neovisno izvučen iz iste distribucije.

Pod nultom hipotezom, broj izvoda u nizu od N (N=N++N-) elemenata je slučajna varijabla čija uvjetna distribucija, s obzirom na promatranje N+ pozitivnih vrijednosti i N-- negativnih vrijednosti, približno normalna s prosjekom i varijancom:

te brojev izvoda

Očekivani broj izvoda, pretpostavljajući neovisnost događaja, računa se:

što kada se x_1 x_2 raspišu, te pojednostavni se u:

Rezultat testa dobiva se uspoređivanjem dobivenog broja izvoda s očekivanim brojem izvoda. Ukoliko je dobiveni broj izvoda mnogo veći ili manji od očekivanog broja izvoda, hipoteza o nezavisnosti slučajnih događaja može biti odbačena. Statistička značajnost kako bi se odredilo što je “mnogo veće” ili “mnogo manje”, izabire se prije prikupljanja podataka, i tipično iznosi oko 5%, što za Wald–Wolfowitzov test tipično nije slučaj, više o tome u primjerima.

Test se koristi za testiranje:

Autocorrelation test

Uvod i definicija

Autokorelacija je statistički koncept koji procjenjuje stupanj korelacije između vrijednosti varijable u različitim vremenskim točkama i temeljni je koncept u analizi vremenskih serija. Autokorelacija mjeri stupanj sličnosti između dane vremenske serije i njezine pomaknute verzije tijekom uzastopnih vremenskih perioda. Slično je računanju korelacije između dvije različite varijable, osim što u autokorelaciji računamo korelaciju između dvije različite verzije Xt i Xt - k iste vremenske serije. Autokorelacija označava se s ρ(k) gdje k označava vremenski pomak ili broj intervala između opažanja. Izračunava se pomoću koeficijenta korelacije: Za skup podataka vremenske serije, autokorelacija na pomaku k određuje se usporedbom vrijednosti varijable u trenutku t s vrijednostima u trenutku t - k.

Pozitivna autokorelacija (ρ>0) ukazuje na tendenciju da vrijednosti u jednoj vremenskoj točki budu pozitivno povezane s vrijednostima u kasnijoj vremenskoj točki. Visoka autokorelacija na određenom pomaku sugerira snažnu linearnu vezu između trenutnih vrijednosti varijable i njezinih prošlih vrijednosti na tom pomaku. Negativna autokorelacija (ρ<0) sugerira obrnuti odnos između vrijednosti u različitim vremenskim intervalima. Niska ili nulta autokorelacija ukazuje na odsutnost linearne ovisnosti između trenutnih i prošlih vrijednosti varijable na tom pomaku.

Ljung-Box test

Ljung-Box test je statistički test koji se koristi za provjeru postojanja ukupne autokorelacije u vremenskoj seriji do određenog broja pomaka kk. Za razliku od testova koji ispituju autokorelaciju na pojedinačnim pomacima, Ljung-Box test istodobno provjerava postojanje autokorelacije na više pomaka, pružajući sveobuhvatan uvid u slučajnost serije.

Hipoteze testa:

Ljung-Boxova statistika Q izračunava se prema formuli:

gdje je:

Statistika Q prati χ2 (chi-kvadrat) raspodjelu s m stupnjeva slobode.

Interpretacija rezultata:

Chi-square test

  1. Generiranje pseudo-nasumičnih brojeva
    Prvo je potrebno generirati što veći niz pseudo-nasumičnih brojeva.
  2. Definiranje intervala
    Da bi se testirala ravnomjernost distribucije, opseg vrijednosti se dijeli na više intervala ili “binova”. Npr ako generiramo brojeve od 1 do 1000, možemo taj opseg podijeliti na 10 intervala, npr. 1-100, 101-200 itd. Pošto želimo da generator bude što nasumičniji, u svakom intervalu očekujemo otprilike jednak broj generiranih brojeva.
  3. Brojanje stvarnih frekvencija
    Brojimo koliko se puta pojavio broj u svakom od intervala.
  4. Primjenjivanje chi-square izraza

    Oi predstavlja stvarnu frekvencija u intervalu i Ei predstavlja očekivanu frekvencija u intervalu i. U prijašnjem primjeru svaki Ei za svaki interval će biti 100. k predstavlja broj intervala

  5. Uspoređivanje s kritičnom vrijednošću Izračunatu vrijednost uspoređujemo s kritičnom vrijednosti iz chi-square tablice za zadanu razinu značajnosti (npr. 5% ili 1%) i stupnjeve slobode k - 1. Ako je izračunata vrijednost manja od kritične vrijednosti, ne možemo odbaciti hipotezu da su brojevi ravnomjerno raspodijeljeni, što ukazuje na to da generator vjerojatno dobro generira pseudo-nasumične brojeve. Ako je izračunata vrijednost veća od kritične vrijednosti, odbacujemo hipotezu, što ukazuje na odstupanja od ravnomjerne distribucije.

Test diskretnom fourierovom transformacijom

Uvod i definicija

Test diskretnom fourierovom transformacijom (DFT) je test koji napravi fourierovu transformaciju niza brojeva i tako ih prebaci iz vremenske u frekvencijsku domenu. Cilj toga je pronaći periodičnost niza. Da bi se pronašla periodičnost uzima se broj vrhove frekvencijske domene koja prelaze 95% svih frekvencija. Ako je broj prevelik generator nije uspio proći test.

Koraci izvođenja

Zaključak

Moramo odrediti koja nam granična p vrijednost. Standard je 1%, što znači ako je p vrijednost < 0.01 generator nije slučajan. Preporuča se što veći broj bitova za testiranje, minimum je 1000.