Hipotezė apie proporciją. Puasoninė aproksimacija

lapkričio 30, 2009

Kartais žinoma, kad tiriamą savybę turinčių elementų visoje populiacijoje dalis yra labai maža (pvz., 0,1% ir pan. ). Tuomet normalioji proporcijos aproksimacija nebetinka ir vietoje jos taikoma puasoninė aproksimacija. Tarkime, kad stebime binominį atsitiktinį dydį X \sim B(1,p) su nežinomu parametru p . Atsitiktinės imties (X_1, X_2, ... , X_n) visi atsitiktiniai dydžiai X_i nepriklausomi ir turi tą patį skirstinį kaip ir X . Imties elementų suma S_n turi binominį skirstinį su parametrais n ir p , t. y. S_n = X_1 + X_2 + ... + X_n \sim B(n, p) . Mažoms p reikšmėms statistiką S_n galima pakeisti atsitiktiniu dydžiu Y \sim P(np) , turinčiu Puasono skirstinį su parametru np .

Jegigu hipotezė apie parametro reikšmę H_0: p = a teisinga, tai Y \sim P(np) ir galime kintamajam Y konstruoti kritines sritis. Tačiau šiuo atveju patogiau kriterijų formuluoti p-reikšmėms.

Nagrinėjamo uždavinio sprendimo etapai:

  1. Duomenys. Dvireikšmių duomenų aibę sudaro nuliai (matuotos savybės nerasta) ir vienetai (matuota savybė rasta).
  2. Statistinė hipotezė:
    H_0 : p = a ,
    H_1 : p \ne a .
  3. Kriterijaus statistika. Apskaičiuojame

P(Y \ge m) ir P(Y \le m) , čia Y \sim P(np) , o m – vienetų imtyje skaičius.

4. Sprendimo priėmimos taisyklė. Tarkime, reikšmingumo lygmuo yra \alpha . Hipotezė H_0 atmetama (taigi p statistiškai reikšmingai skiriasi nuo a ), jeigu P(Y \ge m) < \alpha/2 arba P(Y \le m) < \alpha/2 . Kitais atvejais hipotezė H_0 neatmetama

Vienpusėms alternatyvoms naudojamos tos pačios tikimybės, tik jos lyginamos su \alpha . Sprendimo taisyklės, esant skirtingoms alternatyvoms, pateikiamos lentelėje:

Alternatyva H_1 H_0  atmetama, jeigu H_0 neatmetama, jeigu
p \ne a P(Y \ge m) < \alpha/2 arba P(Y \le m) < \alpha/2 P(Y \ge m) \ge \alpha/2 ir P(Y \le m) \ge \alpha/2
p > a P(Y \ge m) < \alpha P(Y \ge m) \ge \alpha/2
p < a P(Y \le m) < \alpha P(Y \le m) \ge \alpha

Pavyzdys. Tam tikra liga serga 0,05% visos populiacijos. Naujus skiepus išbandė 3000 savanorių. Iš jų susirgo vienas. Ar skiepai statistiškai reikšmingai sumažino riziką susirgti? (\alpha = 0,05 ).

Sprendimas. Formuluojame statistinę hipotezę:

H_0 : p = 0,0005 ,
H_1 : p < 0,0005 .

Kadangi m = 1 , a = 0,0005 , o n = 3000 , tai Y \sim P(1,5) , kai H_0 teisinga. Todėl

P(Y \le 1) = e^{-1,5} + 1,5e^{-1,5} = 0,5578 > 0,05 .

Taigi hipotezės H_0 neatmetame. Neturime pagrindo teigti, kad skiepai statistiškai reikšmingai sumažino riziką susirgti, todėl jų efektyvumas abejotinas.

Taigi hipotezė apie proporciją lygybę skaičiui skirta, kai imtis didelė.

Hipotezė apie proporciją. Normalioji aproksimacija

lapkričio 30, 2009

Tarkime, kad per rinkimus politinis judėjimas „Rytai – Vakarai“ surinko 15% balsų. Praėjus dvejiems metams po rinkimų, judėjimo vadovai nori žinoti, ar rinkėjų nuotaikos pasikeitė. Apklausus 1000 rinkėjų, paaiškėjo, kad šimtas iš jų balsuotų už judėjimą „Rytai – Vakarai“. Ar rinkėjų požiūris į judėjimą pasikeitė? Išvadą norime padaryti apie visą rinkėjų populiaciją. Todėl vertindami ankstesnės rėmėjų dalies (15%) ir imties rėmėjų (100  iš 1000, t. y. 10% skirtumą), turime atsižvelgti į imties atsitiktinumą.

Visų pirma išsiaiškinkime, kokį atsitiktinį dydį stebime. Kiekvienas paklaustasis arba remia judėjimą, arba neremia. Tikimybė, kad atsitiktinai parinktas apklaustasis rems judėjimą, lygi visų remiančiųjų populiacijoje daliai. Pažymėkime ją simboliu p . Pavyzdžiui, jeigu populiaciją sudaro 3 000 000 rinkėjų, iš kurių 600 000 judėjimą remia, tai tikimybė p , kad atsitiktinai parinktas rinkėjas yra judėjimo rėmėjas, lygi 600 000/3 000 000 = 0,2. Tegul X yra atsitiktinis dydis, įgyjantis dvi reikšmes: X = 1 su tikimybe P(X = 1) = p (kai apklaustas rinkėjas judėjimą remia) arba X = 0 su tikimybe P(X=0) = 1 - p (kai apklaustas rinkėjas judėjimą neremia). Taigi stebime binominį atsitiktinį dydį X \sim B(1,p) su nežinomu parametru p . Atsitiktinę imtį (X_1, X_2, ... , X_n) sudaro nepriklausomi atsitiktiniai dydžiai, turintys tokį pat binominį skirstinį kaip ir X (ėmimas turi būti grąžintinis). Atsitiktinių dydžių suma S_n turi binominį skirstinį su parametrais n ir p , t. y. S_n = X_1 + +X_2 + ... + X_n \sim B(n,p) .

Statistiką S_n galima taikyti hipotezėms tikrinti (tai ir daroma mažoms imtims). Tačiau dideliems n sunku apskaičiuoti binominio atsitiktinio dydžio reikšmių tikimybes. Todėl tuo atveju naudojama statistikos S_n aproksimacija. Jeigu spėjama p  reikšmė, palyginti su n , nėra labai mažas skaičius, taikoma normalioji aproksimacija, t. y. statistika S_n keičiama nedaug nuo jos besiskiriančiu normaliuoju atsitiktiniu dydžiu. Iš centrinės ribinės teoremos išplaukia, kad

\tilde{Z} = \frac{S_n - \boldmath{E}S_n}{\sqrt{DS_n}} \approx N(0,1) .

Kadangi ES_n = np , o DS_n = np(1 - p) , tai perrašome Z taip:

\tilde{Z} = \frac{S_n - np}{\sqrt{np(1 - p)}} = \frac{\bar{X} - p}{\sqrt{p(1 - p)/n}} .

Atsitiktinis dydis X įgyja tik dvi reikšmes – 0 ir 1, todėl \bar{X} yra skaičius tarp 0 ir 1, atitinkantis rėmėjų imtyje skaičių. Tai yra ne kas kita kaip p įvertis, todėl labiau priimta veitoje \bar{X} vartoti \widehat{p} . Taigi

\tilde{Z} = \frac{\widehat{p} - p}{\sqrt{p(1 - p)/n}} \approx N(0,1) .

Tarkime, H_0: p = a . Jeigu H_0 teisinga, galime pasinaudoti asimptotiniu \tilde{Z} normalumu.

Nagrinėjamo uždavinio sprendimo etapai:

  1. Duomenys. Dvireikšmių duomenų aibę sudaro nuliai (matuotos savybės nerasta) ir vienetai (matuota savybė rasta).
  2. Statistinė hipotezė:
    H_0 : p = a ,
    H_1 : p \ne a .
  3. Kriterijaus statistika. Apskaičiuojame

Z = \frac{m - na}{\sqrt{na(1 - a)}} = \frac{\widehat{p} - a}{\sqrt{a(1- a)/n}} , čia m yra imties vienetų skaičius, \widehat{p} = m/n .

4. Sprendimo priėmimos taisyklė. Tarkime, reikšmingumo lygmuo yra \alpha . Hipotezė H_0 atmetama (taigi p statistiškai reikšmingai skiriasi nuo a ), jeigu |Z|>z_{\alpha/2} . Čia z_{\alpha/2} yra standartinio normaliojo skirstinio \alpha/2 lygmens kritinė reikšmė. Hipotezė H_0 neatmetama, jeigu |Z| \le t_{\alpha/2} .

Vienpusėms alternatyvoms naudojama ta pati statistika Z . Sprendimo taisyklės, esant skirtingoms alternatyvoms, pateikiamos lentelėje:

Alternatyva H_1 H_0  atmetama, jeigu H_0 neatmetama, jeigu
p \ne a |Z|>z_{\alpha/2} |Z| \le z_{\alpha/2}
p > a Z>z_{\alpha} Z \le z_{\alpha}
p < a Z<-z_{\alpha} Z \ge -z_{\alpha}

Pavyzdys.Prieš pradėdami masinę dietinių „mėsainių su lašinių kvapu“ gamybą, užkandinė „Mak-kauskas“ paprašė 100 lankytojų įvertinti naująjį produktą. Teigiamai naująjį produktą įvertino 63 lankytojai. Ar šie duomenys neprieštarauja naujojo mėsainio kūrėjo reklaminiam teiginiui, kad pagamintas produktas patiks bent dviem iš trijų lankytojų? (\alpha = 0,01 ).

Sprendimas. Formuluojame statistinę hipotezę:

H_0 : p = 2/3 ,
H_1 : p < 2/3 .

Apskaičiuojame Z = (63 - 200/3)/(\sqrt{100(2/3)(1/3)}) = -0,777... . Kadangi Z = -0,777 > 2,326 = -z_{0,01} , tai hipotezės H_0 neatmetame. Imties duomenys neprieštarauja reklaminiam teiginiui.

Pastaba.  Nėra vieningos nuomonės, kokioms n ir a reikšmėms normalioji aproksimacija yra pakankamai tiksli. Kartais reikalaujama, kad tarp n ir a galiotų ryšys:

n \ge \max{(\frac{5}{a}, \frac{5}{a - 1}, \frac{25(1 - 2a)^2}{a(1 - a)})} .

Pavyzdžiui, jeigu a = 0,1 , tai n\ge 178 ; jeigu a = 0,5 , tai n \ ge 10 . Kartais reikalaujama, kad \max{(na, n(1 - a))} \ge 30 .

Hipotezė apie koreliacijos koeficiento lygybę skaičiui

lapkričio 30, 2009

Tarkime, stebime intervalinių kintamųjų porą (X,Y) , gautą matuojant dvimatį normalųjį atsitiktinį dydį. Atsitiktinę imtį sudaro poros (X_1,Y_1), (X_2,Y_2), ..., (X_n,Y_n) . Norime nustatyti, ar koreliacija tarp X ir Y  lygi skaičiui a (H_0: \varrho = a ). Kadangi koreliacijos įvertis yra Pirsono koreliacijos koeficientas R , tai spręsdami turime lyginti jo realizaciją r su a . Situacija, palyginti su hipotezę apie koreliacijos koeficiento lygybę nuliui, pasikeitė. Kadangi \tau = R\sqrt{\frac{n - 2}{1 - R^2}} galioja tik tuo atveju, kai a = 0 . Jeigu a \ne 0 , tai statistika R turi asimetrišką skirstinį. Todėl jai netinka nei normalioji, nei Stjundento aproksimacija (abi jos simetriškos). Išeitį 1915 metais pasiūlė R. A. Fišeris. Asimetriją galima panaikinti transformuojant koreliacijos koeficientą.

Fišerio transformacija z_r = \frac{1}{2} \ln{\frac{1 + r }{1 - r}} .

Transformuotoji statistika \tilde{Z_r} apytiksliai turi normalųjį skirstinį, kurio dispersija yra \sqrt{1/(n - 3)} . Analogiškai transformuojame a . Kai galioja H_0: \varrho = a ,

\tilde{Z} = (\tilde{Z_R} - \tilde{Z_a})\sqrt{n - 3} \approx N(0,1) .

Kritinės sritys konstruojamos remiantis šia formule.

Nagrinėjamo uždavinio sprendimo etapai:

  1. Duomenys. Intervalinių duomenų porinė imtis ((x_1, y_1), ( x_2, y_2), ... , (x_n, y_n)) gauta matuojant dvimatį normalųjį atsitiktinį dydį (X, Y) , n > 3 .
  2. Statistinė hipotezė:
    H_0 : \varrho = a ,
    H_1 : \varrho \ne a .
  3. Kriterijaus statistika. Apskaičiuojame

Z = (Z_r - Z_a)\sqrt{n - 3} .

Čia r yra koreliacijos koeficiento realizacija, skaičiuojama pagal formulę:

r = \frac{n\sum{x_ix_i} - (\sum{x_i})(\sum{x_i})}{\sqrt{(n\sum{{x_i}^2 - (\sum{x_i})^2)(n\sum{{y_i}^2} - (\sum{y_i})^2)}}}

4. Sprendimo priėmimos taisyklė. Tarkime, reikšmingumo lygmuo yra \alpha . Hipotezė H_0 atmetama (taigi X ir Y koreliacija statistiškai reikšmingai skiriasi nuo a ), jeigu |Z|>z_{\alpha/2} . Čia z_{\alpha/2} yra standartinio normaliojo skirstinio \alpha/2 lygmens kritinė reikšmė. Hipotezė H_0 neatmetama, jeigu |Z| \le t_{\alpha/2} .

Vienpusėms alternatyvoms naudojama ta pati statistika Z . Sprendimo taisyklės, esant skirtingoms alternatyvoms, pateikiamos lentelėje:

Alternatyva H_1 H_0  atmetama, jeigu H_0 neatmetama, jeigu
\varrho \ne a |Z|>z_{\alpha/2} |Z| \le z_{\alpha/2}
\varrho > a Z>z_{\alpha} Z \le z_{\alpha}
\varrho < a Z<-z_{\alpha} Z \ge -z_{\alpha}

Pavyzdys. Siuvykla kas mėnesį dalį lėšų išleidžia savo produkcijai reklamuoti. Jo direkcija nori sužinoti, kokia išleidžiamų reklamai pinigų ir parduodamos produkcijos kiekių priklausomybė. Priklausomybė laikoma pakankamai stipria, jeigu koreliacija ne mažesnė už 0,6. Ištyrus 12 mėnesių duomenis, gauta r = 0,51 . (\alpha = 0,05 )

Formuluojame statistinę hipotezę:

H_0 : \varrho = 0,6 ,
H_1 : \varrho \ne 0,6 .

Randame z_r = 0,563 , z_{0,6} = 0,693 , Z = (0,563 - 0,693)\sqrt{9} = -0,39 . Kadangi Z = -0,39 \ge -1,64 = z_{0,05} , tai H_0 neatmetame. Duomenys neleidžia teigti, kad koreliacija yra statistiškai reikšmingai mažesnė už 0,6.

Hipotezė apie koreliacijos koeficiento lygybę nuliui

lapkričio 30, 2009

Tarkime, stebime intervalinių kintamųjų porą (X,Y) , gautą matuojant dvimatį normalųjį atsitiktinį dydį. Atsitiktinę imtį sudaro poros (X_1,Y_1), (X_2,Y_2), ..., (X_n,Y_n) . Norime nustatyti, ar kintamieji X ir Y  koreliuoja. Atsitiktinių dydžių tiesinę priklausomybę matuoja koreliacijos koeficientas \varrho , kurio įvertis R :

R = \frac{(n - 1)\sum{X_iY_i} - (\sum{X_i})(\sum{Y_i})}{\sqrt{((n-1)\sum{{X_i}^2 - (\sum{X_i})^2)((n - 1)\sum{{Y_i}^2} - (\sum{Y_i})^2)}}}

Nusistovėjusios vartotojų normos, kurios rodo, kokią koreliacijos koeficiento reikšmę laikyti didele, sudarytos neatsižvelgiant į imties didumą, todėl lieka neaišku, ar koreliacija statistiškai reikšmingai skiriasi nuo nulio. Taigi, pamėginsime šią problemą panagrinėti.

Konstruojam kritines sritis remiantis tuo, kad

\tau = R\sqrt{\frac{n - 2}{1 - R^2}}

turi Stjudento skirstinį su (n - 2) laisvės laipsnių, jeigu \varrho = 0 .

Nagrinėjamo uždavinio sprendimo etapai:

  1. Duomenys. Intervalinių duomenų imtis ((x_1, y_1), ( x_2, y_2), ... , (x_n, y_n)) gauta matuojant dvimatį normalųjį atsitiktinį dydį (X, Y) .
  2. Statistinė hipotezė:
    H_0 : \varrho = 0 ,
    H_1 : \varrho \ne 0 .
  3. Kriterijaus statistika. Apskaičiuojame

T = r\frac{n - 2}{1 - r^2}.

Čia r yra koreliacijos koeficiento realizacija, skaičiuojama pagal formulę:

r = \frac{n\sum{x_ix_i} - (\sum{x_i})(\sum{x_i})}{\sqrt{(n\sum{{x_i}^2 - (\sum{x_i})^2)(n\sum{{y_i}^2} - (\sum{y_i})^2)}}}

4. Sprendimo priėmimos taisyklė. Tarkime, reikšmingumo lygmuo yra \alpha . Hipotezė H_0 atmetama (taigi X ir Y   statistiškai reikšmingai koreliuoja), jeigu |T|>t_{\alpha/2}(n - 2) . Čia t_{\alpha/2}(n - 2) yra Stjudento skirstinio su (n - 2) laisvės laipsnių \alpha/2 lygmens kritinė reikšmė. Hipotezė H_0 neatmetama, jeigu |T| \le t_{\alpha/2}(n - 2) .

Vienpusėms alternatyvoms naudojama ta pati statistika \tau . Sprendimo taisyklės, esant skirtingoms alternatyvoms, pateikiamos lentelėje:

Alternatyva H_1 H_0  atmetama, jeigu H_0 neatmetama, jeigu
\varrho \ne 0 |T|>t_{\alpha/2}(n-2) |T| \le z_{\alpha/2}(n-2)
\varrho > 0 T>t_{\alpha}(n-2) T \le t_{\alpha}(n-2)
\varrho < 0 T<-t_-{\alpha}(n-2) T \ge -t_{\alpha}(n-2)

Pavyzdys. I dalis. Firma nori įvertinti tiesinę priklausomybę tarp pardavėjų skaičiaus (X) ir parduodamos produkcijos kiekio (Y) , matuoto tonomis per mėnesį. Duomenys:

Metai X Y Metai X Y
90 10 130 95 24 295
91 13 160 96 25 339
92 15 234 97 27 320
93 17 240 98 30 360
94 20 263 99 32 380

Apskaičiuojame koreliacijos koeficiento įverčio realizaciją r :

\sum{x_i} = 10 + 13 + ... + 32 = 213 , \sum{y_i} = 130 + 160 + ... + 380 = 2621 , \sum{{x_i}^2} = 10^2 + 13^2 + ... + 32^2 = 5037 , \sum{{y_i}^2} = 130^2 + 160^2 + ... + 380^2 = 780 371 , \sum{x_iy_i} = 10 \cdot 130 + 13 \cdot 160 + ... + 32 \cdot 380 = 62 085 , n = 10

r = \frac{620 850 - 213 \cdot 2621}{\sqrt{(50 370 - 45 369)(7 803 710 - 6 869 641)}} = 0,915 .

Gavome, kad parduodamos produkcijos kiekis stipriai tiesiškai priklauso nuo pardavėjų skaičiaus (Kadangi koreliacijos koeficientas teigimas, tai priklausomybė yra tiesioginė – kuo daugiau pardavėjų, tuo daugiau parduodama).

II dalis. Patikrinsime, ar I daly gauta koreliacija r , statistiškai reikšmingai skiriasi nuo 0 . Tegul \alpha = 0,01 . Statistinė hipotezė:

H_0 : \varrho = 0 ,
H_1 : \varrho \ne 0 .

Apskaičiuojame

T = 0,915\frac{10 - 2}{1 - 0,915^2} = 6,4146 .

Kadangi |T| = 6,4146 > 3,355 = t_{0,005}(8), tai H_0 atmetama. Koreliacija tarp pardavėjų skaičiaus ir parduodamo produkcijos kiekio statistiškai reikšminga.

Pastaba. Tvirtai nusistovėjusi tradicija hipotezes apie koreliacijos keoficientą nagrinėti kartu su vienos imties kriterijais, nors koreliacijos keoficientas yra dviejų imčių elgesį nusakantis dydis. Taigi, nagrinėtos hipotezės apie koreliacijos koeficiento lygybę nuliui pagrindinis bruožas yra ne viena imtis (porinė ar ne), o tai, kad hipotezės formuluojamos vienam parametrui ir turime tik vieną empirinį to parametro įvertį.


Hipotezė apie dispersijos lygybę skaičiui, kai vidurkis nežinomas

lapkričio 26, 2009

Tirsime situaciją, kai stebimo dydžio vidurkis nežinomas. Pavyzdžiui, dispersija svarbi: nustatant laiką, per kurį po iškvietimo atvyksta greitoji pagalba; vertinant produkto kalorijų kiekį; kontroliuojant gaminamų termometrų tikslumą; pasirenkant stabilios kainos vertybinius popierius ir pan.

Tarkime, stebime normalųjį atsitiktinį dydį X \sim N(\mu,\sigma^2) . Populiacijos vidurkis \mu ir dispersija \sigma^2 nežinomi. Norime patikrinti hipotezę H_0: \sigma^2 = a , čia a yra fiksuotas skaičius. Kritinė sritis sudaroma remiantis tuo, kad statistika

\tau = (\frac{X_1 - \overline{X}}{\sigma})^2 +(\frac{X_2 - \overline{X}}{\sigma})^2 + . . . + (\frac{X_n - \overline{X}}{\sigma})^2

turi \chi^2 skirstinį su n - 1 laisvės laipsnių.

Dvipusės alternatyvos H_1: \sigma^2 \ne a kritinę sritį sudaro aibė

W=(-\infty,-\chi^2_{1 - \alpha/2}(n - 1)) \cup (\chi^2_{\alpha/2}(n - 1), \infty) ,

čia \chi^2_{1 - \alpha/2}(n - 1) yra \chi^2 skirstinio su n - 1 laisvės laipsnių 1 - \alpha/2 lygmens kritinė reikšmė. Analogiškai sudaromos kritinės sritys vienpusių alternatyvų atveju. Nagrinėjamojo uždavinio sprendimo etapai konkrečiai imties realizacijai yra tokie:

  1. Duomenys. Intervalinių duomenų imtis x_1, x_2, ... , x_n gauta matuojant normalųjį atsitiktinį dydį X \sim N(\mu,\sigma^2) . Vidurkis \mu ir dispersija \sigma^2 nežinomi.
  2. Statistinė hipotezė:
    H_0 : \sigma^2 = a ,
    H_1 : \sigma^2 \ne a .
  3. Kriterijaus statistika. Apskaičiuojame

T = \frac{1}{a} ((x_1 - \overline{x})^2 + (x_2 - \overline{x})^2 +...+ (x_n - \overline{x})^2) = \frac{(n - 1){s^2}}{a}

4. Sprendimo priėmimos taisyklė. Tarkime, reikšmingumo lygmuo yra \alpha . Hipotezė H_0 atmetama (taigi \sigma^2 statistiškai reikšmingai skiriasi nuo a ), jeigu T>\chi^2_{\alpha/2}(n - 1) arba T<\chi^2_{1 - \alpha/2}(n - 1) . Čia \chi^2_{\alpha/2}(n - 1) ir \chi^2_{1 - \alpha/2}(n - 1)  yra \chi^2 skirstinio su n - 1 laisvės laipsnių kritinės reikšmės. Hipotezė H_0 neatmetama, jeigu \chi^2_{1 - \alpha/2}(n - 1) \le T \le \chi^2_{\alpha/2}(n - 1) .

Pavyzdys. Taikant naują mokymo metodą 21 studentui, gautas baigiamojo egzamino testo rezultatų standartinis nuokrypis yra 4 balai. Ar galima teigti, kad naujojo mokymo metodo rezultatų sklaida skiriasi nuo senojo metodo rezultatų, jeigu žinoma, kad, taikant ankstesnįjį metodą, rezultatų standartinis nuokrypis buvo 5 balai? (\alpha = 0,01 ).

Sprendimas

Statistinė hipotezė:

H_0 : \sigma^2 = 25 ,
H_1 : \sigma^2 \ne 25 .

Randame

T = (21 - 1)4^2/5^2 = 12,8

Kadangi \chi^2_{0,995}(13) = 7,43 < 12,8< 39,99 = \chi^2_{0,005}(20) , tai H_0 neatmetama. Taigi naujojo ir senojo metodų rezultatų sklaidų skirtumas statistiškai nereikšmingas.

 

Hipotezė apie dispersijos lygybę skaičiui, kai vidurkis žinomas

lapkričio 26, 2009

Kontroliuojant kokybę, svarbu atsižvelgti į rezultatų sklaidą. Tarkime, gamykla, gamindama 5 colių vinis, pusę vinių pagamino 3 colių, o pusę 7 colių. Vidutinis vinies ilgis yra 5 coliai, tačiau pirkėjai nebus patenkinti. Dar aktualesnė ši problema vaistų gamyboje – kažin ar kas sutiks vartoti vaistų ampules, kuriose vidutiniškai preparato yra tiek, kiek reikia, tačiau kartais jo yra du kart daugiau, o kartais perpus mažiau, nei reikia. Abiem minėtais atvejais gaminių kokybę nusako populiacijos dispersija.

Hipotezės apie dispersijos reikšmę tikrinamos normaliai pasiskirsčiusiems kintamiesiems. Tarkime, stebime normalųjį atsitiktinį dydį X \sim N(\mu_0,\sigma^2) . Populiacijos vidurkis \mu_0 žinomas, o dispersija \sigma^2 nežinoma. Norime patikrinti hipotezę H_0: \sigma^2 = a , čia a yra fiksuotas skaičius. Kritinė sritis sudaroma remiantis tuo, kad visiems i = 1, 2, ..., n

\frac{X_i - \mu_0}{\sigma} \sim N(0,1) , kai \sigma^2 = a .

Todėl statistika

\tau = (\frac{X_1 - \mu_0}{\sigma})^2 +(\frac{X_2 - \mu_0}{\sigma})^2 + . . . + (\frac{X_n - \mu_0}{\sigma})^2

turi \chi^2 skirstinį su n laisvės laipsnių. Kadangi \chi^2 skirstinys nėra simetrinis, tai dvipusės alternatyvos H_1: \sigma^2 \ne a kritinę sritį sudaro aibė W=(-\infty,-\chi^2_{1 - \alpha/2}(n)) \cup (\chi^2_{\alpha/2}(n), \infty) , čia \chi^2_{1 - \alpha/2}(n) yra skirstinio su n laisvės laipsnių 1 - \alpha/2 lygmens kritinė reikšmė.

Analogiškai sudaromos kritinės sritys vienpusių alternatyvų atveju. Nagrinėjamo uždavinio sprendimo etapai:

  1. Duomenys. Intervalinių duomenų imtis x_1, x_2, ... , x_n gauta matuojant normalųjį atsitiktinį dydį X \sim N(\mu_0,\sigma^2) . Vidurkis \mu_0 – žinomas, dispersija \sigma^2 nežinoma.
  2. Statistinė hipotezė:
    H_0 : \sigma^2 = a ,
    H_1 : \sigma^2 \ne a .
  3. Kriterijaus statistika. Apskaičiuojame

T = \frac{1}{a}((x_1 - \mu_0)^2 + (x_2 - \mu_0)^2 + . . . + (x_n- \mu_0)^2)

4. Sprendimo priėmimos taisyklė. Tarkime, reikšmingumo lygmuo yra \alpha . Hipotezė H_0 atmetama (taigi \sigma^2 statistiškai reikšmingai skiriasi nuo a ), jeigu T>\chi^2_{\alpha/2}(n) arba T<\chi^2_{1 - \alpha/2}(n) . Čia \chi^2_{\alpha/2}(n) ir \chi^2_{1 - \alpha/2}(n)  yra \chi^2 skirstinio su n laisvės laipsnių kritinės reikšmės. Hipotezė H_0 neatmetama, jeigu \chi^2_{1 - \alpha/2}(n) \le T \le \chi^2_{\alpha/2}(n) .

Pavyzdys. Prieš pradėdamas eksperimentą, psichologas nori sudaryti grupes iš populiacijos, kurios vidutinis testo rezultatas būtų 85 balai, o standartinis nuokrypis – 10 balų. Vienos iš sudarytų grupių testo rezultatai yra: 85, 92, 93, 90, 81, 78, 76, 78, 77, 80, 89, 92, 94 (vidurkis – 85 balai). Ar galima manyti, kad ši grupė sudaryta iš populiacijos, kurios \sigma^2 = 10 , atstovų?

Sprendimas

Statistinė hipotezė:

H_0 : \sigma^2 = 10 ,
H_1 : \sigma^2 \ne 10 .

Randame

T = \frac{1}{10}((85 - 85)^2 + (92 - 85)^2 + . . . ) = 568/100 = 5,68

Kadangi \chi^2_{0,975}(13) = 5,00 < 5,68 < 24,736 = \chi^2_{0,025}(13) , tai H_0 neatmetama. Taigi galime manyti, kad grupė sudaryta iš populiacijos su norimomis savybėmis atstovų.

Hipotezė apie vidurkio lygybę skaičiui, kai dispersija nežinoma

lapkričio 26, 2009

Tarkime, kad:

  • žinome, kiek vidutiniškai santuokoje išgyvena Zanzibaro gyventojai, ir norime atsakyti į klausimą, ar lietuviai šiuo aspektu skiriasi nuo zanzibaričių;
  • reklama teigia, kad laikantis naujos dietos vidutiniškai per mėnesį numetama be mažiau 3 kg svorio, o konkurencijos tarnyba nori patikrinti, ar reklama nemeluoja;
  • prieš penkerius metus daryti išsamūs tyrimai parodė, kad vidutinis pradinukų matematikos žinių testo įvertinimas yra 70,15 balo (pagal 100 balų skalę), o norime žinoti, ar dabartinių pradinukų žinių įvertinimas pakito.

Visais minėtais atvejais reikia atsakyti į klausimą, ar nežinomas populiacijos vidurkis skiriasi nuo tam tikro skaičiaus. Populiacijos dispersija \sigma^2 nežinoma. Statistiniams tyrimams tokia situacija ypač dažna. Nežinoma populiacijos dispersija keičiama jos įverčiu S^2 . Tačiau tada reikia atsižvelgti į atsitiktinę imties prigimtį ir galimą dispersijos įverčio skirtumą nuo tikrosios populiacijos dispersijos.

Tarkime, stebime normalųjį atsitiktinį dydį X \sim N(\mu,\sigma^2) . Populiacijos dispersijos \sigma^2) ir vidurkis \mu nežinomi. Norime patikrinti hipotezę H_0 : \mu = a , čia a fiksuotas skaičius. Kritinė sritis sudaroma remiantis tuo, kad

\tau = \frac{\overline{X} - a}{\sqrt{{S^2}/n}}

turi Stjudento skirstinį su (n-1) laisvės laipsnių, kai \mu = a . Stjudento skirstinys simetriškas nulio atžvilgiu, todėl esant dvipusei alternatyvai H_1 : \mu \ne a kritinė sritis yra aibė W=(-\infty,-t_{\alpha/2}(n - 1)) \cup (t_{\alpha/2}(n - 1), \infty) , čia t_{\alpha/2}(n - 1) yra Stjudento skirstinio su (n - 1) laisvės laipsnių \alpha/2 lygmens kritinė reikšmė.

Analogiškai sudaromos kritinė sritys vienpusių alternatyvų atveju. Nagrinėjamojo uždavinio sprendimo etapai tokie:

  1. Duomenys. Intervalinių duomenų imtis x_1, x_2, ... , x_n gauta matuojant normalųjį atsitiktinį dydį X \sim N(\mu,\sigma^2) . Vidurkis \mu ir dispersija \sigma^2 nežinomi.
  2. Statistinė hipotezė:
    H_0 : \mu = a ,
    H_1 : \mu \ne a .
  3. Kriterijaus statistika. Apskaičiuojame

t = \frac{\overline{x} - a}{\sqrt{{s^2}/n}} .

4. Sprendimo priėmimos taisyklė. Tarkime, reikšmingumo lygmuo yra \alpha . Hipotezė H_0 atmetama (taigi \mu statistiškai reikšmingai skiriasi nuo a ), jeigu |t|>t_{\alpha/2}(n - 1) . Čia t_{\alpha/2}(n - 1) yra Stjudento skirstinio su (n - 1) laisvės laipsnių \alpha/2 lygmens kritinė reikšmė. Hipotezė H_0 neatmetama, jeigu |t| \le t_{\alpha/2}(n - 1) .

Kritines reikšmes t_{\alpha/2}(n) galima rasti iš tam tikros lentelės.

Pavyzdys. Edukologas nori sužinoti, ar teisingi dėstytojų skundai, kad kasmet pirmakursiai vis negabesni. Prieš penkerius metus pirmakursių standartinio gabumų testo rezultatų vidurkis buvo 80 balų. Apklausus 25 šių metų pirmakursius, gauta \overline{x} = 82, s^2 = 26 . Tarkime, kad reikšmingumo lygmuo \alpha = 0,05 . Formuluojame statistinę hipotezę

H_0 : \mu = 80 ,
H_1 : \mu \ne 80 .

Apskaičiuojame

t = (82 - 80)/\sqrt{26/25} = 1,961 .

Kadangi |t| = 1,961 le 2,064 = t_{0,024}(24) , tai H_0 neatmetame. Taigi, nėra pagrindo teigti, kad šiuolaikiniai pirmakursiai gabumais statistiškai reikšmingai skiriasi nuo ankstesnių metų pirmakursių.

Hipotezė apie vidurkio lygybę skaičiui, kai dispersija žinoma

lapkričio 26, 2009

Tarkime, kad stebime normalųjį atsitiktinį dydį X \sim N(\mu,\sigma^2) . Populiacijos dispersija \sigma^2 žinoma, o vidurkis \mu nežinomas. Reikia patikrinti hipotezę H_0: \mu=a , čia a yra fiksuotas skaičius. Norėdami priimti sprendimą, turime fiksuotam reikšmingumo lygmeniui \alpha parinkti tinkamą statistiką ir sukonstruoti kritinę sritį. Pats paprasčiausias nežinomo vidurkio \mu įvertis yra statistika \overline{X} . Jeigu imties vidurkio realizacijos \overline{x} mažai skiriasi nuo a (atitinkama statistikos reikšmė nepakliūna į kritinę sritį), tai hipotezę H_0 priimame, priešingu atveju hipotezės priimti negalime. Kritinė sritis sudaroma remiantis tuo, kad

Z=\frac{\overline{X}-a}{\sigma/\sqrt{n}}\sim N(0,1), kai \mu=a

Tarkime, alternatyva H_1:\mu \neq a . Tuomet kritinę sritį sudaro aibė W=(-\infty,-z_{\alpha/2}) \cup (z_{\alpha/2}, \infty) , čia z_{\alpha/2} yra \alpha/2 lygmens standartinio normaliojo atsitiktinio dydžio kritinė reikšmė. Iš tikrųjų pagal kritinės reikšmės apibrėžimą:

P (atmesti H_0 , kai H_0 teisinga) = P (Z \in W , kai \mu = a)  = P(Z<-z_{\alpha/2} , kai \mu = a) = \alpha/2 + \alpha/2 = \alpha

Analogiškai sudaromos kritinės sritys vienpusių alternatyvų atveju. Apibendrindami šiuos pastebėjimus, suformuluosime nagrinėjamo uždavinio sprendimo etapus:

  1. Duomenys. Intervalinių duomenų imtis x_1, x_2, ... , x_n gauta matuojant normalųjį atsitiktinį dydį X \sim N(\mu,\sigma^2) . Vidurkis \mu – nežinomas, dispersija \sigma^2 žinoma.
  2. Statistinė hipotezė:
    H_0 : \mu = a ,
    H_1 : \mu \ne a .
  3. Kriterijaus statistika. Apskaičiuojame

Z = \frac{\overline{X} - a}{\sigma/\sqrt{n}} .

4. Sprendimo priėmimos taisyklė. Tarkime, reikšmingumo lygmuo yra \alpha . Hipotezė H_0 atmetama (taigi \mu statistiškai reikšmingai skiriasi nuo a ), jeigu |Z|>z_{\alpha/2} . Čia z_{\alpha/2} yra standartinio normaliojo skirstinio \alpha/2 lygmens kritinė reikšmė. Hipotezė H_0 neatmetama, jeigu |Z| \le z_{\alpha/2} .

Pateikiame keletą suapvalintų z_{\alpha/2} reikšmių:

z_{0,025} = 1,96 ; z_{0,05} = 1,64 ; z_{0,01} = 2,326 ; z_{0,1} = 1,281 ; z_{0,005} = 2,575 .

Pavyzdys. Sociologas nori nustatyti, ar požiūris į seksualines mažumas pasikeitė per praėjusius 3o metų. Vidutinis 1970 metų nepakantumo testo rezultatas buvo 150 balų, s = 15 . Kuo didesnė naudojamo testo reikšmė, tuo didesnis nepakantumas. Apklausus 1999 metais 49 atsitiktinai parinktus žmones, paaiškėjo, kad \overline {x} = 138 . Padaręs prielaidą, kad \sigma = 15 , ir pasirinkęs reikšmingumo lygmenį \alpha = 0,05 , sociologas suformulavo hipotezę:

H_0 : \mu = 150 ,
H_1 : \mu \ne 150 .

Apskaičiuojame Z = (138 - 150)/(15/\sqrt{49}) = -5,6 .

Kadangi |Z| = |-5,6| = 5,6 > 1,96 = z_{0,025} = z_{0,05/2} , tai H_0 atmetama. Taigi 1999 metais vidutinis žmonių požiūris į seksualines mažumas statistiškai skiriasi nuo 1970 metų požiūrio.

Čia reiktų atkreipti dėmesį, kad nesistengiama parodyti, kad 138 skiriasi nuo 150 (tai akivaizdu). Konstatuojama, kad skirtumas tarp šių skaičių toks didelis, kad mažai tikėtina, jog tai įvyko dėl imties atsitiktinumo. Taigi, su didele tikimybe galime teigti, kad šis skirtumas būdingas ne tik šiai konkrečiai imčiai, bet ir pačiai tirtai populiacijai.

Mano – Vitnio – Vilkoksono rangų sumų kriterijus nerpiklausomoms imtims (2)

lapkričio 10, 2009

Didelių imčių atvejis (n_1 > 20, n_2 > 20 )

  1. Duomenys. Dviejų tolydžiųjų nepriklausomų kintamųjų X ir Y stebėjimai yra x_1, x_2, ... , x_{n_1} ir y_1, y_2, ... , y_{n_2} . Duomenys gauti matavimams naudojant santykių, intervalų arba rangų matavimų skalę.
  2. Statistinė hipotezė:
    H_0: kintamųjų skirstiniai vienodi
    H_1: kintamųjų skirstiniai nėra vienodi
  3. Kriterijaus statistika.
  • Apskaičiuojame statistikas:

Z = \frac {U_1 - \mu}{\sigma} , čia

\mu = \frac {n_1n_2}{2} , \sigma = \sqrt {\frac {n_1n_2 (n_1 + n_2 +1)}{12}}

4. Sprendimo priėmimos taisyklė. Tarkime, reikšmingumo lygmuo yra \alpha . Jei |Z|>z_{\alpha/2} , tai hipotezę H_0 atmetame. Priešingu atveju – neatmetame.

Pavyzdys. Tikrinama, ar  rytinės grupės (24) ir vakarinės grupės (25) studentų vidurkiai priklauso nuo mokymosi laiko. (\alpha = 0,05 )

Sprendimas: Tarkime, X yra rytinės grupės vertinimai, Y   – vakarinės.

Formuluojame statistinę hipotezę:

H_0: X ir Y skirstiniai vienodi
H_1: X ir Y skirstiniai nėra vienodi

Iš pateiktų duomenų (nepateikiau, nes labai daug duomenų) sudarome variacinę eilutę, nariams priskiriame rangus ir apskaičiuojame:

R_1 = 572 U_1 = 231 , \mu = 275 , \sigma = 46,9 , tai Z = \frac {231-275}{46,9} = -0,94 . Kadangi |Z| = 0,94 < 1,96 = z_{0,025} , hipotezės atmesti nėra pagrindo. Tai paros laikas mokymuisi įtakos neturėjo.

Mano – Vitnio – Vilkoksono rangų sumų kriterijus nepriklausomoms imtims (1)

lapkričio 10, 2009

Dviem nepriklausomoms imtims galima taikyti Stjudento kriterijų (kai reikia išsiaiškinti: ar moterų ekonomisčių vidutinis atlyginimas yra toks pats kaip ir vyrų ekonomistų). Tačiau, norint taikyti šį kriterijų, kintamieji turi būti normalieji. Pavyzdžiui, turėtume patikrinti prielaidą, kad kintamojo – atlyginimo ekonomisčių ir ekonomistų populiacijose skirstinys yra normalusis. Normalumo sąlyga ne visada tenkinama, be to, jei imtys mažos, šios sąlygos patikrinti neįmanoma.

Man0 – Vitnio – Vilkoksono krietrijus yra Stjudento kriterijaus dviem nepriklausomoms imtims neparametrinis analogas. Šis kriterijus galingiausias, kai kintamųjų skirstiniai skiriasi tik postūmio parametru, t. y. X skirstinys sutampa su Y + a skirstiniu.Taigi, būtent tokiems duomenims jį rekomenduojama taikyti.

Pastaba. Tai, kad X turi tokį pat skirstinį kaip Y + a , nereiškia, kad X = Y + a . Kintamieji X ir Y nepriklausomi, taigi X gali įgyti įvairias reikšmes nepriklausomai nuo to, kokias įgyja Y . Tačiau tikimybė, kad X įgis reikšmę, mažesnę už t, yra lygi tikimybei, kad Y + a įgis reikšmę, mažesnę už t, t. y. X ir Y + a „valdo“ toks pats atsitiktinumas.

Mažų imčių atvejis (n_1\leq 20, n_2 \leq 20 )

  1. Duomenys. Dviejų tolydžiųjų nepriklausomų kintamųjų X ir Y stebėjimai yra x_1, x_2, ... , x_{n_1} ir y_1, y_2, ... , y_{n_2} . Duomenys gauti matavimams naudojant santykių, intervalų arba rangų matavimų skalę.
  2. Statistinė hipotezė:
    H_0: kintamųjų skirstiniai vienodi
    H_1: kintamųjų skirstiniai nėra vienodi
  3. Kriterijaus statistika.
  • Dvi imtis sujungiame į vieną išdėstytdami jų narius didėjimo tvarka.
  • Eilutės naraiams priskiriame rangus.
  • Apskaičiuojame statistikas:

U_1 = n_1n_2 + \frac {n_1(n_1 + 1)}{2} - R_1

U_2 = n_1n_2 + \frac {n_2 (n_2 + 1)}{2} - R_2 ,

čia R_1   ir R_2 – rangų, priskirtų atitinkamai pirmosios ir antrosios imčių nariams, suma.

(Statistika U_1 parodo, kiek pirmos imties narių yra kairiau už kiekvieną antros imties narį.)

4. Sprendimo priėmimos taisyklė. Tarkime, reikšmingumo lygmuo yra \alpha . Iš lentelių (kur surašyta Mano – Vitnio – Vilkoksono kriterijaus vienpusių ir dvipusių alternatyvų kritinės reikšmės [V. Čekanavičius ir G. Murauskas "Statistika ir jos taikymai" II 262 - 263 psl.]) randame n_1 ir n_2 atitinkančias dvipusio kriterijaus kritines reikšmes. Jeigu U_1 ne mažesnis už didesniąją reikšmę arba U_1 ne didesnis už mažesniąją reikšmę, tai nulinė hipotezė H_0 atmetama. Priešingu atveju – neatmetama.

Pavyzdys. Tikrinama, ar  dviejų traukinių maršrutų vėluoja vienodai. Surinkti duomenys – pavėluotos minutės:

„I maršrutas“: 37, 1, 26, 23, 41, 8, 39

„II maršrutas“: 46, 42, 53, 44, 30

(Reikšmingumo lygmuo \alpha = 0,05 )

Sprendimas: Tarkime, X yra pirmojo maršruto traukinių vėlavimo laikas, Y   – antrojo.

Formuluojame statistinę hipotezę:

H_0: X ir Y skirstiniai vienodi
H_1: X ir Y skirstiniai nėra vienodi

Sudarome variacinę eilutę, nariams priskiriame rangus ir apskaičiuojame statistikas:

U_1 = 32 U_2 = 3

Lyginame U_1 su lentelės kritinėmis reikšmėmis (5,30) . Kadangi 32 > 30 , nulinę hipotezę atmetame. Taigi, traukiniai vėluoja nevienodai.


Follow

Get every new post delivered to your Inbox.