Тестът на Pearson за съответствие накратко. Тест за съответствие на Пиърсън. Прилагане на теста Хи-квадрат за тестване на сложни хипотези

При тестване на статистически хипотези за съответствието на отделните параметри със закона за разпределение на случайните променливи се приемаше, че законите за разпределение на тези променливи са известни. Въпреки това, когато се решават практически проблеми (особено икономически), моделът на закона за разпределение обикновено не е известен предварително, така че става необходимо да се избере модел на закона за разпределение, който е в съответствие с резултатите от извадковите наблюдения.

Позволявам x 1 , x 2 ,...,x nе извадка от наблюдения на случайна променлива хс неизвестна непрекъсната функция на разпределение F(x). Тества се хипотеза H 0, като твърди, че хразпределени по закон с разпределителна функция F(x), равно на функцията F 0 (x), т.е. нулевата хипотеза се тества.

Наричат ​​се критериите, по които се проверява нулевата хипотеза за неизвестно разпределение критерии за съгласие. Помислете за теста за съответствие на Pearson.

Схема за проверка на нулева хипотеза :

1. По мостра x 1 , x 2 ,..., x nизграждане на вариационна серия; може да бъде дискретно или интервално. Разгледайте, за определеност, дискретните вариационни серии

x i х 1 x2 ... x k-1 x k
m i m 1 м2 ... m k-1 m k

2. Според предишни изследвания или според предварителни данни те правят предположение (приемат хипотеза) за модела на закона за разпределение на случайна променлива х.

3. По извадкови данни се оценяват параметрите на избрания модел на закона за разпределение. Да приемем, че законът за разпределение има rпараметри (например биномният закон има един параметър стр; нормално - два параметъра ( a 0 , σ x) и т.н.).

4. Замествайки примерни оценки на стойностите на параметрите на разпределението, намерете теоретичните стойности на вероятностите

, i=1,2,...,k.

5. Изчислете теоретичните честоти , където .

6. Изчислете стойността на теста за съответствие на Pearson

.

Тази величина при клони към разпределение със степени на свобода. Следователно за изчисления се използват таблици за разпределение.

7. Като се има предвид нивото на значимост α, намерете критичната област (тя винаги е дясна); стойността се определя от съотношението . Ако числовата стойност попада в интервала , тогава хипотезата се отхвърля и се приема алтернативна хипотеза, че избраният модел на закона за разпределение не се потвърждава от извадковите данни, докато се допуска грешка, чиято вероятност е равна на α.

Задача 6.Изпитният билет по математика съдържа 10 задачи. Позволявам хпроизволна стойностброя на задачите, решени от кандидатите на приемния изпит. Резултатите от изпита по математика за 300 кандидати са следните:



аз
x i
m i

х.

Решение.Да се ​​направи хипотеза за модела на закона за разпределение на случайна величина хНека направим следните предположения:

вероятността за решаване на проблем не зависи от резултата от решаването на други проблеми;

Вероятността за решаване на даден проблем е еднаква и равна на стр, а вероятността да не се реши задачата е равна на q=1-p.

С тези предположения може да се приеме, че хсе подчинява на закона за биномно разпределение (нулева хипотеза), т.е. вероятността ученикът да реши хзадачи, може да се изчисли по формулата

Нека намерим оценката на параметъра стрвключени в модела (1).

Тук стре вероятността ученикът да реши проблема. Оценка на вероятността стре относителната честота п*, която се изчислява по формулата

,

къде е средният брой решени задачи от един кандидат;

v- броят на задачите, решени от всеки кандидат.

Тогава оценката за стрвлизаме във формата

Заменете стойностите р*=0,6И q*=1-0.6=0.4в израз (1) и за различни x iполучаваме теоретични вероятности и честоти (Таблица 1).

маса 1

Номер на групата аз x i
0,0001 0,03
0,0016 0,48
0,0106 3,18
0,0425 12,75
0,1115 33,45
0,2007 60,21
0,2508 75,24
0,2150 64,50
0,1209 36,27
0,0403 12,09
0,0060 1,80

Таблицата показва, че за групи 1, 2, 3 и 11 теоретичната честота е . Такива групи обикновено се обединяват със съседни. Стойностите за групи 1, 2 и 3 могат да се комбинират с . Това изглежда естествено, тъй като при 0, 1, 2 и 3 решени задачи на изпита обикновено се поставя оценка незадоволителна. Също така комбинираме група 11 с група 10 и правим таблица. 2.



таблица 2

Номер на групата аз
x i 0-3 9-10
m i

Според табл. 2 изчисляване на стойността на критерия за споразумение:

Нека зададем нивото на значимост α=0,05, след това за степените на свобода .

Стойност следователно нулевата хипотеза трябва да бъде отхвърлена.

Задача 7.Резултатите от претеглянето на 50 произволно избрани опаковки чай са дадени по-долу (в грамове):

150, 147, 152, 148, 149, 153,. 151, 150,149, 147, 153, 151, 152, 151, 149, 152, 150, 148, 152, 150, 152, 151, 148, 151, 152, 150, 151, 149, 148, 149, 150, 150, 151, 149, 151, 150, 151, 150, 149, 148, 147, 153, 147, 152, 150, 151, 149, 150, 151, 153.

Оценете закона за разпределение на случайна променлива х– тегло на опаковка чай – за ниво на значимост α=0,05.

Решение.Масата на пакет чай е непрекъсната случайна величина, но поради факта, че претеглянето е извършено с дискретност от 1 g и диапазонът е 147÷153 g, непрекъснато количествоможе да се представи с дискретна вариационна серия:

Маса 1.

Като модел на закона за разпределение избираме нормалния закон, чийто брой параметри е r=2: а 0– математическо очакване, σ хе стандартното отклонение.

Въз основа на примерните данни получаваме оценки за параметрите на нормалния закон за разпределение:

;

, s=1,68.

За да изчислим теоретичните честоти, използваме табличните стойности на функцията на Лаплас Ф( z). Алгоритъмът за изчисление е както следва:

Намираме чрез нормализирани стойности на случайна променлива Зстойности Ф( z), и тогава F N(х):

, .

Например,

х 1=147; z1\u003d (147 - 150,14) / 1,68 \u003d -1,87; Ф(–1.87)= –0.46926; F N(147)=0,03074;

Намирам ;

Намираме , и ако някои , тогава съответните групи се комбинират.

Резултатите от изчисленията и са дадени в табл. 2.

Според таблицата намираме по схемата: за нивото на значимост и броя на степените на свобода. Оттук и критичният регион.

Стойността не е включена в критичната област, така че хипотезата, че случайната променлива х- масата на пакет чай - се подчинява на нормалния закон на разпределение, съобразен с пробните данни.

таблица 2

аз x i +x i +1 m i F( z i) F N(x i) F N(x i+1) =FN(x i+1)– –FN(x i)
–∞÷147 –0,50000 0,00000 0,03074 0,03074 1,537 -
147÷148 –0,46926 0,03074 0,10204 0,07130 3,563 0,237
148÷149 –0,39796 0,10204 0,24825 0,14621 7,31 0,730
149÷150 –0,25175 0,24825 0,46812 0,21987 10,99 0,813
150÷151 –0,03188 0,46812 0,69497 0,22685 11,34 0,010
151÷152 0,19497 0,69497 0,86650 0,17153 8,58 0,683
152÷153 0,36650 0,86650 0,95543 0,08893 4,45 2,794
153÷∞ 0,45543 0,95543 1,00000 0,04457 2,23 -
Σ=50 Σ=1,00000 Σ=5,267

Целта на уроците:Да възпитава у студентите умения за тестване на статистически хипотези. Обърнете специално внимание на усвояването на понятия, свързани с тестване на хипотези (статистически тест, грешки 1 И 2 вид и т.н.). След решаването на всеки проблем обсъдете други варианти за изводи с различни и различни нива на значимост.

За тази сесия трябва да подготвите отговори на следните въпроси:

1. Как се променят вероятностите за допускане на грешка от първи и втори вид с увеличаване на размера на извадката?

2. Зависят ли вероятностите за допускане на грешки от първи и втори вид от вида на алтернативната хипотеза, от използвания критерий?

3. Каква е едностранчивостта на тестовете за статистическа значимост?

4. Възможно ли е, използвайки тест за статистическа значимост, да се заключи: „Нулевата хипотеза, която се тества, е вярна“?

5. Каква е разликата между конструирането на двустранен критичен регион и конструирането на доверителен интервал за същия параметър?

Задача 1.са изследвани 200 готови части за отклонение на истинския размер от изчисления. Данните от групирани изследвания са показани в таблица 5.

Таблица 5

Изградете хистограма за тази статистическа серия. Чрез формата на хистограмата изложете хипотеза за формата на закона за разпределение (например предполагайте, че изследваната стойност има нормален закон за разпределение). Изберете параметрите на закона за разпределение (равни на техните оценки въз основа на експериментални данни). На същата графика изградете функция за плътност на вероятността, съответстваща на предложената хипотеза. С помощта на теста за съответствие проверете дали хипотезата е в съответствие с експерименталните данни. Вземете нивото на значимост, например равно на 0,05 .

Решение.За да добием представа за формата на закона за разпределение на изследваното количество, изграждаме хистограма. За да направите това, изграждаме правоъгълник над всеки интервал, чиято площ е числено равна на честотата на попадане в интервала


(фиг.8.)

По формата на хистограмата може да се направи предположение, че изследваната стойност има нормален закон на разпределение. Ние оценяваме параметрите на нормалния закон на разпределение (математическо очакване и дисперсия) на базата на експериментални данни, като разглеждаме средата му като представител на всеки интервал:

.

И така, излагаме хипотезата, че изследваната стойност има нормален закон на разпределение N(5;111.6), т.е. има функция за плътност на вероятността

.

По-удобно е да се изгради неговата графика с помощта на функционални таблици

.

Например максималната точка и точките на инфлексия имат съответно ординати

Нека изчислим мярката на несъответствие между изложената хипотеза и експерименталните данни, т.е. . За да направим това, първо изчисляваме вероятностите за всеки интервал в съответствие с хипотезата

по същия начин,

Удобно е да извършите изчислението, като напишете записа, както следва:

0,069 0,242 0,362 0,242 0,069 13,8 48,4 72,4 48,4 23,8 5,2 -6,4 -1,4 7,5 -1,8 -27,04 40,96 1,96 57,76 3,24 1,96 0,85 0,02 1,19 0,23

И така, стойността е изчислена. Нека изградим критичен регион за нивото на значимост. Броят на степените на свобода за е равен на 2 (броят на интервалите , и три връзки се наслагват върху: , и . В резултат на това ). За дадено ниво на значимост и броя на степените на свобода намираме от таблицата разпределението на такава стойност, че .

В нашия случай и интервалът [ 5,99; ¥). Стойността не е в критичната област. Заключение: хипотезата не противоречи на експерименталните данни (което разбира се не означава, че хипотезата е вярна).

Задача 2.Под формата на статистическа серия са показани групирани данни за времето на работа на 400 устройства:

Тези данни съответстват ли на предположението, че времето за работа на устройството има интегрална функция на разпределение ? Вземете нивото на значимост, например равно на 0,02 .

Решение.Нека изчислим вероятностите, които в съответствие с хипотезата попадат на интервалите:

p =P(0 ;

p =P(500

p =P(1000

p = P(1500

Изчислете c.

n i пи np i n i - np i (n i - np i) 2 (n i -np i) / np i
0,6324 0,2325 0,0852 0,0317 252,96 34,08 12,68 4,04 -15 14,92 3,32 16,32 222,6 11,02 0,06 2,42 6,53 0,87

Броят на степените на свобода е три, тъй като само едно ограничение е наложено на 4 стойности на n Sn = n (r =4 -1=3).За три степени на свобода и ниво на значимост b=0,02намираме от таблицата за разпределение c критичната стойност c =9,84. Стойността c =9,88 е включена в критичната област. Заключение: хипотезата противоречи на експерименталните данни. Отхвърляме хипотезата и вероятността да грешим е 0,02.

Задача 3. хвърлена монета 50 веднъж. 32 изпадна герб. С помощта на теста за добро съответствие “ хи-квадрат” проверете дали тези данни са в съответствие с предположението, че монетата е симетрична.

Решение.Ние предполагаме, че монетата е била симетрична, т.е. вероятността гербът да изпадне е 1/2 . Според нашия опит гербът изпадна 32 пъти и 18 след като падне цифра Изчислете стойността c V .

n i пи np i n i - np i (n i - np i) (n i - np i) / np i
1/2 1/2 1,96 1,96

Броят на степените на свобода за c е r = 2–1=1; тъй като има два термина и една връзка е наложена на n ν + v=50.

За броя на степените на свобода r=1и ниво на значимост, например равно на р=0,05намираме от таблицата за разпределение c, че P(° С 3,84)=0,05 , т.е. областта на критичните стойности c на нивото на значимост р=0,05ще има интервал [ 3.84; ). Изчислена стойност c =3,92 попада в критичната област, хипотезата се отхвърля. Вероятността да грешим е 0,05 .

Задача 4.Производителят твърди, че само в тази голяма партида продукти 10% пет продукта бяха избрани на случаен принцип и сред тях бяха три продукта с нисък клас. Използвайки лемата на Нейман-Пиърсън, изградете критерий и проверете хипотезата, че процентът на нискокачествените продукти наистина е равен на 10 (р=0,1)срещу алтернативата, че процентът на продуктите, които не са нискокачествени, е по-голям 10 (p=p>p).Вероятност за грешка тип I »0,01, т.е. включват толкова много точки в критичната област, че вероятността за отхвърляне на тестваната хипотеза, ако е вярна, е 0,01 . Тази вероятност е зададена приблизително, за да не се прибягва до рандомизация, за която учениците нямат представа. Ако р=0,6, тогава каква е вероятността за грешка тип II?

Решение.Според хипотезата p 0 \u003d 0,1с алтернативно значение p>p.Според лемата на Нойман-Пиърсън критичната област трябва да включва тези стойности к, за което

= >C,

Където СЪСе някаква константа

,

к+ (5-k) ,

.

Тъй като , изразът в скобите е неотрицателен. Ето защо

Това означава, че критичният регион трябва да включва тези на стойностите {0,2,1,3,4,5} , които са по-големи от някои , в зависимост от нивото на значимост (от вероятността за грешка от първи вид). За да определим при предположението, че хипотезата е вярна, ние изчисляваме вероятностите

Ако критичната област включва стойностите {3,4,5} , тогава вероятността за грешка от първи вид ще бъде равна на

В условията на проблема се оказа, че сред петте проверени три дефектни продукта. Стойността навлиза в критичната област. Ние отхвърляме хипотезата в полза на алтернатива и вероятността да го направим погрешно е по-малка 0,01 .

Вероятността за грешка от тип II е вероятността за приемане на хипотеза, когато тя не е вярна. Хипотезата ще бъде приета при. Ако вероятността за производство на дефектен продукт действително е равна на , тогава вероятността за приемане на невярна хипотеза е равна на

Задача 5.Известно е, че при старателно смесване на тестото стафидите се разпределят в него приблизително според закона на Поасон, т.е. вероятността да има стафиди в хлебче е приблизително , където е средният брой стафиди на хлебче. При печенето на кифлички със стафиди стандартът залага на 1000 кифлички 9000 стафиди. Има подозрение, че в тестото са добавени по-малко стафиди от изискваното по стандарт. За проверка се избира една кифличка и се броят стафидите в нея. Конструирайте критерий за проверка на хипотезата, която е срещу алтернативата. Вероятността за грешка от тип I се приема приблизително 0,02.

Решение.За да се тества хипотезата: срещу алтернативата от лемата на Нейман-Пиърсън, критичната област трябва да включва тези стойности, за които

където е някаква константа.

Тогава n 1 H 1, тъй като неговата валидност означава ефективността на прилагането на новата технология).

Действителната стойност на критериалната статистика

.

При конкурентната хипотеза H 1критичната стойност на статистиката се намира от условието , т.е. , където t cr \u003d t 0,95 \u003d 1,96.

Тъй като действителната наблюдавана стойност T=4,00 над критичната стойност t кр(за която и да е от взетите конкурентни хипотези), след това хипотезата H 0се отхвърля, т.е. при ниво на значимост от 5% може да се заключи, че новата технология позволява да се увеличи средната производителност на работниците.

Задача 2.Направени са две проби на реколтата от пшеница: при навременно прибиране и прибиране със закъснение. В първия случай, при наблюдение на 8 парцела, средният добив на пробата е 16,2 c/ha, а стандартното отклонение е 3,2 c/ha; във втория случай, при наблюдение на 9 парцела, същите характеристики са равни съответно на 13,9 c/ha и 2,1 c/ha. При ниво на значимост α=0,05 установете ефекта от навременното прибиране на реколтата върху средния добив.

Решение.Хипотеза за проверка, т.е. средните стойности на добива за навременно прибиране на реколтата и с известно забавяне са равни. Като алтернативна хипотеза приемаме хипотезата, приемането на която означава значително влияние върху добива на сроковете за прибиране на реколтата.

Действителната наблюдавана стойност на тестовата статистика

.

Критичната стойност на статистиката за едностранен регион се определя от броя на степените на свобода l=n 1 +n 2 -2=9+8-2= =15от условието θ( t,l)=1–2 0,05=0,9, откъдето според табл T-разпределения (Приложение 6), които намираме, t кр=1,75. защото , тогава хипотезата H 0приет. Това означава, че наличните данни за извадката при ниво на значимост от 5% не ни позволяват да приемем, че известно забавяне на времето за прибиране на реколтата оказва значително влияние върху добива. Още веднъж подчертаваме, че това не означава безусловната вярност на хипотезата H 0. Възможно е само малък размер на извадката да направи възможно приемането на тази хипотеза и с увеличаване на размера на извадката (броя на избраните сайтове), хипотезата H 0ще бъдат отхвърлени.

Задача 3.Налични са следните данни за добива на пшеница на 8 опитни площи с еднакъв размер (c/ha): 26,5; 26.2; 35,9; 30.1; 32,3; 29.3; 26.1; 25,0. Има основание да се смята, че стойността на производителността на третия парцел х *=35.9 регистрирани неправилно. Дали тази стойност е аномална (отклонение) при 5% ниво на значимост?

Решение.Като изключим стойността х *=35,9, намираме за останалите наблюдения и . Действителна наблюдавана стойност по-голяма от табличната, оттук и стойността х *=35,9 е аномално и трябва да се изхвърли.

Задача 4.Втулките се обработват на два струга. Взети са две проби: от втулки, изработени на първата машина n 1=15 броя, на втората машина - n 2=18 бр. Въз основа на тези проби бяха изчислени дисперсии на извадката (за първата машина) и (за втората машина). Ако приемем, че размерите на втулките се подчиняват на нормалния закон на разпределение, при ниво на значимост α=0,05, установете дали може да се счита, че машините имат различна точност.

Решение.Имаме нулева хипотеза, т.е. дисперсиите на размера на втулките, обработени на всяка машина, са еднакви. Вземете като конкурентна хипотеза (вариацията е по-голяма за първата машина).

.

Според таблицата П.

Решение.Хипотеза за проверка . Нека приемем хипотезата като алтернатива. Тъй като общата дисперсия σ 2 е неизвестна, използваме T-Критерий на ученика. Статистиката на теста е . Критичната стойност на статистиката t кр=1,83.

Тъй като | T|>t кр(2.25>1.83), тогава хипотезата H 0се отхвърля, т.е. при 5% ниво на значимост, направената прогноза трябва да бъде отхвърлена.

Задача 6.За емпиричното разпределение

В някои случаи изследователят не знае предварително по кой закон се разпределят наблюдаваните стойности на изследваната черта. Но той може да има достатъчно основателни причини да приеме, че разпределението се подчинява на един или друг закон, например нормално или равномерно. В този случай се излагат основните и алтернативни статистически хипотези със следната форма:

    з 0: разпределението на наблюдаваната характеристика се подчинява на закона за разпределение А,

    з 1: разпределението на наблюдаваната характеристика се различава от А;

където като Аможе да действа един или друг закон на разпределение: нормален, равномерен, експоненциален и др.

Тестването на хипотезата за предложения закон за разпределение се извършва с помощта на така наречените критерии за съответствие. Има няколко критерия за приемане. Най-универсалният от тях е критерият на Пиърсън, тъй като е приложим за всякакъв вид разпределение.

- Критерият на Пиърсън

Обикновено емпиричните и теоретичните честоти се различават. Несъответствието случайно ли е? Критерият на Пиърсън отговаря на този въпрос, но като всеки статистически критерий, той не доказва валидността на хипотезата в строго математически смисъл, а само установява нейното съгласие или несъгласие с данните от наблюденията на определено ниво на значимост.

Така че, нека статистическото разпределение на стойностите на характеристиките да бъде получено от обемната извадка, където са наблюдаваните стойности на характеристиките, са съответните честоти:

Същността на критерия на Pearson е да се изчисли критерият по следната формула:

където е броят на цифрите на наблюдаваните стойности и са теоретичните честоти на съответните стойности.

Ясно е, че колкото по-малка е разликата, толкова по-близо е емпиричното разпределение до емпиричното, следователно колкото по-малка е стойността на критерия, толкова по-надеждно може да се твърди, че емпиричното и теоретичното разпределение са подчинени на един и същ закон.

Алгоритъм на критерия на Пиърсън

Алгоритъмът на критерия на Pearson е прост и се състои от следните стъпки:

И така, единственото нетривиално действие в този алгоритъм е определянето на теоретичните честоти. Те, разбира се, зависят от закона за разпределение, следователно - за различните закони се определят по различен начин.

Предназначение на критерия χ 2 - Критерият на Пиърсън Критерият χ 2 се използва за две цели: 1) да се сравни емпиричното разпределение на признак с теоретичното - равномерно, нормално или друго; 2) за сравняване на две, три или повече емпирични разпределения на една и съща характеристика. Описание на критерия Критерият χ 2 отговаря на въпроса дали различни стойности на характеристика се срещат с еднаква честота в емпиричните и теоретичните разпределения или в две или повече емпирични разпределения. Предимството на метода е, че позволява сравняване на разпределенията на характеристиките, представени във всяка скала, като се започне от скалата на имената. В най-простия случай на алтернативното разпределение "да - не", "разрешен брак - не разрешен брак", "решил проблема - не решил проблем" и т.н., вече можем да приложим критерия χ 2 . Колкото по-голямо е несъответствието между две сравними разпределения, толкова по-голяма е емпиричната стойност на χ 2 . Автоматично изчисляване на χ 2 - критерия на Пиърсън За автоматично изчисляване на χ 2 - критерия на Пиърсън е необходимо да се извършат две стъпки: Етап 1. Посочете броя на емпиричните разпределения (от 1 до 10); Стъпка 2. Въведете емпиричните честоти в таблицата; Стъпка 3. Получете отговор.

Предимството на критерия на Пиърсън е неговата универсалност: той може да се използва за тестване на хипотези за различни закони на разпределение.

1. Проверка на хипотезата за нормално разпределение.

Нека се получи проба с достатъчно голям размер Пс много различни стойности на варианти. За удобство на обработката му разделяме интервала от най-малката до най-голямата от стойностите на варианта на сравни части и ще приемем, че стойностите на опциите, които попадат във всеки интервал, са приблизително равни на числото, което определя средата на интервала. След като преброим броя на опциите, попаднали във всеки интервал, ще направим така наречената групирана извадка:

настроики……….. х 1 х 2 … x s

честоти…………. П 1 П 2 … n s ,

Където x iса стойностите на средните точки на интервалите и n iе броят на опциите, включени в азти интервал (емпирични честоти).



Въз основа на получените данни е възможно да се изчисли средната стойност на извадката и стандартното отклонение на извадката σ Б. Нека проверим предположението, че генералната съвкупност е разпределена по нормалния закон с параметри М(х) = , д(х) = . След това можете да намерите броя на числата от обемната извадка П, които трябва да бъдат във всеки интервал при това предположение (т.е. теоретични честоти). За да направите това, използвайки таблицата със стойности на функцията на Лаплас, намираме вероятността за удряне аз-ти интервал:

,

Където a iИ b i- граници аз-ти интервал. Умножавайки получените вероятности по размера на извадката n, намираме теоретичните честоти: p i =n p i.Нашата цел е да сравним емпиричните и теоретичните честоти, които, разбира се, се различават една от друга, и да разберем дали тези разлики са незначителни, не опровергават хипотезата за нормалното разпределение на изследваната случайна променлива или са толкова големи, че противоречат на тази хипотеза. За целта се използва критерий под формата на случайна променлива

. (20.1)

Смисълът му е очевиден: сумират се частите, които са квадратите на отклоненията на емпиричните честоти от теоретичните от съответните теоретични честоти. Може да се докаже, че независимо от реалния закон за разпределение на генералната съвкупност, законът за разпределение на случайната променлива (20.1) при клони към закона за разпределение (виж лекция 12) с броя на степените на свобода k = s - 1 – r, Където rе броят на параметрите на оцененото разпределение, оценено от извадковите данни. Нормалното разпределение се характеризира с два параметъра, т.н k = s - 3. За избрания критерий се построява дясна критична област, определена от условието

(20.2)

Където α - ниво на значимост. Следователно критичната област е дадена от неравенството и областта на приемане на хипотезата е.

И така, за да тестваме нулевата хипотеза з 0: популацията е нормално разпределена - трябва да изчислите наблюдаваната стойност на критерия от извадката:

, (20.1`)

и според таблицата на критичните точки на разпределението χ 2 намерете критичната точка, като използвате известните стойности на α и k = s - 3. Ако - нулевата хипотеза се приема, ако се отхвърля.

2. Проверка на хипотезата за равномерно разпределение.

Когато използвате теста на Pearson за тестване на хипотезата за равномерно разпределение на генералната съвкупност с предполагаема плътност на вероятността

необходимо е, като се изчисли стойността от наличната извадка, да се оценят параметрите АИ bпо формулите:

Където А*И б*- оценки АИ b. Всъщност за равномерно разпределение М(х) = , , откъдето можете да получите система за определяне А*И b*: , чието решение е израз (20.3).

Тогава, ако приемем, че , можете да намерите теоретичните честоти, като използвате формулите

Тук се броят на интервалите, на които е разделена пробата.

Наблюдаваната стойност на критерия на Pearson се изчислява по формулата (20.1`), а критичната стойност се изчислява от таблицата, като се вземе предвид фактът, че броят на степените на свобода k = s - 3. След това се определят границите на критичната област по същия начин, както при проверка на хипотезата за нормално разпределение.

3. Проверка на хипотезата за експоненциалното разпределение.

В този случай, разделяйки съществуващата извадка на интервали с еднаква дължина, ние разглеждаме последователност от опции, еднакво отдалечени една от друга (ние приемаме, че всички опции, които попадат в аз-ти интервал, вземете стойност, съвпадаща със средата му), и съответните им честоти n i(брой примерни опции, включени в аз– ти интервал). Ние изчисляваме от тези данни и приемаме като оценка на параметъра λ стойност . След това теоретичните честоти се изчисляват по формулата

След това се сравняват наблюдаваните и критичните стойности на критерия на Пиърсън, като се има предвид, че броят на степените на свобода k = s - 2.

Критерий на Пиърсън за проверка на хипотезата за формата на закона за разпределение на случайна величина. Проверка на хипотези за нормално, експоненциално и равномерно разпределение по критерия на Пиърсън. Критерий на Колмогоров. Приблизителен метод за проверка на нормалността на разпределението, свързан с оценки на коефициентите на изкривяване и ексцес.

В предишната лекция бяха разгледани хипотези, при които законът за разпределение на генералната съвкупност се приема за известен. Сега нека проверим хипотезите за предложения закон за неизвестното разпределение, тоест ще проверим нулевата хипотеза, че населението е разпределено според някакъв известен закон. Обикновено статистическите тестове за тестване на такива хипотези се наричат ​​тестове за съответствие.

Предимството на критерия на Пиърсън е неговата универсалност: той може да се използва за тестване на хипотези за различни закони на разпределение.

1. Проверка на хипотезата за нормално разпределение.

Нека се получи проба с достатъчно голям размер Пс опция за много различни значения. За удобство на обработката му разделяме интервала от най-малката до най-голямата от стойностите на варианта на сравни части и ще приемем, че стойностите на vari

мравките, попадащи във всеки интервал, са приблизително равни на броя, който определя средата на интервала. След като преброим броя на опциите, попаднали във всеки интервал, ще направим така наречената групирана извадка:

настроики х 1 х 2 x s

честоти П 1 П 2 n s ,

Където x iса стойностите на средните точки на интервалите и n i- броя на опциите, включени в азти интервал (емпирични честоти).

Въз основа на получените данни е възможно да се изчисли средната стойност на извадката и стандартното отклонение на извадката σ Б. Нека проверим предположението, че генералната съвкупност е разпределена по нормалния закон с параметри М(х) = , д(х) = . След това можете да намерите броя на числата от обемната извадка П, които трябва да бъдат във всеки интервал при това предположение (т.е. теоретични честоти). За да направите това, използвайки таблицата със стойности на функцията на Лаплас, намираме вероятността за удряне аз-ти интервал:

Където a iИ b i- граници аз-ти интервал. Умножавайки получените вероятности по размера на извадката n, намираме теоретичните честоти: p i \u003d n? p i. Нашата цел е да сравним емпиричните и теоретичните честоти, които, разбира се, се различават една от друга, и да разберем дали тези разлики са незначителни, не опровергават хипотезата за нормалното разпределение на изследваната случайна променлива или са толкова големи, че противоречат на тази хипотеза. За целта се използва критерий под формата на случайна променлива

Смисълът му е очевиден: сумират се частите, които са квадратите на отклоненията на емпиричните честоти от теоретичните от съответните теоретични честоти. Може да се докаже, че независимо от реалния закон за разпределение на генералната съвкупност, законът за разпределение на случайната променлива (20.1) при клони към закона за разпределение (виж лекция 12) с броя на степените на свобода k = s- 1 - r, Където r- броя на параметрите на оцененото разпределение, оценени от извадковите данни. Нормалното разпределение се характеризира с два параметъра, т.н k = s- 3. За избрания критерий се построява дясна критична област, определена от условието


Където α - ниво на значимост. Следователно критичната област е дадена от неравенството, а областта на приемане на хипотезата е .

И така, за да тестваме нулевата хипотеза з 0: популацията е нормално разпределена - трябва да изчислите наблюдаваната стойност на критерия от извадката:

и според таблицата на критичните точки на разпределението χ 2 намерете критичната точка, като използвате известните стойности на α и k = s- 3. Ако - нулевата хипотеза се приема, ако се отхвърля.

2. Проверка на хипотезата за равномерно разпределение.

При използване на критерия на Пиърсън за тестване на хипотезата за равномерно разпределение на генералната съвкупност с очакваната плътност на вероятността

необходимо е, като се изчисли стойността от наличната извадка, да се оценят параметрите АИ bпо формулите:

Където А*И б*- оценки АИ b. Всъщност за равномерно разпределение М(х) = , , от което може да се получи система за определяне А*И b*: , чието решение е израз (20.3).

След това, приемайки, че , можем да намерим теоретичните честоти, като използваме формулите

Тук се броят на интервалите, на които е разделена пробата.

Наблюдаваната стойност на критерия на Pearson се изчислява по формулата (20.1`), а критичната стойност се изчислява от таблицата, като се вземе предвид фактът, че броят на степените на свобода k = s- 3. След това се определят границите на критичната област по същия начин, както при проверка на хипотезата за нормално разпределение.

3. Проверка на хипотезата за експоненциалното разпределение.

В този случай, разделяйки съществуващата извадка на интервали с еднаква дължина, ние разглеждаме последователност от опции, еднакво отдалечени една от друга (ние приемаме, че всички опции, които попадат в аз-ти интервал, вземете стойност, съвпадаща със средата му), и съответните им честоти n i(брой примерни опции, включени в аз-ти интервал). Ние изчисляваме от тези данни и приемаме като оценка на параметъра λ стойност . След това теоретичните честоти се изчисляват по формулата

След това се сравняват наблюдаваните и критичните стойности на критерия на Пиърсън, като се има предвид, че броят на степените на свобода k = s- 2.

Тестът \(\chi^2\) ("хи-квадрат", също "тест за съответствие на Пиърсън") има изключително широко приложение в статистиката. Най-общо можем да кажем, че се използва за тестване на нулевата хипотеза за подчинението на наблюдавана случайна променлива на определен теоретичен закон за разпределение (за повече подробности вижте например). Конкретната формулировка на тестваната хипотеза ще варира в зависимост от случая.

В тази публикация ще опиша как работи тестът \(\chi^2\), използвайки (хипотетичен) пример от имунологията. Представете си, че сме извършили експеримент, за да определим ефективността на потискане на развитието на микробно заболяване, когато съответните антитела бъдат въведени в тялото. Общо 111 мишки бяха включени в експеримента, които разделихме на две групи, включващи съответно 57 и 54 животни. Първата група мишки беше инжектирана с патогенни бактерии, последвано от въвеждане на кръвен серум, съдържащ антитела срещу тези бактерии. Животните от втората група послужиха за контрола - те получиха само бактериални инжекции. След известно време на инкубация се оказа, че 38 мишки са умрели, а 73 са оцелели. От загиналите 13 са от първата група, а 25 са от втората (контролната). Нулевата хипотеза, тествана в този експеримент, може да бъде формулирана по следния начин: прилагането на серум с антитела няма ефект върху оцеляването на мишките. С други думи, ние твърдим, че наблюдаваните разлики в преживяемостта на мишки (77,2% в първата група срещу 53,7% във втората група) са напълно случайни и не са свързани с действието на антителата.

Получените в експеримента данни могат да бъдат представени под формата на таблица:

Обща сума

Бактерии + серум

Само бактерии

Обща сума

Таблици като тази се наричат ​​таблици за непредвидени случаи. В този пример таблицата е с размери 2x2: има два класа обекти („Бактерии + серум“ и „Само бактерии“), които се изследват според два критерия („Мъртви“ и „Оцелели“). Това е най-простият случай на таблица за непредвидени обстоятелства: разбира се, както броят на изучаваните класове, така и броят на функциите може да бъде по-голям.

За да тестваме формулираната по-горе нулева хипотеза, трябва да знаем каква би била ситуацията, ако антителата наистина нямаха никакъв ефект върху оцеляването на мишките. С други думи, трябва да изчислите очаквани честотиза съответните клетки от таблицата за непредвидени обстоятелства. Как да го направим? В експеримента са загинали общо 38 мишки, което е 34,2% от общия брой на участващите животни. Ако въвеждането на антитела не повлияе на преживяемостта на мишките, трябва да се наблюдава еднакъв процент на смъртност и в двете експериментални групи, а именно 34,2%. Изчислявайки колко е 34,2% от 57 и 54, получаваме 19,5 и 18,5. Това са очакваните нива на смъртност в нашите експериментални групи. Очакваните нива на оцеляване се изчисляват по подобен начин: тъй като са оцелели общо 73 мишки или 65,8% от общия им брой, очакваните нива на оцеляване са 37,5 и 35,5. Нека направим нова таблица за непредвидени обстоятелства, сега с очакваните честоти:

мъртъв

Оцелели

Обща сума

Бактерии + серум

Само бактерии

Обща сума

Както можете да видите, очакваните честоти са доста различни от наблюдаваните, т.е. прилагането на антитела изглежда има ефект върху оцеляването на мишки, заразени с патогена. Можем да определим количествено това впечатление с помощта на теста за съответствие на Pearson \(\chi^2\):

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


където \(f_o\) и \(f_e\) са съответно наблюдаваните и очакваните честоти. Сумирането се извършва по всички клетки на таблицата. И така, за разглеждания пример имаме

\[\chi^2 = (13 – 19,5)^2/19,5 + (44 – 37,5)^2/37,5 + (25 – 18,5)^2/18,5 + (29 – 35,5)^2/35,5 = \]

\(\chi^2\) достатъчно голям ли е, за да отхвърли нулевата хипотеза? За да се отговори на този въпрос, е необходимо да се намери съответната критична стойност на критерия. Броят на степените на свобода за \(\chi^2\) се изчислява като \(df = (R - 1)(C - 1)\), където \(R\) и \(C\) са броят на редовете и колоните в таблицата за непредвидени обстоятелства. В нашия случай \(df = (2 -1)(2 - 1) = 1\). Като знаем броя на степените на свобода, сега можем лесно да намерим критичната стойност \(\chi^2\), като използваме стандартната R-функция qchisq() :


Така за една степен на свобода стойността на критерия \(\chi^2\) надвишава 3,841 само в 5% от случаите. Стойността, която получихме, 6,79, значително надвишава тази критична стойност, което ни дава право да отхвърлим нулевата хипотеза, че няма връзка между прилагането на антитела и оцеляването на заразените мишки. Отхвърляйки тази хипотеза, рискуваме да сгрешим с вероятност по-малка от 5%.

Трябва да се отбележи, че горната формула за критерия \(\chi^2\) дава донякъде надценени стойности при работа с таблици за непредвидени обстоятелства с размер 2x2. Причината е, че самото разпределение на \(\chi^2\) критерия е непрекъснато, докато честотите на двоичните характеристики ("умрял" / "оцелял") са дискретни по дефиниция. В тази връзка при изчисляване на критерия е прието да се въвежда т.нар. корекция на непрекъснатостта, или Поправката на Йейтс :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0,5)^2)(f_e).\]

Пиърсън "s Хи-квадрат тест с Йейтс"данни за корекция на непрекъснатостта: мишки X-квадрат = 5,7923, df = 1, p-стойност = 0,0161


Както можете да видите, R автоматично прилага корекцията на Йейтс за непрекъснатост ( Хи-квадрат тест на Пиърсън с корекция за непрекъснатост на Йейтс). Стойността \(\chi^2\), изчислена от програмата, беше 5,79213. Можем да отхвърлим нулевата хипотеза за липса на ефект на антитяло с риск да сгрешим с вероятност от малко над 1% (p-стойност = 0,0161).