Линейният модел ще изгради табличен анализ на дисперсията. Курсова работа: Дисперсионен анализ. Същността на корелацията

Човек може да разпознае способностите си само като се опита да ги приложи. (Сенека)

Дисперсионен анализ

Уводен преглед

В този раздел ще прегледаме основните методи, допускания и терминология на ANOVA.

Обърнете внимание, че в англоезичната литература дисперсионният анализ обикновено се нарича анализ на вариацията. Ето защо, за краткост, по-долу понякога ще използваме термина ANOVA (Ананализ о f варация) за конвенционална ANOVA и термина МАНОВАза многовариантен дисперсионен анализ. В този раздел ще разгледаме последователно основните идеи на дисперсионния анализ ( ANOVA), анализ на ковариацията ( АНКОВА), многовариантен дисперсионен анализ ( МАНОВА) и многовариантен ковариационен анализ ( МАНКОВА). След кратко обсъждане на достойнствата на контрастния анализ и post hoc тестовете, нека да разгледаме предположенията, на които се основават методите ANOVA. Към края на този раздел се обясняват предимствата на многовариантния подход за анализ на повтарящи се измервания пред традиционния едноизмерен подход.

Ключови идеи

Целта на дисперсионния анализ.Основната цел на дисперсионния анализ е да се изследва значимостта на разликата между средните. Глава (Глава 8) предоставя кратко въведение в тестването на статистическата значимост. Ако просто сравнявате средните стойности на две проби, анализът на дисперсията ще даде същия резултат като нормалния анализ. T- критерий за независими проби (ако се сравняват две независими групи от обекти или наблюдения), или T- критерий за зависими проби (ако две променливи се сравняват върху един и същи набор от обекти или наблюдения). Ако не сте запознати с тези критерии, препоръчваме ви да прегледате уводния преглед на главата (Глава 9).

Откъде идва името Дисперсионен анализ? Може да изглежда странно, че процедурата за сравняване на средните се нарича дисперсионен анализ. Всъщност това се дължи на факта, че когато изследваме статистическата значимост на разликата между средните стойности, ние всъщност анализираме дисперсиите.

Разделяне на сбора на квадрати

За размер на извадката от n дисперсията на извадката се изчислява като сумата от квадратите на отклоненията от средната стойност на извадката, разделена на n-1 (размер на извадката минус едно). По този начин, за фиксиран размер на извадката n, дисперсията е функция на сумата от квадрати (отклонения), означена, за краткост, СС(от английски Sum of Squares - Сума от квадрати). Анализът на дисперсията се основава на разделянето (или разделянето) на дисперсията на части. Разгледайте следния набор от данни:

Средните стойности на двете групи са значително различни (2 и 6, съответно). Сума на квадратите на отклоненията вътреот всяка група е 2. Събирайки ги заедно, получаваме 4. Ако сега повторим тези изчисления като изключимгрупово членство, т.е. ако изчислим ССвъз основа на комбинираната средна стойност от двете проби, получаваме 28. С други думи, дисперсията (сумата на квадратите) на базата на променливостта в рамките на групата води до много по-малки стойности, отколкото когато се изчислява на базата на общата променливост (спрямо общата означава). Причината за това очевидно е значителната разлика между средните и тази разлика между средните обяснява съществуващата разлика между сумите на квадратите. Наистина, ако използваме модула Дисперсионен анализще се получат следните резултати:

Както се вижда от таблицата, общата сума на квадратите СС=28 делено на сумата от дължимите квадрати вътрешногруповипроменливост ( 2+2=4 ; вижте втория ред на таблицата) и сумата на квадратите поради разликата в средните стойности. (28-(2+2)=24; вижте първия ред на таблицата).

СС грешки иСС ефект.Вътрешногрупова променливост ( СС) обикновено се нарича дисперсия грешки.Това означава, че обикновено не може да се предвиди или обясни, когато се провежда експеримент. От друга страна, СС ефект(или междугрупова променливост) може да се обясни с разликата между средните стойности в изследваните групи. С други думи, принадлежност към определена група обяснявамеждугрупова изменчивост, т.к знаем, че тези групи имат различни средства.

Проверка на значимостта.Основните идеи за тестване за статистическа значимост са обсъдени в главата Елементарни понятия на статистиката(Глава 8). Същата глава обяснява причините, поради които много тестове използват съотношението на обяснена и необяснима дисперсия. Пример за това използване е самият анализ на дисперсията. Тестването на значимостта в ANOVA се основава на сравняване на вариацията, дължаща се на вариация между групите (наречена среден квадратичен ефектили Г-ЦАЕфект) и дисперсия поради разпространение в рамките на групата (наречено средна квадратична грешкаили Г-ЦАгрешка). Ако нулевата хипотеза е вярна (равенство на средните стойности в двете популации), тогава можем да очакваме относително малка разлика в средните стойности на извадката поради случайна променливост. Следователно, при нулевата хипотеза, вътрешногруповата дисперсия практически ще съвпадне с общата дисперсия, изчислена без да се взема предвид членството в групата. Получените дисперсии в рамките на групата могат да бъдат сравнени с помощта на Е- тест, който проверява дали съотношението на дисперсии е значително по-голямо от 1. В горния пример, Е- Тестът показва, че разликата между средните е статистически значима.

Основна логика на ANOVA.Обобщавайки, можем да кажем, че целта на дисперсионния анализ е да се тества статистическата значимост на разликата между средните (за групи или променливи). Тази проверка се извършва с помощта на дисперсионен анализ, т.е. чрез разделяне на общата дисперсия (вариация) на части, едната от които се дължи на случайна грешка (т.е. вътрешногрупова променливост), а втората е свързана с разликата в средните стойности. След това последният компонент на дисперсията се използва за анализиране на статистическата значимост на разликата между средните стойности. Ако тази разлика е значителна, нулевата хипотеза се отхвърля и се приема алтернативната хипотеза, че има разлика между средните стойности.

Зависими и независими променливи.Променливите, чиито стойности се определят чрез измервания по време на експеримент (например резултат, отбелязан на тест), се наричат зависимпроменливи. Променливите, които могат да бъдат манипулирани в експеримент (например методи на обучение или други критерии, които ви позволяват да разделите наблюденията на групи), се наричат факториили независимапроменливи. Тези понятия са описани по-подробно в главата Елементарни понятия на статистиката(Глава 8).

Многовариантен дисперсионен анализ

В простия пример по-горе можете незабавно да изчислите t-теста за независима проба, като използвате подходящата опция на модула Основни статистики и таблици.Получените резултати, разбира се, съвпадат с резултатите от дисперсионния анализ. Анализът на дисперсията обаче съдържа гъвкави и мощни технически инструменти, които могат да се използват за много по-сложни изследвания.

Много фактори.Светът по своята същност е сложен и многоизмерен. Ситуациите, при които дадено явление е напълно описано от една променлива, са изключително редки. Например, ако се опитваме да научим как да отглеждаме големи домати, трябва да вземем предвид фактори, свързани с генетичната структура на растенията, типа на почвата, светлината, температурата и т.н. По този начин, когато провеждате типичен експеримент, трябва да се справите с голям брой фактори. Основната причина, поради която използването на ANOVA е за предпочитане пред повторното сравняване на две проби при различни нива на използване на фактори T- критерий е, че дисперсионният анализ е повече ефективени, за малки проби, по-информативен.

Управление на факторите.Да приемем, че в примера за анализ на две проби, обсъден по-горе, добавяме още един фактор, например Етаж- Пол. Нека всяка група се състои от 3 мъже и 3 жени. Дизайнът на този експеримент може да бъде представен под формата на таблица 2 на 2:

Експериментирайте. Група 1 Експериментирайте. Група 2
мъже2 6
3 7
1 5
Средно аритметично2 6
Жени4 8
5 9
3 7
Средно аритметично4 8

Преди да направите изчисленията, можете да видите, че в този пример общата дисперсия има поне три източника:

(1) случайна грешка (в рамките на груповата дисперсия),

(2) променливост, свързана с членството в експерименталната група, и

(3) променливост, дължаща се на пола на наблюдаваните обекти.

(Имайте предвид, че има друг възможен източник на променливост - взаимодействие на факторите, което ще обсъдим по-късно). Какво се случва, ако не включим етажполкато фактор в анализа и изчисляване на обичайното T- критерий? Ако изчислим суми на квадрати, игнорирайки етаж -пол(т.е. комбиниране на обекти от различен пол в една група при изчисляване на дисперсията в рамките на групата, като същевременно се получава сумата от квадрати за всяка група, равна на СС=10 и общата сума на квадратите СС= 10+10 = 20), тогава получаваме по-голяма стойност на вътрешногрупова дисперсия, отколкото с повече точен анализс допълнително разделение на подгрупи съгл полу- пол(в този случай вътрешногруповата средна стойност ще бъде равна на 2, а общата вътрешногрупова сума на квадратите ще бъде равна на СС = 2+2+2+2 = 8). Тази разлика се дължи на факта, че средната стойност за мъже - мъжепо-малко от средното за Жени -женски поли тази разлика в средните стойности увеличава общата променливост в рамките на групата, ако не се вземе предвид полът. Контролирането на дисперсията на грешката увеличава чувствителността (мощността) на теста.

Този пример показва друго предимство на дисперсионния анализ пред конвенционалния анализ. T-критерий за две проби. Анализът на дисперсията ви позволява да изучавате всеки фактор, като контролирате стойностите на други фактори. Това всъщност е основната причина за неговата по-голяма статистическа сила (необходими са по-малки размери на извадката, за да се получат значими резултати). Поради тази причина дисперсионният анализ, дори на малки извадки, дава статистически по-значими резултати от обикновения. T- критерий.

Ефекти на взаимодействие

Има още едно предимство на използването на ANOVA пред конвенционалния анализ. T- критерий: дисперсионният анализ ви позволява да откриете взаимодействиемежду факторите и следователно позволява да се изучават по-сложни модели. За да илюстрираме, разгледайте друг пример.

Основни ефекти, двойни (двуфакторни) взаимодействия.Да приемем, че има две групи ученици, като психологически учениците от първата група са настроени за изпълнение на поставените задачи и са по-целенасочени от учениците от втората група, която се състои от по-мързеливи ученици. Нека разделим произволно всяка група наполовина и предложим на едната половина от всяка група трудна задача, а на другата лесна. След това измерваме колко усърдно работят учениците върху тези задачи. Средните стойности за това (фиктивно) проучване са показани в таблицата:

Какво заключение може да се направи от тези резултати? Може ли да се заключи, че: (1) учениците работят по-усилено върху трудна задача; (2) мотивираните ученици работят ли повече от мързеливите? Нито едно от тези твърдения не отразява същността на систематичния характер на средните стойности, дадени в таблицата. Анализирайки резултатите, би било по-правилно да се каже, че само мотивираните ученици работят по-усилено върху сложни задачи, докато само мързеливите ученици работят по-усилено върху лесни задачи. С други думи, естеството на учениците и сложността на задачата взаимодействащивзаимно влияят на необходимото усилие. Това е пример взаимодействие по двойкимежду характера на учениците и сложността на задачата. Имайте предвид, че твърдения 1 и 2 описват основни ефекти.

Взаимодействия от по-висок порядък.Докато взаимодействията по двойки са относително лесни за обяснение, взаимодействията от по-висок ред са много по-трудни за обяснение. Нека си представим, че в примера, разгледан по-горе, е въведен още един фактор етаж -Поли получихме следната таблица със средни стойности:

Какви изводи могат да се направят сега от получените резултати? Средните графики улесняват тълкуването на сложни ефекти. Модулът за анализ на дисперсията ви позволява да изграждате тези графики с почти едно кликване.

Изображението в графиките по-долу представя изследваното тристранно взаимодействие.

Разглеждайки графиките, можем да кажем, че има взаимодействие между характера и трудността на теста за жените: мотивираните жени работят по-усилено върху трудна задача, отколкото върху лесна. При мъжете същото взаимодействие е обратно. Вижда се, че описанието на взаимодействието между факторите става по-объркващо.

Общ начин за описание на взаимодействията.В общия случай взаимодействието между факторите се описва като промяна на един ефект под въздействието на друг. В разгледания по-горе пример двуфакторното взаимодействие може да се опише като промяна в основния ефект на фактора, характеризиращ сложността на задачата, под влияние на фактора, описващ характера на ученика. За взаимодействието на трите фактора от предходния параграф можем да кажем, че взаимодействието на два фактора (сложността на задачата и характера на ученика) се променя под влияние на полПол. Ако се изследва взаимодействието на четири фактора, можем да кажем, че взаимодействието на три фактора се променя под влиянието на четвъртия фактор, т.е. има различни видове взаимодействия на различни нива на четвъртия фактор. Оказа се, че в много области взаимодействието на пет или дори повече фактора не е необичайно.

Комплексни планове

Междугрупови и вътрешногрупови планове (планове за повторно измерване)

Когато сравнявате две различни групи, обикновено се използва T- критерий за независими проби (от модул Основни статистики и таблици). Когато две променливи се сравняват върху един и същи набор от обекти (наблюдения), той се използва T-критерий за зависими проби. За анализа на дисперсията също е важно дали извадките са зависими или не. Ако има повтарящи се измервания на едни и същи променливи (при различни условияили по различно време) за същите обекти, тогава казват за присъствието фактор на многократни измервания(също наричан вътрешногрупов фактортъй като вътрегруповата сума от квадрати се изчислява, за да се оцени нейната значимост). Ако се сравняват различни групи обекти (например мъже и жени, три щама бактерии и т.н.), тогава се описва разликата между групите междугрупов фактор.Методите за изчисляване на критериите за значимост за двата описани типа фактори са различни, но общата им логика и интерпретация са еднакви.

Междугрупови и вътрешногрупови планове.В много случаи експериментът изисква включване както на фактор между групи, така и на фактор на повтарящи се измервания в дизайна. Например, измерват се математическите умения на учениците и учениците (където етаж -Пол-междугрупов фактор) в началото и в края на семестъра. Двете измерения на уменията на всеки ученик формират вътрешногруповия фактор (фактор на повтарящи се измервания). Тълкуването на основните ефекти и взаимодействия за фактори между групи и повторни измервания е същото и двата вида фактори очевидно могат да си взаимодействат помежду си (например жените придобиват умения по време на семестъра, а мъжете ги губят).

Непълни (вложени) планове

В много случаи ефектът на взаимодействие може да бъде пренебрегнат. Това се случва или когато е известно, че няма ефект на взаимодействие в популацията, или когато прилагането на пълното факториелпланът е невъзможен. Например, изследва се ефектът на четири горивни добавки върху разхода на гориво. Избрани са четири коли и четирима водачи. Пълна факториелекспериментът изисква всяка комбинация: добавка, шофьор, кола да се появи поне веднъж. Това изисква поне 4 x 4 x 4 = 64 тестови групи, което отнема твърде много време. Освен това почти няма взаимодействие между водача и добавката за гориво. Имайки това предвид, можете да използвате плана латински квадрати,който съдържа само 16 групи тестове (четири добавки са обозначени с буквите A, B, C и D):

Латинските квадрати са описани в повечето книги за експериментален дизайн (напр. Hays, 1988; Lindman, 1974; Milliken and Johnson, 1984; Winer, 1962) и няма да бъдат обсъждани подробно тук. Имайте предвид, че латинските квадрати са Ненпъленпланове, които не включват всички комбинации от факторни нива. Например водач 1 кара кола 1 само с добавка А, водач 3 кара кола 1 само с добавка С. Нива на факторите добавки ( A, B, C и D), вложени в клетки на таблица автомобиленх шофьор -като яйца в гнездо. Това мнемонично правило е полезно за разбиране на природата вложени или вложенипланове. Модул Дисперсионен анализосигурява прости начинианализ на планове от този тип.

Ковариационен анализ

основна идея

В глава Ключови идеинакратко обсъдиха идеята за контролиращи фактори и как включването на адитивни фактори може да намали сумата на квадратните грешки и да увеличи статистическата сила на дизайна. Всичко това може да се разшири до променливи с непрекъснат набор от стойности. Когато такива непрекъснати променливи са включени като фактори в дизайна, те се наричат ковариати.

Фиксирани ковариати

Да предположим, че сравняваме математическите умения на две групи ученици, които са били обучавани по два различни учебника. Нека приемем също, че имаме данни за коефициента на интелигентност (IQ) за всеки ученик. Можем да приемем, че IQ е свързано с математическите умения и да използваме тази информация. За всяка от двете групи ученици може да се изчисли коефициентът на корелация между IQ и математическите умения. Използвайки този коефициент на корелация, е възможно да се разграничи делът на дисперсията в групите, обяснен с влиянието на IQ, и необяснимият дял на дисперсията (вижте също Елементарни понятия на статистиката(глава 8) и Основни статистики и таблици(Глава 9)). Остатъкът от дисперсията се използва в анализа като дисперсия на грешката. Ако има връзка между коефициента на интелигентност и математическите умения, тогава разликите в грешките могат да бъдат значително намалени. СС/(н-1) .

Ефект на ковариатите върхуФ- критерий. Ф-критерият оценява статистическата значимост на разликата между средните стойности в групите, докато съотношението на междугруповата вариация се изчислява ( Г-ЦАефект) към дисперсията на грешката ( Г-ЦАгрешка) . Ако Г-ЦАгрешканамалява, например, когато се вземе предвид факторът IQ, стойността Есе увеличава.

Много ковариати.Разсъждението, използвано по-горе за една ковариата (IQ), лесно се разширява до множество ковариати. Например, в допълнение към коефициента на интелигентност, можете да включите измерване на мотивация, пространствено мислене и т.н. Вместо обичайния коефициент на корелация се използва коефициент на множествена корелация.

Когато стойносттаЕ -критериите намаляват.Понякога въвеждането на ковариати в дизайна на експеримента намалява стойността Е- критерии . Това обикновено показва, че ковариатите са свързани не само със зависимата променлива (като математически умения), но и с фактори (като различни учебници). Да приемем, че IQ се измерва в края на семестъра, след като две групи студенти са прекарали почти една година в изучаване на два различни учебника. Въпреки че учениците бяха разделени на групи на случаен принцип, може да се окаже, че разликата в учебниците е толкова голяма, че както IQ, така и математическите умения в различните групи ще варират значително. В този случай ковариатите не само намаляват дисперсията на грешката, но също и дисперсията между групите. С други думи, след контролиране на разликата в IQ между групите, разликата в математическите умения вече няма да бъде значителна. Иначе може да се каже. След „елиминиране“ на влиянието на коефициента на интелигентност, неволно се изключва влиянието на учебника върху развитието на математическите умения.

Коригирани средни стойности.Когато ковариата влияе на фактора между групите, трябва да се изчисли коригирани средни стойности, т.е. такива средни стойности, които се получават след премахване на всички оценки на ковариатите.

Взаимодействие между ковариати и фактори.Точно както се изследват взаимодействията между факторите, могат да се изследват взаимодействията между ковариатите и между групите фактори. Да предположим, че един от учебниците е особено подходящ за умни ученици. Вторият учебник е скучен за умните ученици, а същият учебник е труден за по-малко умните ученици. В резултат на това има положителна корелация между коефициента на интелигентност и резултатите от обучението в първата група (по-умни ученици, по-добри резултати) и нулева или малка отрицателна корелация във втората група (колкото по-умен е ученикът, толкова по-малка е вероятността да придобие математически умения от втори учебник). В някои изследвания тази ситуация се обсъжда като пример за нарушаване на допусканията на анализа на ковариацията. Въпреки това, тъй като модулът за анализ на дисперсията използва най-често срещаните методи за анализ на ковариацията, е възможно по-специално да се оцени статистическата значимост на взаимодействието между факторите и ковариатите.

Променливи ковариати

Докато фиксираните ковариати се обсъждат доста често в учебниците, променливите ковариати се споменават много по-рядко. Обикновено, когато провеждаме експерименти с повтарящи се измервания, ние се интересуваме от разликите в измерванията на едни и същи количества в различни моменти от време. А именно, ние се интересуваме от значението на тези различия. Ако измерването на ковариата се извършва едновременно с измерванията на зависимите променливи, може да се изчисли корелацията между ковариатите и зависимите променливи.

Например, можете да изучавате интерес към математиката и математически умения в началото и в края на семестъра. Би било интересно да се провери дали промените в интереса към математиката са свързани с промените в математическите умения.

Модул Дисперсионен анализ V СТАТИСТИКАавтоматично оценява статистическата значимост на промените в ковариатите в тези планове, където е възможно.

Многовариантни дизайни: Многовариантен ANOVA и ковариационен анализ

Междугрупови планове

Всички примери, разгледани по-рано, включват само една зависима променлива. Когато има няколко зависими променливи едновременно, само сложността на изчисленията се увеличава, а съдържанието и основните принципи не се променят.

Например, провежда се изследване по два различни учебника. Едновременно с това се изследва и успехът на учениците в изучаването на физика и математика. В този случай има две зависими променливи и трябва да разберете как два различни учебника им влияят едновременно. За да направите това, можете да използвате многовариантен дисперсионен анализ (MANOVA). Вместо едноизмерен Екритерий, многоизмерен Етест (Wilks l-тест), базиран на сравнение на ковариационната матрица на грешката и междугруповата ковариационна матрица.

Ако зависимите променливи са корелирани една с друга, тогава тази корелация трябва да се вземе предвид при изчисляване на теста за значимост. Очевидно, ако едно и също измерване се повтори два пъти, тогава нищо ново не може да се получи в този случай. Ако измерение, което е свързано с него, се добави към съществуващо измерение, тогава се получава някаква нова информация, но новата променлива съдържа излишна информация, която се отразява в ковариацията между променливите.

Тълкуване на резултатите.Ако цялостният многовариантен критерий е значим, можем да заключим, че съответният ефект (напр. вида на учебника) е значим. Възникват обаче следните въпроси. Видът на учебника влияе ли върху подобряването само на математическите умения, само на физическите умения или и на двете. Всъщност, след получаване на смислен многовариантен критерий, за единичен основен ефект или взаимодействие, едноизмерен Екритерий. С други думи, зависимите променливи, които допринасят за значимостта на многовариантния тест, се изследват отделно.

Планове с многократни измервания

Ако математическите и физически умения на студентите се измерват в началото и в края на семестъра, то това са повторни измервания. Изследването на критерия за значимост в такива планове е логично развитие на едномерния случай. Обърнете внимание, че многовариантните методи на ANOVA също често се използват за изследване на значимостта на едномерни многократни измервания, които имат повече от две нива. Съответните приложения ще бъдат обсъдени по-късно в тази част.

Сумиране на променливи стойности и многовариантен дисперсионен анализ

Дори опитни потребители на едномерна и многомерна ANOVA често се объркват, като получават различни резултати, когато прилагат многомерна ANOVA към, да речем, три променливи, и когато прилагат едномерна ANOVA към сумата от трите променливи като една променлива.

Идея сумиранепроменливи е, че всяка променлива съдържа някаква истинска променлива, която се изследва, както и случайна грешка при измерване. Следователно, когато се осредняват стойностите на променливите, грешката на измерване ще бъде по-близо до 0 за всички измервания и осреднените стойности ще бъдат по-надеждни. Всъщност в този случай прилагането на ANOVA към сумата от променливи е разумна и мощна техника. Въпреки това, ако зависимите променливи са многовариантни по природа, сумирането на стойностите на променливите е неподходящо.

Например, нека зависимите променливи се състоят от четири мерки успех в обществото. Всеки показател характеризира напълно независима страна на човешката дейност (например професионален успех, бизнес успех, семейно благополучие и др.). Добавянето на тези променливи заедно е като добавяне на ябълка и портокал. Сумата от тези променливи не би била подходяща едномерна мярка. Следователно такива данни трябва да се третират като многоизмерни индикатори многовариантен дисперсионен анализ.

Контрастен анализ и post hoc тестове

Защо се сравняват отделни набори от средства?

Обикновено хипотезите за експерименталните данни се формулират не просто по отношение на основните ефекти или взаимодействия. Пример е следната хипотеза: определен учебник подобрява математическите умения само при мъже, докато друг учебник е приблизително еднакво ефективен и за двата пола, но все още по-малко ефективен за мъжете. Може да се предвиди, че представянето на учебника взаимодейства с пола на ученика. Тази прогноза обаче също е в сила природавзаимодействия. Очаква се значителна разлика между половете за учениците в едната книга и практически независими от пола резултати за учениците в другата книга. Този тип хипотеза обикновено се изследва с помощта на контрастен анализ.

Анализ на контраста

Накратко, анализът на контраста ни позволява да оценим статистическата значимост на някои линейни комбинации от сложни ефекти. Анализ на контрастите основни и задължителен елементвсеки комплексен ANOVA план. Модул Дисперсионен анализима доста разнообразни възможности за анализ на контраста, които ви позволяват да изберете и анализирате всеки тип сравнение на средни стойности.

a posterioriсравнения

Понякога в резултат на обработка на експеримент се открива неочакван ефект. Въпреки че в повечето случаи един креативен изследовател ще може да обясни всеки резултат, това не предоставя възможности за допълнителен анализ и оценки за прогнозата. Този проблем е един от онези, за които post hoc критерии, тоест критерии, които не използват априорихипотези. За илюстрация разгледайте следния експеримент. Да предположим, че 100 карти съдържат числа от 1 до 10. След като пуснем всички тези карти в заглавката, избираме на случаен принцип 20 пъти по 5 карти и изчисляваме средната стойност за всяка проба (средната стойност на числата, написани на картите). Можем ли да очакваме, че има две проби, чиито средни стойности са значително различни? Това е много правдоподобно! Чрез избиране на две проби с максимална и минимална средна стойност, може да се получи разлика в средните стойности, която е много различна от разликата в средните стойности, например, на първите две проби. Тази разлика може да бъде изследвана, например, с помощта на контрастен анализ. Без да навлизаме в подробности, има няколко т.нар a posterioriкритерии, които се основават точно на първия сценарий (вземане на крайни средни стойности от 20 проби), т.е. тези критерии се основават на избора на най-различни средства за сравняване на всички средства в дизайна. Тези критерии се прилагат, за да не се получи чисто случайно изкуствен ефект, например да се намери съществена разлика между средните, когато няма такава. Модул Дисперсионен анализпредлага широк набор от такива критерии. Когато се появят неочаквани резултати в експеримент, включващ множество групи, a posterioriпроцедури за изследване на статистическата значимост на получените резултати.

Сбор от квадрати тип I, II, III и IV

Многовариантна регресия и дисперсионен анализ

Съществува тясна връзка между метода на многовариантната регресия и дисперсионния анализ (анализ на вариациите). И при двата метода се изучава линеен модел. Накратко, почти всички експериментални проекти могат да бъдат изследвани с помощта на многовариантна регресия. Помислете за следния прост план за кръстосани групи 2 x 2.

DV А б AxB
3 1 1 1
4 1 1 1
4 1 -1 -1
5 1 -1 -1
6 -1 1 -1
6 -1 1 -1
3 -1 -1 1
2 -1 -1 1

Колони A и B съдържат кодове, характеризиращи нивата на фактори A и B, колона AxB съдържа произведението на две колони A и B. Можем да анализираме тези данни с помощта на многовариантна регресия. Променлива DVдефинирана като зависима променлива, променливи от Апреди AxBкато независими променливи. Изследването на значимостта на регресионните коефициенти ще съвпадне с изчисленията при дисперсионния анализ на значимостта на основните ефекти на факторите АИ би ефект на взаимодействие AxB.

Небалансирани и балансирани планове

При изчисляване на корелационната матрица за всички променливи, например за данните, изобразени по-горе, може да се види, че основните ефекти на факторите АИ би ефект на взаимодействие AxBнекорелирани. Това свойство на ефектите се нарича още ортогоналност. Казват, че ефектите АИ б - ортогоналенили независимаедин от друг. Ако всички ефекти в плана са ортогонални един на друг, както в примера по-горе, тогава се казва, че планът е балансиран.

Балансираните планове имат „добро свойство“. Изчисленията при анализа на такива планове са много прости. Всички изчисления се свеждат до изчисляване на корелацията между ефектите и зависимите променливи. Тъй като ефектите са ортогонални, частичните корелации (както при пълните многоизмеренрегресии) не се изчисляват. Въпреки това, в Истински животплановете не винаги са балансирани.

Помислете за реални данни с неравен брой наблюдения в клетките.

Фактор А Фактор Б
B1 B2
A1 3 4, 5
A2 6, 6, 7 2

Ако кодираме тези данни, както по-горе, и изчислим корелационната матрица за всички променливи, тогава се оказва, че проектните фактори са корелирани един с друг. Факторите в плана вече не са ортогонални и такива планове се наричат неуравновесен.Обърнете внимание, че в този пример корелацията между факторите е изцяло свързана с разликата в честотите на 1 и -1 в колоните на матрицата с данни. С други думи, експерименталните дизайни с неравномерни обеми на клетките (по-точно, непропорционални обеми) ще бъдат небалансирани, което означава, че основните ефекти и взаимодействия ще се смесват. В този случай, за да изчислите статистическата значимост на ефектите, трябва да изчислите напълно многовариантната регресия. Тук има няколко стратегии.

Сбор от квадрати тип I, II, III и IV

Тип сума на квадратитеазИIII. За да се изследва значимостта на всеки фактор в многовариантен модел, може да се изчисли частичната корелация на всеки фактор, при условие че всички други фактори вече са взети предвид в модела. Можете също така да въвеждате фактори в модела стъпка по стъпка, като фиксирате всички фактори, които вече са въведени в модела, и игнорирате всички други фактори. В общи линии това е разликата между Тип IIIИ Типазсуми на квадрати (тази терминология е въведена в SAS, вижте например SAS, 1982; подробно обсъждане може да се намери и в Searle, 1987, p. 461; Woodward, Bonett и Brecht, 1990, p. 216; или Milliken и Джонсън, 1984 г., стр. 138).

Тип сума на квадратитеII.Следващата „междинна” стратегия за формиране на модел е: да се контролират всички основни ефекти при изследване на значимостта на единичен основен ефект; при контрола на всички основни ефекти и всички взаимодействия по двойки, когато се изследва значимостта на едно взаимодействие по двойки; в контролирането на всички основни ефекти от всички взаимодействия по двойки и всички взаимодействия на три фактора; при изследване на отделно взаимодействие на три фактора и др. Сумите на квадратите за ефектите, изчислени по този начин, се наричат ТипIIсуми на квадрати. Така, ТипII sums of squares контролира всички ефекти от същия ред и по-долу, като игнорира всички ефекти от по-висок ред.

Тип сума на квадратитеIV. И накрая, за някои специални планове с липсващи клетки (непълни планове) е възможно да се изчисли т.нар. Тип IVсуми на квадрати. Този метод ще бъде обсъден по-късно във връзка с непълните планове (планове с липсващи клетки).

Тълкуване на хипотезата за сумата на квадратите от типове I, II и III

сбор от квадрати ТипIIIнай-лесно за тълкуване. Припомнете си, че сумите на квадрати ТипIIIизследвайте ефектите след контролиране на всички други ефекти. Например след намиране на статистически значима ТипIIIефект за фактора Ав модула Дисперсионен анализ, можем да кажем, че има единичен значим ефект на фактора А, след въвеждане на всички други ефекти (фактори) и съответно интерпретирайте този ефект. Вероятно в 99% от всички приложения на дисперсионния анализ този тип критерий представлява интерес за изследователя. Този тип сума на квадратите обикновено се изчислява в модула Дисперсионен анализпо подразбиране, независимо дали опцията е избрана Регресионен подходили не (стандартни подходи, възприети в модула Дисперсионен анализобсъдени по-долу).

Значителни ефекти, получени чрез суми от квадрати Типили ТипIIсумите на квадратите не са толкова лесни за тълкуване. Те се интерпретират най-добре в контекста на поетапна многовариантна регресия. Ако се използва сумата от квадрати Типазосновният ефект на фактор B се оказа значителен (след включване на фактор A в модела, но преди добавяне на взаимодействието между A и B), може да се заключи, че има значителен основен ефект на фактор B, при условие че има няма взаимодействие между фактори А и Б. (Ако при използване на критерия ТипIII, фактор B също се оказа значим, тогава можем да заключим, че има значим основен ефект на фактор B, след въвеждане на всички други фактори и техните взаимодействия в модела).

По отношение на пределните средства на хипотезата ТипазИ ТипIIобикновено нямат просто тълкуване. В тези случаи се казва, че не може да се интерпретира значимостта на ефектите, като се вземат предвид само маргиналните средства. по-скоро представени стрсредните стойности са свързани с сложна хипотеза, който комбинира средните стойности и размера на извадката. Например, ТипIIхипотезите за фактор А в простия пример за дизайн 2 x 2, обсъден по-рано, биха били (вижте Woodward, Bonett и Brecht, 1990, стр. 219):

nij- брой наблюдения в клетка

uij- средна стойност в клетка

н. й- пределно средно

Без да навлизаме в подробности (за повече подробности вижте Milliken and Johnson, 1984, глава 10), е ясно, че това не са прости хипотези и в повечето случаи нито една от тях не представлява особен интерес за изследователя. Има обаче случаи, когато хипотезите Типазможе да представлява интерес.

Изчислителният подход по подразбиране в модула Дисперсионен анализ

По подразбиране, ако опцията не е отметната Регресионен подход, модул Дисперсионен анализизползва клетъчен среден модел. Характерно за този модел е, че сумите на квадратите за различни ефекти се изчисляват за линейни комбинации от средни стойности на клетките. В пълен факторен експеримент това води до суми от квадрати, които са същите като сумите от квадрати, обсъдени по-рано като Тип III. Въпреки това, в опцията Планирани сравнения(в прозореца Анализ на дисперсионните резултати), потребителят може да направи хипотеза за всяка линейна комбинация от претеглени или непретеглени средни клетки. Така потребителят може да тества не само хипотези ТипIII, но хипотези от всякакъв вид (вкл ТипIV). Този общ подход е особено полезен при изследване на дизайни с липсващи клетки (така наречените непълни дизайни).

За пълни факторни дизайни този подход е полезен и когато човек иска да анализира претеглени пределни средни стойности. Да предположим например, че в простия дизайн 2 x 2, разгледан по-рано, искаме да сравним претеглените (от гледна точка на факторни нива) б) пределни средни стойности за фактор А. Това е полезно, когато разпределението на наблюденията върху клетките не е изготвено от експериментатора, а е изградено на случаен принцип и тази случайност се отразява в разпределението на броя наблюдения по нива на фактор В в агрегата .

Например, има фактор - възрастта на вдовиците. Възможна извадка от респонденти е разделена на две групи: под 40 години и над 40 години (фактор Б). Вторият фактор (фактор А) в плана е дали вдовиците са получили или не социална подкрепа от някоя агенция (докато някои вдовици са избрани на случаен принцип, други са служили като контролни). В този случай възрастовото разпределение на вдовиците в извадката отразява действителното възрастово разпределение на вдовиците в населението. Оценка на ефективността на групата за социална подкрепа за вдовици всички възрастище съответства на среднопретеглената стойност за двете възрастови групи (с тегла, съответстващи на броя наблюдения в групата).

Планирани сравнения

Имайте предвид, че сумата от въведените коефициенти на контраст не е непременно равна на 0 (нула). Вместо това програмата автоматично ще направи корекции, така че съответните хипотези да не се смесват с общата средна стойност.

За да илюстрираме това, нека се върнем към простия план 2 x 2, обсъден по-рано. Спомнете си, че броят на клетките на този небалансиран дизайн е -1, 2, 3 и 1. Да кажем, че искаме да сравним претеглените пределни средни стойности за фактор А (претеглени от честотата на нивата на фактор В). Можете да въведете контрастни съотношения:

Обърнете внимание, че сборът на тези коефициенти не е 0. Програмата ще настрои коефициентите така, че сборът да е 0, като същевременно запази относителните им стойности, т.е.:

1/3 2/3 -3/4 -1/4

Тези контрасти ще сравнят претеглените средни стойности за фактор А.

Хипотези за главното средно.Хипотезата, че непретеглената основна средна стойност е 0, може да се изследва с помощта на коефициенти:

Хипотезата, че претеглената основна средна стойност е 0, се тества с:

В никакъв случай програмата не коригира контрастните съотношения.

Анализ на планове с липсващи клетки (непълни планове)

Факториалните дизайни, съдържащи празни клетки (обработка на комбинации от клетки, в които няма наблюдения), се наричат ​​непълни. В такива проекти някои фактори обикновено не са ортогонални и някои взаимодействия не могат да бъдат изчислени. Изобщо не съществува най-добрият методанализ на такива планове.

Регресионен подход

В някои по-стари програми, които се основават на анализ на ANOVA дизайни с помощта на многовариантна регресия, факторите в непълните дизайни се задават по подразбиране по обичайния начин (сякаш ако планът е пълен). След това се извършва многовариантен регресионен анализ за тези фиктивно кодирани фактори. За съжаление, този метод води до резултати, които са много трудни, ако не и невъзможни, за интерпретиране, тъй като не е ясно как всеки ефект допринася за линейната комбинация от средства. Помислете за следния прост пример.

Фактор А Фактор Б
B1 B2
A1 3 4, 5
A2 6, 6, 7 Пропуснато

Ако многовариантна регресия на формата Зависима променлива = константа + фактор A + фактор B, тогава хипотезата за значимостта на факторите A и B по отношение на линейни комбинации от средни изглежда така:

Фактор A: клетка A1,B1 = клетка A2,B1

Фактор B: клетка A1,B1 = клетка A1,B2

Този случай е прост. При по-сложни планове е невъзможно реално да се определи какво точно ще се изследва.

Средни клетки, дисперсионен анализ , хипотези тип IV

Подход, който се препоръчва в литературата и изглежда за предпочитане, е изследването на значими (по отношение на изследователски задачи) априорихипотези за средствата, наблюдавани в клетките на плана. Подробно обсъждане на този подход може да се намери в Dodge (1985), Heiberger (1989), Milliken and Johnson (1984), Searle (1987) или Woodward, Bonett и Brecht (1990). Сумите на квадратите, свързани с хипотези за линейна комбинация от средства в непълни проекти, изследващи оценки на част от ефектите, също се наричат ​​суми на квадрати. IV.

Автоматично генериране на типови хипотезиIV. Когато многовариантните проекти имат сложен модел на липсващи клетки, е желателно да се дефинират ортогонални (независими) хипотези, чието изследване е еквивалентно на изследването на основните ефекти или взаимодействия. Разработени са алгоритмични (изчислителни) стратегии (базирани на матрицата на псевдо-обратния дизайн) за генериране на подходящи тегла за такива сравнения. За съжаление окончателните хипотези не са еднозначно дефинирани. Разбира се, те зависят от реда, в който са определени ефектите, и рядко са лесни за тълкуване. Поради това се препоръчва внимателно да се проучи естеството на липсващите клетки, след което да се формулират хипотези ТипIV, които са най-подходящи за целите на изследването. След това проучете тези хипотези, като използвате опцията Планирани сравненияв прозореца резултати. Най-лесният начин за уточняване на сравненията в този случай е да се изисква въвеждането на вектор от контрасти за всички фактори заеднов прозореца Планирани сравнения.След извикване на диалоговия прозорец Планирани сравнениявсички групи от текущия план ще бъдат показани, а тези, които са пропуснати, ще бъдат маркирани.

Пропуснати клетки и проверка на специфичен ефект

Има няколко вида планове, в които местоположението на липсващите клетки не е произволно, а внимателно планирано, което позволява прост анализ на основните ефекти, без да се засягат други ефекти. Например, когато необходимият брой клетки в плана не е наличен, често се използват планове. латински квадратчетаза оценка на основните ефекти на няколко фактора с голям брой нива. Например факторен дизайн 4 x 4 x 4 x 4 изисква 256 клетки. В същото време можете да използвате Гръко-латински площадза оценка на основните ефекти, като има само 16 клетки в плана (гл. Планиране на експеримента, том IV, съдържа подробно описание на такива планове). Непълните дизайни, при които основните ефекти (и някои взаимодействия) могат да бъдат оценени с помощта на прости линейни комбинации от средства, се наричат балансирани непълни планове.

При балансирани дизайни стандартният (по подразбиране) метод за генериране на контрасти (тегла) за основните ефекти и взаимодействия след това ще произведе анализ на таблица с вариации, в който сумите на квадратите за съответните ефекти не се смесват един с друг. опция Специфични ефектипрозорец резултатище генерира липсващи контрасти, като напише нула в липсващите клетки на плана. Веднага след като опцията е заявена Специфични ефектиза потребител, който изучава някаква хипотеза, се появява таблица с резултати с действителните тегла. Имайте предвид, че при балансиран дизайн сумите на квадратите на съответните ефекти се изчисляват само ако тези ефекти са ортогонални (независими) спрямо всички други основни ефекти и взаимодействия. В противен случай използвайте опцията Планирани сравненияза изследване на смислени сравнения между средствата.

Липсващи клетки и комбинирани ефекти/членове на грешки

Ако опция Регресионен подходв стартовия панел на модула Дисперсионен анализне е избрано, моделът на средните стойности на клетките ще се използва при изчисляване на сумата от квадрати за ефектите (настройка по подразбиране). Ако дизайнът не е балансиран, тогава при комбиниране на неортогонални ефекти (вижте по-горе обсъждането на опцията Липсващи клетки и специфичен ефект) може да се получи сума от квадрати, състояща се от неортогонални (или припокриващи се) компоненти. Получените по този начин резултати обикновено не могат да се интерпретират. Следователно, човек трябва да бъде много внимателен при избора и внедряването на сложни непълни експериментални проекти.

Има много книги, които разглеждат подробно плановете. различен тип. (Dodge, 1985; Heiberger, 1989; Lindman, 1974; Milliken and Johnson, 1984; Searle, 1987; Woodward and Bonett, 1990), но този вид информация е извън обхвата на този учебник. Но по-късно в този раздел ще покажем анализа различни видовепланове.

Предположения и последици от нарушаване на предположенията

Отклонение от предположението за нормални разпределения

Да приемем, че зависимата променлива се измерва в цифрова скала. Нека приемем също, че зависимата променлива има нормално разпределение във всяка група. Дисперсионен анализсъдържа широк набор от графики и статистически данни, за да обоснове това предположение.

Ефекти от нарушение.Изобщо Екритерият е много устойчив на отклонение от нормалното (виж Lindman, 1974 за подробни резултати). Ако ексцесът е по-голям от 0, тогава стойността на статистиката Еможе да стане много малък. Нулевата хипотеза се приема, въпреки че може да не е вярна. Ситуацията е обратна, когато ексцесът е по-малък от 0. Изкривеността на разпределението обикновено има малък ефект върху Естатистика. Ако броят на наблюденията в една клетка е достатъчно голям, тогава отклонението от нормалното няма голямо значение поради централна гранична теорема, според което разпределението на средната стойност е близко до нормалното, независимо от първоначалното разпределение. Подробно обсъждане на устойчивостта Естатистическите данни могат да бъдат намерени в Box and Anderson (1955) или Lindman (1974).

Хомогенност на дисперсията

Предположения.Предполага се, че отклоненията на различните групи от плана са еднакви. Това предположение се нарича предположение хомогенност на дисперсията.Спомнете си, че в началото на този раздел, когато описваме изчисляването на сумата от квадратни грешки, извършихме сумиране във всяка група. Ако дисперсиите в две групи се различават една от друга, тогава добавянето им не е много естествено и не дава оценка на общата дисперсия в рамките на групата (тъй като в този случай изобщо няма обща дисперсия). Модул Дисперсионен анализ -ANOVA/МАНОВАсъдържа голям набор от статистически критерии за откриване на отклонения от допусканията за хомогенност на дисперсията.

Ефекти от нарушение.Линдман (1974, стр. 33) показва това Екритерият е доста стабилен по отношение на нарушаването на предположенията за хомогенност на дисперсията ( хетерогенностдисперсия, виж също Box, 1954a, 1954b; Hsu, 1938).

Специален случай: корелация на средни стойности и дисперсии.Има моменти, когато Естатистика може заблуждавам.Това се случва, когато средните стойности в клетките на дизайна са свързани с дисперсията. Модул Дисперсионен анализви позволява да начертаете диаграми на разсейване на дисперсия или стандартно отклонение спрямо средства за откриване на такава корелация. Причината, поради която такава корелация е опасна, е следната. Нека си представим, че в плана има 8 клетки, 7 от които имат почти еднаква средна стойност, а в една клетка средната е много по-голяма от останалите. Тогава Етестът може да открие статистически значим ефект. Но да предположим, че в клетка с голяма средна стойност и дисперсията е много по-голяма от останалите, т.е. средната стойност и дисперсията в клетките са зависими (колкото по-голяма е средната стойност, толкова по-голяма е дисперсията). В този случай голямата средна стойност е ненадеждна, тъй като може да е причинена от голямо отклонение в данните. въпреки това Естатистика въз основа на обединенивариацията в клетките ще обхване голяма средна стойност, въпреки че критериите, базирани на вариация във всяка клетка, няма да считат всички разлики в средните стойности за значими.

Това естество на данните (голяма средна стойност и голямо отклонение) често се среща, когато има извънредни наблюдения. Едно или две извънредни наблюдения силно изместват средната стойност и значително увеличават дисперсията.

Хомогенност на дисперсията и ковариацията

Предположения.При многовариантни проекти, с многовариантни зависими мерки, хомогенността на предположенията за дисперсия, описани по-рано, също се прилага. Въпреки това, тъй като има многовариантни зависими променливи, също така се изисква техните кръстосани корелации (ковариации) да бъдат еднакви във всички клетки на плана. Модул Дисперсионен анализпредлага различни начинитестване на тези предположения.

Ефекти от нарушение. Многоизмерен аналог Е- критерий - λ-тест на Wilks. Не се знае много за стабилността (устойчивостта) на λ-теста на Wilks по отношение на нарушаването на горните допускания. Въпреки това, тъй като тълкуването на резултатите от модула Дисперсионен анализобикновено се основава на значимостта на едноизмерните ефекти (след установяване на значимостта общ критерий), обсъждането на устойчивостта засяга главно едномерен анализ на дисперсията. Следователно значението на едноизмерните ефекти трябва да бъде внимателно изследвано.

Специален случай: анализ на ковариацията.Особено сериозни нарушения на хомогенността на дисперсията/ковариацията могат да възникнат, когато в дизайна са включени ковариати. По-специално, ако корелацията между ковариатите и зависимите мерки е различна в различните клетки на дизайна, може да последва погрешно тълкуване на резултатите. Трябва да се помни, че при анализа на ковариацията по същество се извършва регресионен анализ във всяка клетка, за да се изолира тази част от дисперсията, която съответства на ковариата. Предположението за хомогенност на дисперсия/ковариация предполага, че този регресионен анализ се извършва при следното ограничение: всички регресионни уравнения (наклони) за всички клетки са еднакви. Ако това не е предвидено, тогава могат да възникнат големи грешки. Модул Дисперсионен анализима няколко специални критерия за тестване на това предположение. Може да е препоръчително да използвате тези критерии, за да сте сигурни, че регресионните уравнения за различните клетки са приблизително еднакви.

Сферичност и сложна симетрия: причини за използването на многовариантен подход на повтарящи се измервания в анализа на дисперсията

При проекти, съдържащи фактори на повтарящи се измервания с повече от две нива, прилагането на едномерен анализ на дисперсията изисква допълнителни допускания: допускания за сложна симетрия и допускания за сферичност. Тези предположения рядко се изпълняват (вижте по-долу). Следователно, в последните годинимноговариантният анализ на дисперсията придоби популярност в такива планове (и двата подхода са комбинирани в модула Дисперсионен анализ).

Предположение за сложна симетрияПредположението за комплексна симетрия е, че дисперсиите (общо в рамките на групата) и ковариациите (по група) за различни повтарящи се измервания са еднакви (едни и същи). Това е достатъчно условие, за да бъде валиден едномерният F тест за повтарящи се измервания (т.е. докладваните F-стойности са средно в съответствие с F-разпределението). В този случай обаче това условие не е необходимо.

Допускане на сферичност.Предположението за сферичност е необходимо и достатъчно условие, за да бъде оправдан F-критерият. Състои се в това, че в рамките на групите всички наблюдения са независими и равномерно разпределени. Естеството на тези предположения, както и въздействието на техните нарушения, обикновено не са добре описани в книгите за дисперсионен анализ - това ще бъде описано в следващите параграфи. Той също така ще покаже, че резултатите от едновариантния подход може да се различават от резултатите от многовариантния подход и ще обясни какво означава това.

Необходимостта от независимост на хипотезите.Общият начин за анализиране на данни в дисперсионния анализ е пасване на модела. Ако по отношение на модела, съответстващ на данните, има такива априорихипотези, тогава дисперсията се разделя, за да се тестват тези хипотези (критерии за основни ефекти, взаимодействия). От изчислителна гледна точка този подход генерира някакъв набор от контрасти (набор от сравнения на средства в дизайна). Ако обаче контрастите не са независими един от друг, разделянето на вариантите става безсмислено. Например, ако два контраста АИ бса идентични и съответната част се избира от дисперсията, след което същата част се избира два пъти. Например, глупаво и безсмислено е да се отделят две хипотези: „средната стойност в клетка 1 е по-висока от средната стойност в клетка 2“ и „средната стойност в клетка 1 е по-висока от средната стойност в клетка 2“. Така че хипотезите трябва да са независими или ортогонални.

Независими хипотези при повторни измервания.Общ алгоритъм, реализиран в модула Дисперсионен анализ, ще се опита да генерира независими (ортогонални) контрасти за всеки ефект. За фактора повтарящи се измервания тези контрасти пораждат много хипотези за различиямежду нивата на разглеждания фактор. Въпреки това, ако тези различия са свързани в рамките на групите, тогава получените контрасти вече не са независими. Например, при обучение, при което обучаемите се измерват три пъти в един семестър, може да се случи промените между 1-во и 2-ро измерение да са в отрицателна корелация с промяната между 2-ро и 3-то измерение на предметите. Тези, които са усвоили по-голямата част от материала между 1-во и 2-ро измерение, усвояват по-малка част през времето, изминало между 2-ро и 3-то измерение. Всъщност, за повечето случаи, когато анализът на дисперсията се използва при повтарящи се измервания, може да се приеме, че промените в нивата са корелирани между субектите. Когато обаче това се случи, сложните предположения за симетрия и сферичност не са изпълнени и независимите контрасти не могат да бъдат изчислени.

Въздействието на нарушенията и начините за коригирането им.Когато сложните предположения за симетрия или сферичност не са изпълнени, анализът на дисперсията може да доведе до грешни резултати. Преди многовариантните процедури да бъдат достатъчно развити, бяха направени няколко допускания, за да се компенсират нарушенията на тези допускания. (Вижте например Greenhouse & Geisser, 1959 и Huynh & Feldt, 1970). Тези методи се използват широко и днес (затова са представени в модула Дисперсионен анализ).

Подход за многовариантен анализ на дисперсията към повтарящи се измервания.Като цяло, проблемите на сложната симетрия и сферичност се отнасят до факта, че наборите от контрасти, включени в изследването на ефектите от фактори на повтарящи се измервания (с повече от 2 нива), не са независими един от друг. Въпреки това, те не трябва да бъдат независими, ако се използват. многоизмеренкритерий за едновременно тестване на статистическата значимост на две или повече повтарящи се измервания факторни контрасти. Това е причината многовариантният анализ на дисперсионните методи да се използва все по-често за тестване на значимостта на едномерни фактори с многократно измерване с повече от 2 нива. Този подход е широко използван, тъй като обикновено не изисква допускането на сложна симетрия и допускането на сферичност.

Случаи, в които не може да се използва подходът на многовариантния анализ на дисперсията.Има примери (планове), когато подходът на многовариантния анализ на дисперсията не може да бъде приложен. Обикновено това са случаи, в които няма голям бройпредмети в плана и много нива във фактора за повторни мерки. Тогава може да има твърде малко наблюдения за извършване на многовариантен анализ. Например, ако има 12 обекта, стр = 4 фактор на многократни измервания и всеки фактор има к = 3 нива. Тогава взаимодействието на 4 фактора ще „разходва“ (к-1)стр = 2 4 = 16 степени на свобода. Въпреки това, има само 12 субекта, следователно многовариантен тест не може да бъде извършен в този пример. Модул Дисперсионен анализнезависимо ще открие тези наблюдения и ще изчисли само едномерни критерии.

Разлики в едновариантните и многовариантните резултати.Ако изследването включва голям брой повтарящи се измервания, може да има случаи, при които едновариантният подход на повторени измервания на ANOVA дава резултати, които са много различни от тези, получени с многовариантния подход. Това означава, че разликите между нивата на съответните повтарящи се измервания са свързани между субектите. Понякога този факт е от някакъв независим интерес.

Многовариантен дисперсионен анализ и структурно моделиране на уравнения

През последните години моделирането на структурни уравнения стана популярно като алтернатива на многовариантния дисперсионен анализ (виж, например, Bagozzi и Yi, 1989; Bagozzi, Yi и Singh, 1991; Cole, Maxwell, Arvey и Salas, 1993). Този подход ви позволява да тествате хипотези не само за средните стойности в различни групи, но и за корелационните матрици на зависимите променливи. Например, можете да намалите предположенията за хомогенността на дисперсията и ковариацията и изрично да включите грешки в модела за всяка група от дисперсия и ковариация. Модул СТАТИСТИКАМоделиране на структурни уравнения (SEPATH) (виж том III) дава възможност за такъв анализ.

Разгледаната схема на дисперсионен анализ се диференцира в зависимост от: а) характера на признака, според който съвкупността е разделена на групи (извадки); б) броя на признаците, според които популацията е разделена на групи (извадки). ); в) относно начина на вземане на проби.

Стойности на характеристиките. който подразделя съвкупността на групи, може да представлява обща популация или популация, близка до нея по размер. В този случай схемата за провеждане на дисперсионния анализ съответства на разгледаната по-горе. Ако стойностите на атрибута, който формира различни групи, представляват извадка от общата съвкупност, тогава формулировката на нулевата и алтернативната хипотеза се променя. Като нулева хипотеза се приема, че има разлики между групите, т.е. груповите средни стойности показват известна вариация. Алтернативна хипотеза е, че няма волатилност. Очевидно при такава формулировка на хипотези няма причина да се конкретизират резултатите от сравнението на дисперсии.

С увеличаване на броя на характеристиките за групиране, например до 2, първо се увеличава броят на нулевите и съответно алтернативните хипотези. В този случай първата нулева хипотеза показва липсата на разлики между средните стойности за групите от първия групиращ признак, втората нулева хипотеза показва липсата на разлики в средните стойности за групите от втория групиращ признак и накрая третата нулевата хипотеза показва липсата на така наречения ефект от взаимодействието на факторите (групиращи черти).

Под ефект на взаимодействие се разбира такава промяна в стойността на ефективния признак, която не може да се обясни с общото действие на два фактора. За да се тестват трите двойки предложени хипотези, е необходимо да се изчислят три действителни стойности на критерия F-Fisher, което от своя страна предполага следната версия на разширяването на общия обем на вариация

Дисперсиите, необходими за получаване на F-критерия, се получават по известен начин чрез разделяне на обемите на вариация на броя на степените на свобода.

Както знаете, пробите могат да бъдат зависими независими. Ако пробите са зависими, тогава в общия размер на вариацията трябва да се разграничи така наречената вариация в повторенията
. Ако не се отдели, тогава тази вариация може значително да увеличи вътрешногруповата вариация (
), което може да изкриви резултатите от дисперсионния анализ.

Въпроси за преглед

17-1 Каква е спецификацията на резултатите от дисперсионния анализ?

17-2. В какъв случай се използва критерият Q-Tukey за конкретизация?

17-3 Какви са разликите между първата, втората и така нататък поръчки?

17-4. Как да намерим действителната стойност на Q-критерия на Tukey?

17-5 Какви са хипотезите за всяка разлика?

17-6. От какво зависи табличната стойност на Q-теста на Tukey?

17-7. Каква ще бъде нулевата хипотеза, ако нивата на групиращия признак представляват извадка?

17-8 Как се разлага общото количество вариация при групиране на данни според два критерия?

17-9. В какъв случай се отличава вариацията в повторенията (
) ?

Резюме

Разгледаният механизъм за конкретизиране на резултатите от дисперсионния анализ ни позволява да му придадем завършен вид. Трябва да се обърне внимание на ограниченията при използване на Q-теста на Tukey. Материалът също така очертава основните принципи за класифициране на моделите на дисперсионния анализ. Трябва да се подчертае, че това са само принципи. Подробното проучване на характеристиките на всеки модел изисква отделно по-задълбочено проучване.

Тестови задачи към лекцията

Какви статистически характеристики се предполагат при анализа на дисперсията?

    Спрямо две дисперсии

    Относно една средна

    Относно няколко средни стойности

    Спрямо една вариация

Какво е съдържанието на алтернативната хипотеза при дисперсионния анализ?

    Сравнимите отклонения не са равни помежду си

    Всички сравнени средни стойности не са равни една на друга

    Поне две общи средства не са равни

    Междугруповата дисперсия е по-голяма от вътрешногруповата дисперсия

Какви нива на значимост се използват най-често при дисперсионния анализ

Ако вариацията в рамките на групата е по-голяма от вариацията между групите, трябва ли да продължи анализът на дисперсията или трябва незабавно да приемем H0 или HA?

1. Трябва ли да продължим с определяне на необходимите отклонения?

2. Трябва да се съгласим с H0

3. Трябва да се съгласи с NA

Ако вътрешногруповата дисперсия е равна на междугруповата дисперсия, какви трябва да бъдат действията на ANOVA?

    Съгласете се с нулевата хипотеза, че средните стойности на съвкупността са равни

    Съгласете се с алтернативната хипотеза за наличието на поне двойка средства, неравни помежду си

Каква дисперсия винаги трябва да има в числителя при изчисляване на F теста на Fisher?

    Само вътрешногрупови

    Във всеки случай, междугрупови

    Междугрупова, ако е по-голяма от вътрешногруповата

Каква трябва да бъде действителната стойност на критерия F-Fisher?

    Винаги по-малко от 1

    Винаги по-голямо от 1

    Равно или по-голямо от 1

От какво зависи табличната стойност на критерия F-Fisher?

1. От приетото ниво на значимост

2. За броя на степените на свобода на общата вариация

3. За броя на степените на свобода на междугруповата вариация

4. За броя на степените на свобода на вътрешногруповата вариация

5. От стойността на действителната стойност на критерия F-Fisher?

Увеличаването на броя на наблюденията във всяка група с равни дисперсии увеличава вероятността за приемане на ……

1. Нулева хипотеза

2.Алтернативна хипотеза

3. Не засяга приемането както на нулевата, така и на алтернативната хипотеза

Какъв е смисълът да се конкретизират резултатите от дисперсионния анализ?

    Изяснете дали изчисленията на отклоненията са извършени правилно

    Определете кои от общите средни се оказаха равни една на друга

    Изяснете кои от общите средни не са равни помежду си

Вярно ли е твърдението: „При конкретизиране на резултатите от дисперсионния анализ всички общи средни се оказаха равни една на друга“

    Може да бъде вярно и невярно

    Не е вярно, това може да се дължи на грешки в изчисленията

Възможно ли е при конкретизиране на дисперсионния анализ да се стигне до извода, че всички общи средни не са равни една на друга?

1. Напълно възможно

2. Възможно е в изключителни случаи

3. Принципно невъзможно.

4. Възможно само ако има грешки в изчисленията

Ако нулевата хипотеза е приета според теста на F-Fisher, необходимо ли е да се уточни дисперсионният анализ?

1.Задължително

2.Не е задължително

3. По преценка на ANOVA

В какъв случай се използва критерият на Тъки за конкретизиране на резултатите от дисперсионния анализ?

1. Ако броят на наблюденията в групи (извадки) е еднакъв

2. Ако броят на наблюденията по групи (извадки) е различен

3. Ако има проби с равен и нееднакъв брой

мързел

Какво представлява NSR при конкретизиране на резултатите от дисперсионния анализ въз основа на критерия на Tukey?

1. Произведението на средната грешка и действителната стойност на критерия

2. Произведението на средната грешка и табличната стойност на критерия

3. Съотношението на всяка разлика между извадковите средства към

средна грешка

4. Разлика между извадковите средни стойности

Ако извадката е разделена на групи според 2 характеристики, на колко източника трябва да бъде разделена поне общата вариация на характеристиката?

Ако наблюденията по проби (групи) са зависими, на колко източника трябва да бъде разделена общата вариация (атрибут за групиране едно)?

Какъв е източникът (причината) за междугруповите различия?

    игра на късмета

    Съвместно действие на хазартната игра и фактора

    Действие на фактора(ите)

    Това ще стане ясно след анализ на дисперсията

Какъв е източникът (причината) на вътрешногруповите вариации?

1. Игра на късмета

2. Съвместното действие на хазартната игра и фактора

3. Действие на фактора (факторите)

4. Ще стане ясно след дисперсионния анализ

Какъв метод за трансформация на изходните данни се използва, ако характерните стойности са изразени в акции?

    Логаритъм

    извличане на корени

    Phi трансформация

Лекция 8 Корелация

анотация

Най-важният метод за изследване на връзката между характеристиките е корелационният метод. Тази лекция разкрива съдържанието на този метод, подходите за аналитичното изразяване на тази връзка. Особено внимание се обръща на такива специфични показатели като показателите за близостта на комуникацията

Ключови думи

Корелация. Метод на най-малките квадрати. Коефициент на регресия. Коефициенти на детерминация и корелация.

Разглеждани въпроси

    Комуникационен функционал и корелация

    Етапи на изграждане на корелационното уравнение на комуникацията. Интерпретация на коефициентите на уравнението

    Индикатори за плътност

    Оценка на примерни показатели за комуникация

Модулна единица 1 Същност на корелацията. Етапи на изграждане на корелационното уравнение на комуникацията, интерпретация на коефициентите на уравнението.

Целта и целите на изследването на модулната единица 1се състоят в разбирането на характеристиките на корелацията. овладяване на алгоритъма за построяване на уравнение на връзката, разбиране на съдържанието на коефициентите на уравнението.

      Същността на корелацията

В природните и социалните явления има два вида връзки - функционална връзка и корелационна връзка. При функционална връзка всяка стойност на аргумента съответства на строго определени (една или повече) стойности на функцията. Пример за функционална връзка е връзката между обиколка и радиус, която се изразява с уравнението
. Всяка стойност на радиуса rсъответства на стойност на една обиколка Л . При корелация всяка стойност на факторен атрибут съответства на няколко не съвсем сигурни стойности на резултантния атрибут. Примери за корелация могат да бъдат връзката между теглото на човек (резултатен признак) и неговия ръст (факторен признак), връзката между количеството на внесения тор и добива, между цената и количеството на предлаганите стоки. Източникът на корелацията е фактът, че като правило в реалния живот стойността на ефективния признак зависи от много фактори, включително тези, които имат случаен характер на промяната си. Например едно и също тегло на човек зависи от възрастта, пола, храненето, професията и много други фактори. Но в същото време е очевидно, че като цяло растежът е решаващият фактор. С оглед на тези обстоятелства корелацията трябва да се дефинира като непълна връзка, която може да бъде установена и оценена само ако има средно голям брой наблюдения.

1.2 Етапи на конструиране на корелационното уравнение на комуникацията.

Подобно на функционалната връзка, корелационната връзка се изразява чрез уравнение на връзката. За да го изградите, трябва последователно да преминете през следните стъпки (етапи).

Първо, трябва да разберете причинно-следствените връзки, да разберете подчинението на знаците, тоест кои от тях са причини (факторни признаци) и кои са последствия (ефективни признаци). Причинно-следствените връзки между характеристиките се установяват от теорията на предмета, където се използва методът на корелация. Например, науката за "анатомията на човека" ви позволява да кажете какъв е източникът на връзката между теглото и височината, кой от тези признаци е фактор, кой резултат, науката "икономика" разкрива логиката на връзката между цена и предлагане, установява какво и на какъв етап е причината и какво е следствието. Без такава предварителна теоретична обосновка тълкуването на получените по-късно резултати е трудно, а понякога може да доведе до абсурдни заключения.

След като се установи наличието на причинно-следствени връзки, тези връзки трябва да бъдат формализирани, т.е. изразени с помощта на уравнение на връзката, като първо се избира типът на уравнението. За да изберете вида на уравнението, могат да се препоръчат редица методи. Можете да се обърнете към теорията на предмета, където се използва методът на корелация, например, науката "агрохимия" може вече да е получила отговор на въпроса кое уравнение трябва да изразява връзката: добив - тор. Ако няма такъв отговор, тогава за да изберете уравнение, трябва да използвате някои емпирични данни, като ги обработите по съответния начин. Веднага трябва да се каже, че след като изберете типа уравнение въз основа на емпирични данни, трябва ясно да разберете, че този тип уравнение може да се използва за описание на връзката на използваните данни. Основната техника за обработка на тези данни е изграждането на графики, когато стойностите на факторния атрибут са нанесени на абсцисната ос и на ординатната ос възможни стойностирезултатен знак. Тъй като по дефиниция същата стойност на атрибута на фактора съответства на набор от несигурни стойности на атрибута на ефективния, в резултат на горните действия ще получим определен набор от точки, който се нарича корелационно поле. Общата форма на корелационното поле позволява в редица случаи да се направи предположение за възможната форма на уравнението. съвременно развитиев компютърните технологии един от основните методи за избор на уравнение е изброяването различни видовеуравнения, докато уравнението, което осигурява най-висок коефициент на детерминация, което ще бъде обсъдено по-долу, се избира като най-добро. Преди да се пристъпи към изчисленията, е необходимо да се провери дали емпиричните данни, включени в съставянето на уравнението, отговарят на определени изисквания. Изискванията се отнасят за факторните характеристики и за съвкупността от данни. Факторните знаци, ако има няколко от тях, трябва да са независими един от друг. Що се отнася до агрегата, той трябва първо да бъде хомогенен

(концепцията за хомогенност беше разгледана по-рано) и Втородостатъчно голям. За всеки факторен знак трябва да има поне 8-10 наблюдения.

След като изберете уравнение, следващата стъпка е да изчислите коефициентите на уравнението. Изчисляването на коефициентите на уравнението най-често се извършва на базата на метода на най-малките квадрати. От гледна точка на корелацията, използването на метода на най-малките квадрати се състои в получаване на такива коефициенти на уравнението, че
=min, т.е. така, че сумата от квадратните отклонения на действителните стойности на резултантната характеристика ( ) от тези, изчислени съгласно уравнението ( ) беше минималната стойност. Това изискване се реализира чрез конструиране и решаване на добре позната система от така наречените нормални уравнения. Ако, като уравнение на корелацията между гИ хизбрано е уравнението на права линия
, където е известно, че системата от нормални уравнения е:

Решаване на тази система за аИ b , получаваме необходимите стойности на коефициентите. Правилността на изчисляване на коефициентите се проверява чрез равенството

Използването на статистика в тази бележка ще бъде показано с междусекторен пример. Да приемем, че сте производствен мениджър в Perfect Parachute. Парашутите са направени от синтетични влакна, доставени от четири различни доставчика. Една от основните характеристики на парашута е неговата здравина. Трябва да се уверите, че всички доставени влакна имат еднаква здравина. За да се отговори на този въпрос, е необходимо да се направи експеримент, в който да се измерва здравината на парашутите, изтъкани от синтетични влакна от различни доставчици. Информацията, получена по време на този експеримент, ще определи кой доставчик предоставя най-издръжливите парашути.

Много приложения са свързани с експерименти, в които се разглеждат няколко групи или нива на един фактор. Някои фактори, като например температурата на изпичане на керамика, може да имат множество числени нива (т.е. 300°, 350°, 400° и 450°). Други фактори, като местоположението на стоките в супермаркет, могат да имат категорични нива (напр. първи доставчик, втори доставчик, трети доставчик, четвърти доставчик). Еднофакторни експерименти, при които експерименталните единици са разпределени на случаен принцип към групи или факторни нива, се наричат ​​напълно рандомизирани.

ИзползванеЕ-критерии за оценка на разликите между няколко математически очаквания

Ако числените измервания на фактор в групи са непрекъснати и някои допълнителни условия, за сравняване на математическите очаквания на няколко групи, дисперсионен анализ (ANOVA - Ананализ о f Vaрианс). Анализът на дисперсията с помощта на напълно рандомизирани дизайни се нарича еднопосочен ANOVA. В известен смисъл терминът дисперсионен анализ е подвеждащ, защото сравнява разликите между средните стойности на групите, а не между дисперсиите. Сравнението на математическите очаквания обаче се извършва именно на базата на анализа на вариациите на данните. В процедурата ANOVA общата вариация на резултатите от измерването се разделя на междугрупови и вътрешногрупови (фиг. 1). Вътрешногруповата вариация се обяснява с експериментална грешка, докато междугруповата вариация се обяснява с ефектите на експерименталните условия. Символ собозначава броя на групите.

Ориз. 1. Разделяне на вариации в напълно рандомизиран експеримент

Изтеглете бележка в или формат, примери във формат

Нека се преструваме, че сгрупите се извличат от независими популации, които имат нормално разпределение и еднаква вариация. Нулевата хипотеза е, че математическите очаквания на популациите са еднакви: H 0: μ 1 = μ 2 = ... = μ s. Алтернативната хипотеза гласи, че не всички математически очаквания са еднакви: H 1: не всички μ j са еднакви й= 1, 2, …, s).

На фиг. Фигура 2 представя истинската нулева хипотеза за математическите очаквания на петте сравнени групи, при условие че генералните съвкупности имат нормално разпределение и една и съща вариация. Петте популации, свързани с различни нива на фактор, са идентични. Следователно те се наслагват един върху друг, като имат едно и също математическо очакване, вариация и форма.

Ориз. 2. Пет популации имат едно и също математическо очакване: μ 1 = μ 2 = μ 3 = μ 4 = μ 5

От друга страна, да предположим, че всъщност нулевата хипотеза е невярна и четвъртото ниво има най-голямото математическо очакване, първото ниво има малко по-ниско математическо очакване, а останалите нива имат същите и дори по-малки математически очаквания (фиг. 3). Имайте предвид, че с изключение на средната стойност, всичките пет популации са идентични (т.е. имат една и съща променливост и форма).

Ориз. 3. Ефектът от експерименталните условия се наблюдава: μ 4 > μ 1 > μ 2 = μ 3 = μ 5

Когато се тества хипотезата за равенство на математическите очаквания на няколко генерални съвкупности, общата вариация се разделя на две части: междугрупова вариация, дължаща се на разликите между групите, и вътрешногрупова вариация, дължаща се на разликите между елементи, принадлежащи към една и съща група. Общата вариация се изразява като общата сума на квадратите (SST - sum of squares total). Тъй като нулевата хипотеза е, че очакванията на всички сгрупите са равни една на друга, общата вариация е равна на сумата от квадратите на разликите между отделните наблюдения и общата средна стойност (средна средна стойност), изчислена за всички проби. Пълна вариация:

Където - обща средна стойност, Xij - аз-e наблюдавам й-та група или ниво, nj- брой наблюдения в й-та група, н- общ брой наблюдения във всички групи (т.е. н = н 1 + n 2 + … + nc), с- брой изучавани групи или нива.

Междугрупова вариация, обикновено наричана сума от квадрати сред групите (SSA), е равна на сумата от квадратите на разликите между средната стойност на извадката от всяка група йи общо средно умножен по обема на съответната група nj:

Където с- броя на изследваните групи или нива, nj- брой наблюдения в й-та група, й- средна стойност й-та група, - обща авария.

Вътрешногрупова вариация, обикновено наричана сума от квадрати в групи (SSW), е равна на сумата от квадратите на разликите между елементите на всяка група и средната стойност на извадката от тази група й:

Където хij - аз-ти елемент й-та група, й- средна стойност й-та група.

Защото се сравняват сфакторни нива, междугруповата сума на квадратите има s - 1степени на свобода. Всеки от снива има nj – 1 степени на свобода, така че вътрешногруповият сбор от квадрати има н- Сстепени на свобода и

В допълнение, общата сума на квадратите има н – 1 степени на свобода, тъй като всяко наблюдение хijв сравнение с общата средна стойност, изчислена за всички ннаблюдения. Ако всяка от тези суми се раздели на съответния брой степени на свобода, ще възникнат три вида дисперсия: интергрупа(среден квадрат сред - MSA), вътрешногрупови(среден квадрат в рамките на - MSW) и пълен(общ среден квадрат - MST):

Въпреки факта, че основната цел на дисперсионния анализ е да се сравнят математическите очаквания сгрупи за разкриване на ефекта от експерименталните условия, името му се дължи на факта, че основният инструмент е анализът на дисперсии от различни видове. Ако нулевата хипотеза е вярна и между очакваните стойности сгрупи няма значителни разлики, и трите дисперсии - MSA, MSW и MST - са оценки на дисперсията σ2присъщи на анализираните данни. За да тестваме нулевата хипотеза H 0: μ 1 = μ 2 = ... = μ sи алтернативна хипотеза H 1: не всички μ j са еднакви й = 1, 2, …, с), е необходимо да се изчисли статистиката Е-критерий, който е отношението на две дисперсии, MSA и MSW. тест Е-статистика при едномерен дисперсионен анализ

Статистика Е-критериите се подчиняват Е- разпределение със s - 1степени на свобода в числителя MSAИ n - сстепени на свобода в знаменателя ТБО. За дадено ниво на значимост α, нулевата хипотеза се отхвърля, ако изчисленото Е ЕUприсъщи Е- разпределение със s - 1 n - сстепени на свобода в знаменателя. Така, както е показано на фиг. 4 решаващото правило е формулирано по следния начин: нулева хипотеза H 0отхвърлен ако F > FU; в противен случай не се отхвърля.

Ориз. 4. Критична област на дисперсионен анализ при тестване на хипотеза H 0

Ако нулевата хипотеза H 0е вярно, изчислено Е-статистиката е близка до 1, тъй като нейният числител и знаменател са оценки на една и съща стойност - дисперсията σ 2, присъща на анализираните данни. Ако нулевата хипотеза H 0е невярно (и има значителна разлика между очакваните стойности на различните групи), изчислено Е-статистиката ще бъде много по-голяма от единица, тъй като нейният числител, MSA, в допълнение към естествената променливост на данните, оценява ефекта от експерименталните условия или разликата между групите, докато знаменателят MSW оценява само естествената променливост на данните. По този начин процедурата ANOVA е Ее тест, при който при дадено ниво на значимост α нулевата хипотеза се отхвърля, ако изчисленото Е- статистическите данни са по-големи от горната критична стойност ЕUприсъщи Е- разпределение със s - 1степени на свобода в числителя и n - сстепени на свобода в знаменателя, както е показано на фиг. 4.

За да илюстрираме еднопосочния анализ на дисперсията, нека се върнем към сценария, очертан в началото на бележката. Целта на експеримента е да се установи дали парашутите, изтъкани от синтетични влакна, получени от различни доставчици, имат еднаква здравина. Всяка група има пет изплетени парашута. Групите са разделени по доставчици - Доставчик 1, Доставчик 2, Доставчик 3 и Доставчик 4. Якостта на парашутите се измерва с помощта на специален уред, който тества тъканта за разкъсване от двете страни. Силата, необходима за счупване на парашут, се измерва на специална скала. Колкото по-висока е силата на скъсване, толкова по-здрав е парашутът. Excel позволява анализ Е-Статистика с едно кликване. Преминете през менюто ДанниАнализ на даннии изберете линията Еднопосочен дисперсионен анализ, попълнете отворения прозорец (фиг. 5). Резултатите от експеримента (сила на празнината), някои описателни статистики и резултатите от еднопосочен анализ на дисперсията са показани на фиг. 6.

Ориз. 5. Прозорец Пакет за еднопосочен ANOVA анализпревъзходен

Ориз. Фиг. 6. Индикатори за якост на парашути, изтъкани от синтетични влакна, получени от различни доставчици, описателна статистика и резултати от еднопосочен анализ на дисперсията

Анализът на фигура 6 показва, че има известна разлика между средните стойности на извадката. Средната якост на влакната, получени от първия доставчик е 19,52, от втория - 24,26, от третия - 22,84 и от четвъртия - 21,16. Статистически значима ли е тази разлика? Разпределението на силата на разкъсване е показано на точковата диаграма (фиг. 7). Ясно показва различията както между групите, така и вътре в тях. Ако обемът на всяка група беше по-голям, те биха могли да бъдат анализирани с помощта на диаграма на стъбла и листа, графика на кутия или графика на нормално разпределение.

Ориз. 7. Диаграма на разпределение на якостта на парашути, изтъкани от синтетични влакна, получени от четири доставчика

Нулевата хипотеза гласи, че няма значителни разлики между средните стойности на якост: H 0: μ 1 = μ 2 = μ 3 = μ 4. Алтернативна хипотеза е, че има поне един доставчик, чиято средна здравина на влакната се различава от другите: H 1: не всички μ j са еднакви ( й = 1, 2, …, с).

Обща средна стойност (вижте фигура 6) = AVERAGE(D12:D15) = 21,945; за да определите, можете също да усредните всички 20 оригинални числа: \u003d СРЕДНО (A3: D7). Изчисляват се стойностите на дисперсията Пакет за анализи са отразени в таблицата Дисперсионен анализ(вижте фиг. 6): SSA = 63.286, SSW = 97.504, SST = 160.790 (вижте колоната ССмаси Дисперсионен анализфигура 6). Средните стойности се изчисляват чрез разделяне на тези суми от квадрати на подходящия брой степени на свобода. Тъй като с= 4 и н= 20, получаваме следните стойности на степените на свобода; за SSA: s - 1= 3; за SSW: n–c= 16; за SST: n - 1= 19 (вижте колоната df). Така: MSA = SSA / ( в - 1)= 21.095; MSW=SSW/( n–c) = 6,094; MST = SST / ( n - 1) = 8,463 (вижте колоната Г-ЦА). Е-статистика = MSA / MSW = 3,462 (вижте колоната Е).

Горна критична стойност ЕU, характерни за Е-разпределение, се определя по формулата = F. OBR (0,95; 3; 16) = 3,239. Параметри на функцията =F.OBR(): α = 0,05, числителят има три степени на свобода, а знаменателят е 16. Така изчислената Е-статистиката, равна на 3,462, надвишава горната критична стойност ЕU= 3.239, нулевата хипотеза се отхвърля (фиг. 8).

Ориз. 8. Критична област на дисперсионен анализ при ниво на значимост 0,05, ако числителят има три степени на свобода, а знаменателят е -16

Р-стойност, т.е. вероятността, че при истинска нулева хипотеза Е- статистика не по-малка от 3,46, равна на 0,041 или 4,1% (вижте колоната p-стойностмаси Дисперсионен анализфигура 6). Тъй като тази стойност не надвишава нивото на значимост α = 5%, нулевата хипотеза се отхвърля. Освен това, Р-стойност показва, че вероятността да се намери такава или голяма разлика между математическите очаквания на генералните съвкупности, при условие че те действително са еднакви, е 4,1%.

Така. Има разлика между четирите примерни средни стойности. Нулевата хипотеза беше, че всички математически очаквания на четирите популации са равни. При тези условия се изчислява мярка за общата променливост (т.е. общата вариация на SST) на силата на всички парашути чрез сумиране на квадратите на разликите между всяко наблюдение Xijи общо средно . След това общата вариация беше разделена на два компонента (виж Фиг. 1). Първият компонент беше междугруповата вариация в SSA, а втората беше вътрешногруповата вариация в SSW.

Какво обяснява променливостта в данните? С други думи, защо не всички наблюдения са еднакви? Една от причините е, че различните фирми доставят влакна с различна здравина. Това отчасти обяснява защо групите имат различни очаквани стойности: колкото по-силен е ефектът от експерименталните условия, толкова по-голяма е разликата между средните стойности на групите. Друга причина за променливостта на данните е естествената променливост на всеки процес, в случая производството на парашути. Дори и всички влакна да са закупени от един и същи доставчик, здравината им няма да е еднаква при равни други условия. Тъй като този ефект се появява във всяка от групите, той се нарича вариация в рамките на групата.

Разликите между средните стойности на извадката се наричат ​​междугрупова вариация на SSA. Част от вътрешногруповата вариация, както вече беше споменато, се обяснява с факта, че данните принадлежат към различни групи. Въпреки това, дори ако групите бяха напълно еднакви (т.е. нулевата хипотеза щеше да е вярна), пак щеше да има междугрупови вариации. Причината за това се крие в естествената променливост на процеса на производство на парашута. Тъй като пробите са различни, техните средни стойности на извадката се различават една от друга. Следователно, ако нулевата хипотеза е вярна, както междугруповата, така и вътрешногруповата променливост са оценки на променливостта на популацията. Ако нулевата хипотеза е невярна, хипотезата между групите ще бъде по-голяма. Именно този факт е в основата Е-критерии за съпоставяне на разликите между математическите очаквания на няколко групи.

След извършване на еднопосочна ANOVA и установяване на значителна разлика между фирмите, остава неизвестно кой от доставчиците е значително различен от останалите. Знаем само, че математическите очаквания на населението не са еднакви. С други думи, поне едно от математическите очаквания се различава значително от останалите. За да определите кой доставчик е различен от другите, можете да използвате Процедура Тъки, който използва сравнение по двойки между доставчици. Тази процедура е разработена от John Tukey. Впоследствие той и C. Cramer независимо модифицират тази процедура за ситуации, в които размерите на пробите се различават един от друг.

Множествено сравнение: процедура Тъки-Крамер

В нашия сценарий беше използван еднопосочен анализ на дисперсията за сравняване на силата на парашутите. След като са открити значителни разлики между математическите очаквания на четирите групи, е необходимо да се определи кои групи се различават една от друга. Въпреки че има няколко начина за решаване на този проблем, ние ще опишем само процедурата за множествено сравнение на Tukey-Kramer. Този метод е пример за процедури за post hoc сравнение, тъй като хипотезата, която ще се тества, се формулира след анализ на данните. Процедурата Tukey-Kramer ви позволява да сравнявате едновременно всички двойки групи. На първия етап се изчисляват разликите хй - Хй, Където j ≠й, между математическите очаквания s(s – 1)/2групи. Критичен диапазонПроцедурата на Tukey-Kramer се изчислява по формулата:

Където Q U- горната критична стойност на разпределението на студентизирания диапазон, който има сстепени на свобода в числителя и н - Сстепени на свобода в знаменателя.

Ако размерите на извадката не са еднакви, критичният диапазон се изчислява за всяка двойка математически очаквания поотделно. На последния етап всеки s(s – 1)/2двойки математически очаквания се сравнява със съответния критичен диапазон. Елементите на една двойка се считат за значително различни, ако модулът на разликата | Xj - Хй| между тях надхвърля критичния диапазон.

Нека приложим процедурата на Тъки-Крамер към проблема за здравината на парашутите. Тъй като парашутната компания има четирима доставчика, трябва да бъдат тествани 4(4 – 1)/2 = 6 чифта доставчици (Фигура 9).

Ориз. 9. Сравнения по двойки на извадкови средни стойности

Тъй като всички групи имат еднакъв обем (т.е. всички nj = nj), достатъчно е да се изчисли само един критичен диапазон. За да направите това, според таблицата ANOVA(фиг. 6) определяме стойността на MSW = 6,094. След това намираме стойността Q Uпри α = 0,05, с= 4 (брой степени на свобода в числителя) и н- С= 20 – 4 = 16 (броят на степените на свобода в знаменателя). За съжаление не намерих съответната функция в Excel, затова използвах таблицата (фиг. 10).

Ориз. 10. Критична стойност на студентизирания диапазон Q U

Получаваме:

Тъй като само 4,74 > 4,47 (вижте долната таблица на фигура 9), съществува статистически значима разлика между първия и втория доставчик. Всички останали двойки имат примерни средни, което не ни позволява да говорим за тяхната разлика. Следователно средната якост на парашутите, изтъкани от влакна, закупени от първия доставчик, е значително по-малка от тази на втория.

Необходими условия за еднопосочен дисперсионен анализ

При решаването на проблема за здравината на парашутите не проверихме дали са изпълнени условията, при които може да се използва еднофакторната Е-критерий. Как да разберете дали можете да кандидатствате еднофакторно Е-критерий при анализа на конкретни експериментални данни? Единичен фактор Е-тестът може да се приложи само ако са изпълнени три основни допускания: експерименталните данни трябва да са произволни и независими, да имат нормално разпределение и техните дисперсии трябва да са еднакви.

Първото предположение е произволност и независимост на данните- винаги трябва да се прави, тъй като правилността на всеки експеримент зависи от случайността на избора и / или процеса на рандомизиране. За да се избегне изкривяване на резултатите, е необходимо данните да бъдат извлечени от спопулации на случаен принцип и независимо една от друга. По същия начин данните трябва да бъдат разпределени на случаен принцип снива на интересуващия ни фактор (експериментални групи). Нарушаването на тези условия може сериозно да изкриви резултатите от дисперсионния анализ.

Второто предположение е нормалност- означава, че данните са извлечени от нормално разпределени популации. Що се отнася до T-критерий, еднопосочен дисперсионен анализ въз основа на Е-критерият е относително нечувствителен към нарушаването на това условие. Ако разпределението не е твърде далеч от нормалното, нивото на значимост Е-критерият се променя малко, особено ако размерът на извадката е достатъчно голям. Ако условието за нормалното разпределение е сериозно нарушено, трябва да се приложи.

Третото предположение е равномерност на дисперсията- означава, че дисперсиите на всяка генерална съвкупност са равни една на друга (т.е. σ 1 2 = σ 2 2 = … = σ j 2). Това предположение позволява да се реши дали да се отделят или обединят вариациите в рамките на групата. Ако обемите на групите са еднакви, условието за хомогенност на дисперсията има малък ефект върху заключенията, получени с помощта на Е- критерии. Въпреки това, ако размерите на извадката не са еднакви, нарушаването на условието за равенство на дисперсиите може сериозно да изкриви резултатите от дисперсионния анализ. Следователно трябва да се стремим да гарантираме, че размерите на извадката са еднакви. Един от методите за проверка на предположението за хомогенност на дисперсията е критерият Левенеописани по-долу.

Ако от всичките три условия е нарушено само условието за равномерност на дисперсията, процедура, аналогична на T-критерий, използващ отделна вариация (виж подробности). Въпреки това, ако предположенията за нормално разпределение и хомогенност на дисперсията са нарушени едновременно, е необходимо да се нормализират данните и да се намалят разликите между дисперсиите или да се приложи непараметрична процедура.

Критерий на Левени за проверка на хомогенността на дисперсията

Макар че Е- критерият е относително устойчив на нарушения на условието за равенство на дисперсиите в групите, грубото нарушение на това предположение значително влияе върху нивото на значимост и мощност на критерия. Може би един от най-мощните е критерият Левене. За проверка на равенството на дисперсиите собщи популации, ще тестваме следните хипотези:

H 0: σ 1 2 = σ 2 2 = ... = σй 2

H 1: Не всички σ j 2са същите ( й = 1, 2, …, с)

Модифицираният тест на Leveney се основава на твърдението, че ако променливостта в групите е еднаква, може да се приложи анализ на дисперсията на абсолютните стойности на разликите между наблюденията и груповите медиани, за да се тества нулевата хипотеза за равенство на дисперсиите. Така че, първо трябва да изчислите абсолютните стойности на разликите между наблюденията и медианите във всяка група и след това да извършите еднопосочен дисперсионен анализ на получените абсолютни стойности на разликите. За да илюстрираме критерия Левене, нека се върнем към сценария, описан в началото на бележката. Използвайки данните, представени на фиг. 6, ще направим подобен анализ, но по отношение на модулите на разликите в изходните данни и медианите за всяка извадка поотделно (фиг. 11).

Дисперсионен анализ

Курсова работадисциплина: "Системен анализ"

Изпълнител ученик гр. 99 ISE-2 Жбанов В.В.

Оренбург Държавен университет

Факултет информационни технологии

Катедра "Приложна информатика".

Оренбург-2003

Въведение

Целта на работата: да се запознаете с такъв статистически метод като дисперсионния анализ.

Дисперсионен анализ (от латинското Dispersio - дисперсия) - статистически метод, което ви позволява да анализирате влиянието на различни фактори върху изследваната променлива. Методът е разработен от биолога Р. Фишер през 1925 г. и първоначално е бил използван за оценка на експерименти в производството на култури. По-късно става ясно общото научно значение на дисперсионния анализ за експерименти в психологията, педагогиката, медицината и др.

Целта на дисперсионния анализ е да се тества значимостта на разликата между средните стойности чрез сравняване на дисперсиите. Дисперсията на измервания атрибут се разлага на независими термини, всеки от които характеризира влиянието на определен фактор или тяхното взаимодействие. Последващото сравнение на такива термини ни позволява да оценим значимостта на всеки изследван фактор, както и тяхната комбинация /1/.

Ако нулевата хипотеза е вярна (за равенството на средните стойности в няколко групи наблюдения, избрани от общата съвкупност), оценката на дисперсията, свързана с вътрешногруповата променливост, трябва да бъде близка до оценката на междугруповата дисперсия.

При провеждане на пазарни проучвания често възниква въпросът за съпоставимостта на резултатите. Например, когато се провеждат проучвания за потреблението на определен продукт в различни региони на страната, е необходимо да се направят изводи за това как данните от проучването се различават или не се различават помежду си. Няма смисъл да се сравняват отделни показатели и следователно процедурата за сравнение и последваща оценка се извършва според някои средни стойности и отклонения от тази средна оценка. Проучва се вариацията на признака. Дисперсията може да се приеме като мярка за вариация. Дисперсията σ 2 е мярка за вариация, дефинирана като средна стойност на отклоненията на характеристика на квадрат.

В практиката често възникват задачи от по-общ характер - задачи за проверка на значимостта на разликите в средните стойности на няколко извадки. Например, необходимо е да се оцени ефектът на различните суровини върху качеството на продуктите, да се реши проблемът с ефекта на количеството торове върху добива на селскостопански продукти.

Понякога анализът на дисперсията се използва за установяване на хомогенността на няколко популации (вариациите на тези популации са еднакви по предположение; ако анализът на дисперсията показва, че математическите очаквания са еднакви, тогава популациите са хомогенни в този смисъл). Еднородните популации могат да бъдат обединени в една и по този начин да се получи по-пълна информация за нея, а оттам и по-достоверни заключения /2/.

1 Дисперсионен анализ

1.1 Основни понятия на дисперсионния анализ

В процеса на наблюдение на изследвания обект качествените фактори се променят произволно или по предварително зададен начин. Конкретно изпълнение на фактор (например специфичен температурен режим, избрано оборудване или материал) се нарича факторно ниво или метод на обработка. ANOVA модел с фиксирани нива на фактори се нарича модел I, модел със случайни фактори се нарича модел II. Чрез промяна на фактора може да се изследва ефектът му върху величината на реакцията. Понастоящем обща теорияанализ на дисперсията, разработен за модели I.

В зависимост от броя на факторите, които определят вариацията на резултантния признак, дисперсионният анализ се разделя на еднофакторен и многофакторен.

Основните схеми за организиране на първоначалните данни с два или повече фактора са:

Кръстосана класификация, характерна за модели I, при която всяко ниво на един фактор се комбинира с всяка градация на друг фактор при планиране на експеримент;

Йерархична (вложена) класификация, характерна за модел II, при която всяка произволно избрана стойност на един фактор съответства на собственото си подмножество от стойности на втория фактор.

Ако зависимостта на реакцията от качествени и количествени фактори се изследва едновременно, т.е. фактори със смесен характер, тогава се използва ковариационен анализ /3/.

По този начин тези модели се различават един от друг по начина на избор на нивата на фактора, което, очевидно, засяга преди всичко възможността за обобщаване на получените експериментални резултати. За анализ на дисперсията в еднофакторни експерименти разликата между тези два модела не е толкова значителна, но при многовариантния анализ на дисперсията може да бъде много важна.

При извършване на анализ на дисперсията трябва да бъдат изпълнени следните статистически допускания: независимо от нивото на фактора, стойностите на отговора имат нормален (гаусов) закон на разпределение и еднаква дисперсия. Това равенство на дисперсиите се нарича хомогенност. По този начин промяната на метода на обработка засяга само позицията случайна величинаотговор, който се характеризира със средна стойност или медиана. Следователно всички наблюдения на реакцията принадлежат към семейството на смяна на нормалните разпределения.

Твърди се, че техниката ANOVA е „стабилна“. Този термин, използван от статистиците, означава, че тези предположения могат да бъдат нарушени до известна степен, но въпреки това техниката може да се използва.

Когато законът за разпределение на стойностите на отговора е неизвестен, се използват непараметрични (най-често рангови) методи за анализ.

Анализът на дисперсията се основава на разделянето на дисперсията на части или компоненти. Вариацията, дължаща се на влиянието на фактора, лежащ в основата на групирането, се характеризира с междугруповата дисперсия σ 2 . Това е мярка за вариацията на частичните средни по групи

около общата средна стойност и се определя по формулата: ,

където k е броят на групите;

n j е броят на единиците в j-тата група;

- частна средна за j-та група; - общата средна за съвкупността от единици.

Вариацията, дължаща се на влиянието на други фактори, се характеризира във всяка група с вътрешногруповата дисперсия σ j 2 .

.

Между общата дисперсия σ 0 2, вътрешногруповата дисперсия σ 2 и междугруповата дисперсия

1.2 Еднопосочен дисперсионен анализ

Еднофакторният дисперсионен модел има формата:

x ij = μ + F j + ε ij , (1)

където x ij е стойността на изследваната променлива, получена на i-то нивофактор (i=1,2,...,m) c j-ти редчисло (j=1,2,...,n);

F i е ефектът от влиянието на i-то ниво на фактора;

ε ij е случаен компонент или смущение, причинено от влиянието на неконтролируеми фактори, т.е. вариация в рамките на едно ниво.

Основни предпоставки за дисперсионен анализ:

Математическото очакване на смущението ε ij е равно на нула за всяко i, т.е.

M(ε ij) = 0; (2)

Смущенията ε ij са взаимно независими;

Дисперсията на променливата x ij (или смущението ε ij) е постоянна за

всяко i, j, т.е.

D(ε ij) = σ2; (3)

Променливата x ij (или смущението ε ij) има нормален закон

разпределения N(0;σ 2).

Влиянието на факторните нива може да бъде или фиксирано, или систематично (Модел I), или произволно (Модел II).

Нека, например, е необходимо да се установи дали има значителни разлики между партиди от продукти по отношение на някакъв показател за качество, т.е. проверете влиянието върху качеството на един фактор - партида продукти. Ако всички партиди суровини са включени в изследването, тогава влиянието на нивото на такъв фактор е систематично (модел I) и констатациите са приложими само за онези отделни партиди, които са били включени в изследването. Ако включим само произволно избрана част от партиите, тогава влиянието на фактора е случайно (модел II). В многофакторните комплекси е възможен смесен модел III, при който някои фактори имат произволни нива, а други са фиксирани.

Както вече беше отбелязано, дисперсионният метод е тясно свързан със статистическите групировки и предполага, че изследваната съвкупност е разделена на групи по факторни характеристики, чието влияние следва да се изследва.

Въз основа на анализа на дисперсията се получава следното:

1. оценка на достоверността на разликите в груповите средни за една или няколко факторни характеристики;

2. оценка на надеждността на факторните взаимодействия;

3. оценка на частични разлики между двойки средни.

Прилагането на дисперсионния анализ се основава на закона за разлагане на дисперсиите (вариациите) на признак на компоненти.

Общата вариация D o на ефективния признак по време на групирането може да се разложи на следните компоненти:

1. да се групират D m свързано с групиращ признак;

2. за остатъчни(вътрешногрупово) D B , което не е свързано с функция за групиране.

Съотношението между тези показатели се изразява, както следва:

D o \u003d D m + D в. (1,30)

Нека разгледаме приложението на дисперсионния анализ на пример.

Да предположим, че искате да докажете дали времето на сеитба влияе върху добива на пшеница. Изходните експериментални данни за дисперсионен анализ са представени в табл. 8.

Таблица 8

В този пример N = 32, K = 4, l = 8.

Нека определим общата вариация на общия добив, която е сумата от квадратите на отклоненията на стойностите на отделните признаци от общата средна стойност:

където N е броят на единиците от съвкупността; Y i – индивидуални стойности на добива; Y o е общият среден добив за цялата популация.

За да се определи общата междугрупова вариация, която определя вариацията на резултантната черта поради изследвания фактор, е необходимо да се знаят средните стойности на резултантната черта за всяка група. Тази обща вариация е равна на сумата от квадратите на отклоненията на груповите средни стойности от общата средна стойност на признака, претеглени от броя на единиците на популацията във всяка от групите:

Вътрешногруповата обща вариация е равна на сумата от квадратите на отклоненията на стойностите на отделните признаци от груповите средни за всяка група, сумирани за всички групи от популацията.

Влиянието на фактора върху резултантния признак се проявява в съотношението между Dm и Dv: колкото по-силно е влиянието на фактора върху стойността на изследвания признак, толкова повече Dm и по-малко Dv.

За да се извърши дисперсионен анализ, е необходимо да се установят източниците на вариация на характеристика, количеството вариация по източник и да се определи броят на степените на свобода за всеки компонент на вариацията.

Обемът на вариация вече е установен, сега е необходимо да се определи броят на степените на свобода на вариация. Брой степени на свобода е броят на независимите отклонения на отделните стойности на характеристика от нейната средна стойност. Общ бройстепените на свобода, съответстващи на общата сума на квадратите на отклоненията в анализа на дисперсията, се разлага на компонентите на вариацията. По този начин общата сума на квадратните отклонения D о съответства на броя на степените на свобода на вариация, равна на N - 1 = 31. Груповата вариация D m ​​съответства на броя на степените на свобода на вариация, равна на K - 1 = 3. Вътрешногруповата остатъчна вариация съответства на броя на степените на свобода на вариация, равен на N - K = 28.


Сега, като знаем сумите на квадратите на отклоненията и броя на степените на свобода, можем да определим дисперсиите за всеки компонент. Нека обозначим тези вариации: dm - група и dv - вътрешногрупа.

След като изчислим тези дисперсии, пристъпваме към установяване на значимостта на влиянието на фактора върху резултантния атрибут. За да направим това, намираме съотношението: d M /d B = F f,

Стойността на F f, наречена Критерий на Фишер , в сравнение с таблицата, F таблица. Както вече беше отбелязано, ако F f > F таблица, тогава влиянието на фактора върху ефективния признак е доказано. Ако F f< F табл то можно утверждать, что различие между дисперсиями находится в пределах возможных случайных колебаний и, следовательно, не доказывает с достаточной вероятностью влияние изучаемого фактора.

Теоретичната стойност е свързана с вероятността и в таблицата нейната стойност е дадена при определено ниво на вероятност за преценка. Приложението съдържа таблица, която ви позволява да зададете възможната стойност на F с най-често използваната вероятност за преценка: нивото на вероятност на „нулевата хипотеза“ е 0,05. Вместо вероятностите на "нулевата хипотеза", таблицата може да се нарече таблица за вероятността от 0,95 от значимостта на влиянието на фактора. Увеличаването на нивото на вероятност изисква сравнение на по-висока стойност на F таблица.

Стойността на таблицата F също зависи от броя на степените на свобода на двете сравнявани дисперсии. Ако броят на степените на свобода клони към безкрайност, тогава таблицата F клони към единица.

Таблицата със стойности F таблица е конструирана по следния начин: колоните на таблицата показват степените на свобода на вариация за по-голяма вариация, а редовете показват степените на свобода за по-малка (вътрешногрупова) вариация. Стойността на F е в пресечната точка на колоната и реда на съответните степени на свобода на вариация.

Така че, в нашия пример, F f \u003d 21,3 / 3,8 \u003d 5,6. Табличната стойност на F таблица за вероятност от 0,95 и степени на свобода, съответно, равна на 3 и 28, F таблица = 2,95.

Стойността на F f, получена в експеримента, надвишава теоретичната стойност дори за вероятност от 0,99. Следователно опитът с вероятност над 0,99 доказва влиянието на изследвания фактор върху добива, т.е. опитът може да се счита за надежден, доказан, което означава, че времето на сеитба оказва значително влияние върху добива на пшеница. Оптималното време за сеитба трябва да се счита за периода от 10 до 15 май, тъй като през това време за сеитба са получени най-добрите резултати за добив.

Разгледахме метода за дисперсионен анализ при групиране по един признак и произволно разпределениеповторения в групата. Въпреки това, често се случва опитният участък да има някои разлики в плодородието на почвата и т.н. Следователно може да възникне ситуация, че по-голям брой участъци от един от вариантите попадат в най-добрата част и неговите показатели ще бъдат надценени, а друг вариант - в най-лошата част и резултатите в този случай, разбира се, ще бъдат по-лоши, т.е. подценени.

За да се изключи вариация, причинена от причини, които не са свързани с опита, е необходимо да се изолира дисперсията, изчислена от повторения (блокове) от вътрешногруповата (остатъчна) дисперсия.

Общата сума на квадратните отклонения в този случай вече е разделена на 3 компонента:

D o \u003d D m + D rep + D почивка. (1,33)

За нашия пример сумата от квадратните отклонения, причинени от повторения, ще бъде равна на:

Следователно действителната произволна сума на квадратните отклонения ще бъде равна на:

D ost \u003d D in - D rep; D почивка \u003d 106 - 44 \u003d 62.

За остатъчната дисперсия броят на степените на свобода ще бъде 28 - 7 = 21. Резултатите от дисперсионния анализ са представени в табл. 9.

Таблица 9

Тъй като действителните стойности на F-критерия за вероятност от 0,95 надвишават табличните стойности, ефектът от датите на сеитба и повторенията върху добива на пшеница трябва да се счита за значителен. Разглежданият метод за конструиране на експеримент, когато сайтът е предварително разделен на блокове с относително равни условия и тестваните опции са разпределени вътре в блока в произволен ред, се нарича метод на случайни блокове.

С помощта на дисперсионния анализ е възможно да се изследва влиянието не само на един фактор върху резултата, но на два или повече. В този случай ще се нарича дисперсионен анализ многовариантен дисперсионен анализ .

Двупосочен дисперсионен анализ се различава от двата еднофакторни по това, че то може да отговори на следните въпроси:

1. 1 Какво е влиянието на двата фактора заедно?

2. каква е ролята на комбинацията от тези фактори?

Нека разгледаме дисперсионния анализ на експеримента, при който е необходимо да се разкрие влиянието не само на датите на сеитба, но и на сортовете върху добива на пшеница (Таблица 10).

Таблица 10. Експериментални данни за влиянието на датите и сортовете на сеитба върху добива на пшеница

е сумата от квадратите на отклоненията на отделните стойности от общата средна стойност.

Вариации в комбинираното влияние на времето за сеитба и сорта

е сумата от квадратните отклонения на средните стойности на подгрупата от общата средна стойност, претеглена с броя на повторенията, т.е. с 4.

Изчисляване на вариацията само от влиянието на датите на сеитба:

Остатъчната вариация се определя като разликата между общата вариация и вариацията в комбинираното влияние на изследваните фактори:

D почивка \u003d D около - D ps \u003d 170 - 96 \u003d 74.

Всички изчисления могат да бъдат направени под формата на таблица (Таблица 11).

Таблица 11. Резултати от дисперсионния анализ

Резултатите от дисперсионния анализ показват, че влиянието на изследваните фактори, т.е. датите и сортовете на сеитба, върху добива на пшеница е значително, тъй като действителните F-критерии за всеки от факторите значително надвишават табличните, установени за съответните степени на свобода, и в същото време с доста висока вероятност (p = 0.99). Влиянието на комбинацията от фактори в този случай отсъства, тъй като факторите са независими един от друг.

Анализът на влиянието на три фактора върху резултата се извършва по същия принцип като за два фактора, само в този случай ще има три варианта за факторите и четири варианта за комбинацията от фактори. С увеличаване на броя на факторите обемът на изчислителната работа рязко се увеличава и освен това става трудно да се подреди първоначалната информация в комбинирана таблица. Следователно, едва ли е препоръчително да се изследва влиянието на много фактори върху резултата с помощта на дисперсионен анализ; по-добре е да вземете по-малък брой от тях, но да изберете най-значимите фактори от гледна точка на икономическия анализ.

Често изследователят трябва да се занимава с така наречените непропорционални дисперсионни комплекси, т.е. тези, при които не се спазва пропорционалността на броя на опциите.

В такива комплекси вариацията на общото действие на факторите не е равна на сумата от вариацията по фактори и вариацията на комбинацията от фактори. Различава се в размер в зависимост от степента на връзки между отделните фактори, възникващи в резултат на нарушаване на пропорционалността.

В този случай възникват трудности при определяне на степента на влияние на всеки фактор, тъй като сумата от отделните влияния не е равна на общото влияние.

Един от начините да се приведе непропорционален комплекс в една структура е да се замени с пропорционален комплекс, в който честотите са осреднени за групи. При такава подмяна проблемът се решава на принципа на пропорционалните комплекси.