0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Проведення однофакторного дисперсійного аналізу за допомогою STATISTICA

Однофакторный дисперсионный анализ с использованием пакета статистических программ Stata Текст научной статьи по специальности «Медицинские технологии»

Аннотация научной статьи по медицинским технологиям, автор научной работы — Унгуряну Т. Н., Гржибовский Андрей Мечиславович

В настоящей статье рассмотрены теоретические принципы применения дисперсионного анализа для сравнения трех и более независимых групп . Представлены примеры расчетов «вручную» и с помощью пакета прикладных статистических программ STATA. Особое внимание уделяется условиям, которые должны соблюдаться для применения данного метода анализа. Даются рекомендации о том, как следует представлять результаты дисперсионного анализа в научных публикациях.

Похожие книги на litres.ru

Похожие темы научных работ по медицинским технологиям , автор научной работы — Унгуряну Т. Н., Гржибовский Андрей Мечиславович

ONE-WAY ANALYSIS OF VARIANCE (ANOVA) IN STATA SOFTWARE

In the article, we have presented theoretical principles of one-way analysis of variance (ANOVA) for comparisons of three or more independent groups . Examples of the use of ANOVA with manual calculations using formulas have been given as well as algorithms of the use of ANOVA in STATA software. Special consideration has been given to the assumptions which have to be tested as well as the ways to present the results in research papers.

Текст научной работы на тему «Однофакторный дисперсионный анализ с использованием пакета статистических программ Stata»

ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ С ИСПОЛЬЗОВАНИЕМ ПАКЕТА СТАТИСТИЧЕСКИХ ПРОГРАММ STATA

© 2014 г. гТ. Н. Унгуряну, 12А. М. Гржибовский

аСеверный государственный медицинский университет, г. Архангельск 1,2Норвежский институт общественного здравоохранения, г. Осло, Норвегия

В настоящей статье рассмотрены теоретические принципы применения дисперсионного анализа для сравнения трех и более независимых групп. Представлены примеры расчетов «вручную» и с помощью пакета прикладных статистических программ STATA. Особое внимание уделяется условиям, которые должны соблюдаться для применения данного метода анализа. Даются рекомендации о том, как следует представлять результаты дисперсионного анализа в научных публикациях.

Ключевые слова: дисперсионный анализ, независимые группы, среднее арифметическое, дисперсия

Дисперсионный анализ используется для сравнения средних значений количественного признака при наличии в исследовании трех и более групп.

Дисперсионный анализ предпочтителен по сравнению с использованием множественных сравнений с помощью t-критериев, поскольку риск ошибки первого рода для многократного применения t-критериев больше, чем указанный уровень значимости (т. е. вероятность ошибки первого рода) для каждого t-критерия по отдельности. Такая ситуация называется инфляцией ошибки первого рода и может приводить к получению ложнодостоверных результатов, то есть обнаружению различий там, где их на самом деле нет. Об этом подробно рассказывалось в одном из предыдущих выпусков практикума [2].

Слово «дисперсионный» в названии указывает на то, что в процессе анализа сопоставляются дисперсии изу чаемого признака. Общая изменчивость переменной раскладывается на две составляющие — межгрупповую (факторную), обусловленную различием групп (средних значений), и внутригрупповую, обусловленную случайными (неучтенными) причинами. Чем больше частное, полученное в результате деления межгрупповой дисперсии на внутригрупповую дисперсию (F-отношение), тем больше различаются средние значения сравниваемых выборок и тем выше статистическая значимость этого различия [1]. В данной статье рассматривается только однофакторный дисперсионный анализ для независимых групп, который в зарубежной литературе называется One-way analysis of variances или One-way ANOVA. В ходе анализа проверяется нулевая гипотеза (H0) о равенстве средних значений для трех и более независимых групп.

Перед выполнением дисперсионного анализа необходимо проверить следующие условия его применения [2]:

1. Количественный тип данных.

2. Независимые выборки.

3. Нормальное распределение признака в популяциях, из которых отобраны выборки.

4. Равенство дисперсий изучаемого признака в популяциях, из которых отобраны выборки. Для проверки существенности различий дисперсий используют критерий Levene.

5. Независимые наблюдения в каждой из выборок.

Расчет. Для вычисления статистики критерия для ANOVA — отношения F — необходимо рассчитать средний квадрат отклонений между группами (межгрупповую дисперсию) и средний квадрат отклонений внутри групп (внутригрупповую дисперсию) [1].

Средний квадрат отклонений между группами (межгрупповая дисперсия):

1. Рассчитать разность между средним каждой группы и общим средним по всем группам вместе. Общее среднее нельзя вычислять как среднее групповых средних, так как в группах может быть разное количество наблюдений. Для этого необходимо сложить все значения количественной переменной по всем группам вместе и далее полученную сумму разделить на сумму наблюдений по всем группам.

2. Полученные разности возвести в квадрат.

3. Полученные значения для каждой группы умножить на число наблюдений в данной группе.

4. Выполнив описанные выше процедуры для всех групп, сложить полученные величины по всем группам вместе.

5. Полученную сумму разделить на число степеней свободы m (число групп — 1).

Средний квадрат отклонений внутри групп (внутригрупповая дисперсия):

1. Рассчитать разность каждого отдельного значения от среднего значения в своей группе.

2. Полученные разности возвести в квадрат.

3. Полученные квадраты сложить.

4. Полученную сумму разделить на число степеней свободы n (общее число наблюдений по всем группам вместе — число групп, n — m).

Далее для вычисления F-критерия находят отношение межгрупповой дисперсии к внутригруп-повой дисперсии. Эта F-статистика подчиняется F-распределению Фишера — Снедекора с (m — 1, n — m) степенями свободы соответственно в числителе и знаменателе [4]. После расчета F-критерия необходимо сравнить его значение с критическим значением, взятым из таблицы. В случае если рассчитанное значение F равно или превышает критическое значение F для заранее определенного уровня значимости (обычно 0,05), H0 отвергается и делается вывод о том, что существуют статистически значимые различия между средними значениями в популяциях, из которых извлечены выборки (р Diets = 1

Shapiro-Wilk W test for normal data

Variable Obs W V z Prob>z

Glucose 10 0.96490 0.541 -0.994 0.83993

Shapiro-Wilk W test for normal data Variable Obs W V z Prob>z Glucose 10 0.90766 1.423 0.627 0.26531

Читать еще:  Выпущено приложение Kaspersky Who Calls для борьбы с телефонными мошенниками и спамом

Shapiro-Wilk W test for normal data Variable Obs W V z Prob>z Glucose_10 0.96653 0.516 -1.067 0.85697

Рис. 2. Результаты теста Shapiro-Wilk

Для проверки условия о равенстве дисперсий изучаемого признака в популяциях, из которых отобраны выборки, следует воспользоваться тестом Levene. Для этого в меню Statistics нужно выбрать Summaries, tables, and tests Classical tests of hypothesis Robust equal variance test. В поле Variable переносится переменная Glucose, а в поле Variable defining comparison groups указывается группировочная переменная Diet.

Рис. 3. Диалоговое окно для расчета теста Levene

Как видно из рис. 4, достигнутый уровень значимости (Рг > F) для критерия Levene составил 0,121, что не позволяет отвергнуть нулевую гипотезу о равенстве дисперсий в изучаемых группах. Таким образом, все необходимые условия для применения однофакторного дисперсионного анализа выполняются.

Summary of Glucose

Diets Mean Std. Dev. Freq.

1 5.25 0.38355061 10

2 5.36 0.24585457 10

3 4.92 0.3765339 10

Total 5.18 0.38092446 30

WO = 2.2849728 df(2, 27) Pr>F = 0.1211195

W50 = 2.2105250 df(2,27) Pr>F = 0.12910155

W10 = 1.9705940 df(2,27) Pr>F = 0.15891

Рис. 4. Результаты теста Levene

Для выполнения однофакторного дисперсионного анализа в STATA [5-8] следует открыть в меню Statistics ^ Linear models and related ^ ANOVA / MANOVA ^ One-way ANOVA (рис. 5). В поле Response variable переносится зависимая переменная, средние значения которой планируется сравнить. В данном примере это переменная Glucose. В поле Factor variable помещается группировочная переменная, то есть переменная, которая используется для разделения всей выборки на группы. В данном примере это переменная Diet. Ниже в Output можно отметить галочкой Produce summary table для получения данных описательной статистики. Запуск анализа осуществляется нажатием на кнопку OK внизу диалогового окна One-way ANOVA.

Рис. 5. Диалоговое окно One-way ANOVA

Результаты применения дисперсионного анализа представлены на рис. 6. Во втором столбце представлена общая вариабельность признака (Total Sum of Squares), а также ее составляющие — межгрупповая (Between groups Sum of Squares) и внутригрупповая (Within groups Sum of Squares) вариабельность. В третьем столбце представлено количество степеней свободы (df, degrees of freedom), которое используется для расчета межгрупповой и внутригрупповой дисперсий. В четвертом столбце приведена межгрупповая, внутригрупповая и общая дисперсии. Критерий F получен путем деления 0,5320 / 0,1164 = 4,57. Достигнутый уровень статистической значимости составил 0,0195, что свидетельствует о существовании статистически значимых различий

между средними значениями в трех сравниваемых группах.

При описании полученных результатов с применением ANOVA следует указать статистику критерия К число степеней свободы (ст. св. или df) для межгрупповой и внутригрупповой дисперсий, достигнутую величину статистической значимости — р-значение, округленное до трех знаков после запятой. Необходимо отметить, что наименьшее р-значение, которое следует отразить в отчете, удовлетворяет условию р F

Between groups 1.06400014 2 0.532000072 4.57 0.0195

Within groups 3.14399984 27 0.116444439

Total 4.20799998 29 0.145103448

Рис. 6. Результаты дисперсионного анализа

Так как результаты дисперсионного анализа показали наличие статистически значимых различий между сравниваемыми группами, следующим шагом необходимо выполнить апостериорные сравнения для обнаружения, между какими группами имеются различия. Для апостериорных сравнений STATA в диалоговом окне One-way analysis of variance предлагает три критерия Bonferroni, Scheffe, Sidak (см. рис. 5). Апостериорные сравнения представляют собой попарные сравнения изучаемых групп для обнаружения различий между ними. Наиболее популярным критерием для выполнения попарных сравнений является поправка Bonferroni. Подробные рекомендации по выбору критерия для апостериорных сравнений представлены в практикуме «Анализ трех и более независимых групп количественных данных» [2]. Результаты апостериорных сравнений в STATA выглядят, как на рис. 7. В рассматриваемом примере с помощью поправки Bonferroni установлены статистически значимые различия только между 2-й и 3-й группами (р = 0,023). Если при выполнении дисперсионного анализа статистически значимые различия между группами не выявлены, то анализ завершается и попарные сравнения не проводятся.

Comparison of Glucose by Diet (Bonferroni)

Рис. 7. Результаты применения критерия Войеггош для апостериорных сравнений

В настоящей статье мы разобрали основные принципы применения однофакторного дисперсионного анализа для сравнения средних арифметических для трех и более независимых групп. Напомним, что данный метод является параметрическим, а потому может

применяться только при соблюдении ряда условий, рассмотренных выше. Если условия нормальности распределения не соблюдаются, то следует применять непараметрические критерии, например критерий Краскела — Уоллиса, который будет рассмотрен в следующем выпуске практикума.

1. Банержи А. Медицинская статистика понятным языком: вводный курс. М. : Практическая медицина, 2007. 287 с.

2. Гржибовский А. М. Анализ трех и более независимых групп количественных данных // Экология человека. 2008. № 3. С. 50-58.

3. Ланг Т. А., Сесик М. Как описывать статистику в медицине. Аннотированное руководство для авторов, редакторов, рецензентов / пер. с англ. под ред. В. П. Леонова. М. : Практическая медицина, 201 1. 480 с.

4. Петри А., Сэбин К. Наглядная медицинская статистика. М. : ГЭОТАР-Медиа, 2009. 168 с.

5. Acock A. C. Gentle Introduction to Stata. USA, Texas : Stata Press, 2006. 289 p.

6. Hamilton C. Statistics with Stata. USA, Belmont, CA : Brooks/Cole, 2006. 409 p.

7. Kohler U., Kreute F. Data Analysis Using Stata. USA, Texas : Stata Press, 2005. 378 p.

8. Rabe-Hesketh S, Everit, Brian. A Handbook of Statistical Analyses Using Stata. New York : Chapman & Hall, 2007. 352 p.

1. Banerjee A. Meditsinskaya statistika ponyatnym yazykom: vvodnyi kurs [Medical Statistics Made Clear: Introduction]. Moscow, 2007, 287 p.

2. Grjibovski A. M. Analysis of three and more independent groups of quantitative data. Ekologiya cheloveka [Human Ecology]. 2008, 3, pp.50-58. [in Russian]

3. Lang T. A. Kak opisyvat’ statistiku v meditsine [How to present statistics in medicine]. Moscow, 2011, 480 p.

4. Petrie A., Sabin K. Naglyadnaya statistika v meditsine [Medical Statistics at Glance]. Moscow, 2003, 144 p.

5. Acock A. C. Gentle Introduction to Stata. USA, Texas, Stata Press, 2006. 289 p.

6. Hamilton C. Statistics with Stata. USA, Belmont, CA, Brooks/Cole, 2006. 409 p.

7. Kohler U., Kreute F. Data Analysis Using Stata. USA, Texas, Stata Press, 2005. 378 p.

8. Rabe-Hesketh S., Everit, Brian. A Handbook of Statistical Analyses Using Stata. New York, Chapman & Hall, 2007. 352 p.

ONE-WAY ANALYSIS OF VARIANCE (ANOVA) IN STATA SOFTWARE

‘T. N. Unguryanu, ‘,2A. M. Grjibovski

1International School of Public Health, Northern State Medical University, Arkhangelsk, Russia 1,2Department of International Public Health, Norwegian Institute of Public Health, Oslo, Norway

Читать еще:  Принтер hp не сканирует что делать?

In the article, we have presented theoretical principles of one-way analysis of variance (ANOVA) for comparisons of three or more independent groups. Examples of the use of ANOVA with manual calculations using formulas have been given as well as algorithms of the use of ANOVA in STATA software. Special consideration has been given to the assumptions which have to be tested as well as the ways to present the results in research papers.

Keywords: one-way ANOVA, independent groups, variance, means

Гржибовский Андрей Мечиславович — профессор, доктор медицины, старший советник Норвежского института общественного здоровья, г. Осло, Норвегия; директор Архангельской международной школы общественного здоровья ГБОУ ВПО «Северный государственный медицинский университет» Министерства здравоохранения Российской Федерации, г. Архангельск

Адрес: Nasjonalt folkehelseinstitutt, Pb 4404 Nydalen, 0403 Oslo, Norway

Однофакторный дисперсионный анализ

Различия между значениями отдельных элементов статистической совокупности складываются под влиянием множества отдельных факторов. Степень влияния факторов на изменение величины признака неодинакова. Одни факторы в большей степени, а другие — в меньшей оказывают влияние на вариацию признака. В этой связи различают вариации систематическую и случайную (рис. 10.3).

Рис. 103. Виды вариаций

В дисперсионном анализе общая вариация подразделяется на составляющие, и производится их сравнение. Целью дисперсионного анализа является исследование влияния тех или иных факторов на изменчивость средних значений изучаемого признака. Для этого производится разложение дисперсии наблюдаемой совокупности на составляющие, порождаемые независимыми факторами.

Общая дисперсия раскладывается на факторную (межгрупповую) дисперсию, связанную с группировочным признаком, и остаточную (внутригрупповую) дисперсию, не связанную с группировочным признаком. Факторная дисперсия объясняет вариацию результативного признака под влиянием изучаемого фактора; остаточная дисперсия — вариацию результативного признака, обусловленную влиянием прочих факторов (за исключением влияния изучаемого фактора). Таким образом, дисперсионный анализ представляет собой процесс мысленного и практического разложения общей дисперсии на составные части и сопоставления между собой этих частей, что в результате позволяет исследовать влияние тех или иных факторов на изменчивость средних значений изучаемого признака.

Сущность дисперсионного анализа заключается в сопоставлении межгрупиовой и внутригрупповой дисперсий и формировании на основе этого соотношения суждения о влиянии и роли научаемого фактора. При исследовании статистической значимости различия между средними двух (или нескольких) групп сравнивают выборочные дисперсии. Фундаментальная концепция дисперсионного анализа была предложена Р. Фишером в 1920 г.

Различают дисперсионный анализ: а) однофакторный; б) двухфакторный; в) многофакторный (рис. 10.4).

Рис. 10.4. Виды дисперсионного анализа

Однофакторный дисперсионный анализ проводится на основе выделения групп изучаемого признака по одному фактору. Двухфакторный дисперсионный анализ осуществляется с использованием выделения групп изучаемого признака но двум факторам. Многофакторный дисперсионный анализ осуществляется с использованием выделения групп изучаемого признака но трем факторам и более. Процессы однофакторного, двухфакторного и многофакторного дисперсионных анализов различны. Обычно в социально-экономических исследованиях используются одно- или двухфакторные комплексы. Многофакторные комплексы можно исследовать, последовательно выделяя из статистической совокупности одно- или двухфакторные комплексы.

Таким образом, дисперсионный анализ позволяет устанавливать не только степень одновременного влияния на признак нескольких факторов и каждого в отдельности, но также их суммарное влияние в любых комбинациях и дополнительный эффект от сочетания разных факторов. При этом следует учитывать, что при исследовании может оставаться неучтенным некоторое количество факторов, однако методика дисперсионного анализа тем не менее позволяет оценить долю их влияния на общую изменчивость признака, и исследователь обычно имеет возможность выделить несколько важнейших факторов и изучать именно их воздействие на изменчивость признаков.

Необходимыми условиями применения одиофакторного дисперсионного анализа являются:

  • 1) соответствие распределения анализируемых групп генеральным совокупностям, имеющим нормальный закон распределения или близкий к нему;
  • 2) независимость (несвязанность) распределения наблюдений в группах;

3) наличие частоты (повторяемости) наблюдений.

Дисперсионный анализ целесообразно применять совместно с аналитической группировкой, когда статистические данные подразделяются на группы по значениям признака-фактора, вычисляются значения средних величин результативного признака в группах. При этом полагают, что различия в их значениях определяются различиями в значениях фактора. Осуществляется оценка существенности различий между средними значениями результативного признака в группах.

Испытуемая гипотеза заключается в том, что если данные каждой группы изучаемой статистической совокупности представляют случайную выборку из нормально распределенной генеральной совокупности, то величины всех частных дисперсий должны быть пропорциональны своим степеням свободы и каждую из них можно рассматривать как оценку генеральной дисперсии.

Испытуемая гипотеза может быть записана как гипотеза о средних величинах

Эта гипотеза является нулевой гипотезой альтернативная гипотеза (рис. 10.5)

Рис. 10.5. Формулировка гипотез в дисперсионном анализе

В дисперсионном анализе дисперсией называют сумму квадратов отклонений индивидуальных значений признака от их средней арифметической. Сначала определяют общую дисперсию, обусловленную влиянием вариации всех признаков, затем факторную и остаточную дисперсии.

Определение общей дисперсии, обусловленной влиянием на вариацию у всех признаков, производится но формуле

где г/,- — отдельные значения результативного признака; уобщ — общая средняя; / — число единиц совокупности в каждой группе.

Факторная дисперсия представляет собой сумму квадратов отклонений частных (групповых) средних от общей средней, умноженных на число единиц в каждой группе:

где уур — групповые средние значения результативного признака; г/общ — общая средняя; fi — число единиц совокупности в каждой группе.

Остаточная дисперсия (случайная) есть сумма групповых сумм квадратов отклонений всех вариант результативного признака в группах от средних значений признака в них:

Далее производится оценка достоверности влияния факторного признака на результативный. Для этого определяется число степеней свободы вариации V. Различают степени свободы факторной и остаточной дисперсий. Число степеней свободы для факторной дисперсии равно количеству групп минус единица. Эта величина показывает, что в такой выборочной совокупности (любая выборка имеет ограниченный объем) каждая варианта свободна принимать любые значения, кроме одного, определяемого разностью между суммой всех остальных вариант и объемом выборки, т.е. одна варианта не имеет степени свободы вариации. Если выборочная совокупность достаточно велика, то разница между N и Л’ — 1 несущественна, поэтому не оказывает влияния на результат расчетов. Число степеней свободы для остаточной дисперсии равно разности между количеством индивидуальных значений признака и числом групп.

Затем рассчитываются дисперсии на одну степень свободы вариации (такая дисперсия может быть обозначена как О*). В этом случае дисперсии выступают как показатели, позволяющие сравнивать группы с разной численностью. Далее осуществляется проверка правильности расчетов числа степеней свободы вариации.

Читать еще:  Не устанавливается linux mint с флешки

Отношение факторной и остаточной дисперсий, рассчитанных на одну степень свободы, позволяет определить /’-критерий:

где ?)ф — факторная дисперсия на одну степень свободы; /)* — остаточная дисперсия на одну степень свободы.

Данный /’-критерий назван в честь английского статистика Р. Фишера (1890—1969) критерием Фишера. Критерий представляет собой отношение выборочных дисперсий, которые рассматриваются как оценки одной и той же генеральной дисперсии. В числителе /’-критерия находится большая дисперсия, в знаменателе — меньшая. Минимальное значение = 1, максимальное значение ^тах —> °° .

Фишером было установлено распределение отношений дисперсий, а также разработаны специальные таблицы теоретических значений /’-критерия при двух вероятностях: 0,05 и 0,01, поэтому критические значения /’-критерия берутся из таблиц /’-распределения, /’-распределение зависит от уровня значимости и от числа степеней свободы сравниваемых дисперсий с1/< и , *асч как отношение остаточной дисперсии на одну степень свободы к факторной дисперсии на одну степень свободы:

Рис. 10.6. Принципиальная схема однофакторного дисперсионного анализа

Теоретическое значение Е-критерия в данном случае определяют при заданном уровне значимости по таблицам на пересечении строки и столбца, соответствующих двум степеням свободы дисперсий: по строке — факторной, по столбцу — остаточной. Если Трасч > /’.;а6.|, то статистическое наблюдение достоверно доказывает отсутствие влияния фактора на результативный признак.

Принципиальная схема однофакторного дисперсионного анализа представлена на рис. 10.6.

В случае выделения групп по одному фактору осуществляется однофакторный дисперсионный анализ. Разложение дисперсии при этом проводится в соответствии с правилом сложения дисперсий (см. параграф 10.1):

где у1> значение результативного признака у /-й единицы в у-й группе; г — номер единицы, г = 1, п>] — номер группы; п> численность у-й группы; г/; — средняя величина результативного признака в у-й группе; у — общая средняя результативного признака.

Обозначив суммы квадратов отклонений буквой Д получим равенство:

На основе разложения дисперсии в соответствии с гипотезой отсутствия различий между группами могут быть получены три оценки генеральной дисперсии, пропорциональные степени свободы: на основе общей вариации, межгрупповой (факторной) и внутрегрупповой (остаточной). Число степеней свободы равно:

• для общей вариации

• для межгрупповой вариации

• для внутригрупповой вариации

Числа степеней свободы связаны между собой равенством или

Деление сумм квадратов отклонений на соответствующее число степеней свободы дает три оценки генеральной дисперсии а 2 :

Поскольку Ц,)акт измеряет вариацию результативного признака, связанную с изменением фактора, по которому проведена группировка, а Вост вариацию, связанную с изменением всех прочих факторов, сравнение этих величин, рассчитанных на одну степень свободы, дает возможность оценить существенность влияния признака-фактора на результативный признак с помощью /•’-критерия.

Если Ефакх > Етабл (а, с1/2), можно утверждать, что нулевая

гипотеза не соответствует фактическим данным, влияние признака-фактора является существенным и статически значимым.

Процесс однофакторного дисперсионного анализа представлен в табл. 10.9.

Рассмотрим практическое применение однофакторного дисперсионного анализа. Анализ формирования чистой прибыли необходим как внутренним пользователям с целью определения резервов ее повышения, так и внешним пользователям для оценки организации как потенциального заемщика или делового партнера.

Проведення однофакторного дисперсійного аналізу за допомогою STATISTICA

Лекція 1. Елементи дисперсійного аналізу.

План

1. Дисперсійний аналіз являє собою статистичний метод аналізу результатів, які залежать від якісних ознак. Дисперсійний аналіз може бути використаний для вияву сукупного впливу факторів, які не можна виміряти кількісно. Сутність методу складається у тому, що загальна варіація результуючого показника поділяється на частини, які відповідають роздільному та сукупному впливу різних якісних факторів, та залишкову варіацію, яка збирає вплив всіх інших факторів. Статистичне вивчення цих частин дозволяє робити висновки про вплив того чи іншого якісного фактору на результуючий показник.

У випадку однофакторного дисперсійного аналізу вивчається наявність чи відсутність впливу на результуючий показник одного якісного фактору. У основі однофакторного дисперсійного аналізу лежить наступна теоретико- ймовірносна схема:

Yji = ai + ε ji ; j=1,… ni ; i=1, …, I

де Yji – випадкові величини, які демонструють результуючу ознаку, ai — середнє (математичне сподівання) результуючої ознаки при i -ому значені якісної ознаки, ε ji , — випадкові, нормально розподілені відхилення результуючої ознаки від середніх, ni — число спостережень при i-ому значенні якісного фактору.

— загальна кількість спостережень.

Середнє можна представити у наступному винляді:

ai = a + αi,

де a = — загальне (генеральне) середнє; αi = ai – a, i=1..I — головні ефекти фактору.

Після проведення вибіркового експерименту отримаємо І груп вибіркових значень результуючої ознаки Yji, j=1. ni,; i=1,2. I. За цією вибіркою треба перевірити правильність гіпотези Hi = 0; i=1,2, . I, або а12 = . = аI = а, тобто, що якісний фактор не впливає на результуючу ознаку.

Позначимо загальне та групове вибіркове середнє:

,

Вибіркові групові середні є незсуненими (My сер = ai), та обґрунтованими оцінками середніх аi. Якщо, згідно гіпотези H усі середні однакові, то загальне вибіркове середнє y не повинне статистично відрізнятися від групових середніх y сер i. У іншому випадку відмінність повинна бути статистично важливою.

Представимо повну суму квадратів відхилень результуючої ознаки від загального середнього у вигляді двох сум квадратів відхилень.

Квадрат подвійної суми призводе до трьох подвійних сум, які зводяться до двох, так як проміжкові сума обертається в нуль, тобто


оскільки

Із тих сум, що залишилися одна S 2 A = є сумою квадратів відхилень між групами, тобто варіація обумовлена якісним фактором, а інша S 2 R = сума квадратів відхилень усередині груп, тобто залишкова варіація, що обумовлена випадковими відхиленнями від групових середніх.

має розподіл Χ 2 з ni-1 степенями вільності, відповідно, має розподіл Χ 2 с n-I степенями вільності. При a1 = … = aI S 2 A и S 2 R незалежні та має розподіл Χ 2 с I-1 степенями вільності.

Так у випадку вірності справедливості гіпотези H F-відношення

має розподіл Фішера з І-1 та n-I степенями вільності.

Якщо гіпотеза вірна, то та є обґрунтованими оцінками одного і того ж математичного сподівання та, відповідно, близькі між собою, тому мала. Якщо гіпотеза H хибна, тобто ai різні, тому та зближаються з різними математичними сподіваннями, при цьому повинна приймати більші значення. Тобто дла перевірки слушності гіпотези H отримаємо наступний статистичний критерій: якщо , то гіпотеза приймається, у іншому випадку – вважається хибною. У цьому критерії α– помилка першого роду.

Приклад. Нехай проведено чотири види дослідів на кожному з трьох рівнів фактору F. Результати досліду занесені в таблицю 4.1. Необхідно на рівні значущості 0,05 перевірити нульову гіпотезу про рівність групових середніх (нехай вибірки взято з нормальних сукупностей з однаковими дисперсіями).

Ссылка на основную публикацию
Статьи c упоминанием слов:
Adblock
detector