Односторонний дисперсионный анализ. Грипп вызывает повышенную выработку гистамина

ДИСПЕРСИОННЫЙ АНАЛИЗ

в математической статистике - статистический метод, предназначенный для выявления влияния отдельных факторов на результат эксперимента, а также для последующего планирования аналогичных экспериментов. Первоначально Д. а. был предложен Р. Фишером для обработки результатов агрономич. опытов по выявлению условий, при к-рых испытываемый сорт сельскохозяйственной культуры дает максимальный урожай. Современные приложения Д. а. охватывают широкий задач экономики, социологии, биологии и техники и трактуются обычно в терминах статистич. теории выявления систематич. различий между результатами непосредственных измерений, выполненных при тех пли иных меняющихся условиях.

Если значения неизвестных постоянных a 1 , ... , a I могут быть измерены с помощью различных методов или измерительных средств М 1 ,. .., M J , и в каждом случае систематич. ошибка b ij может, вообще говоря, зависеть как от выбранного метода Mj, так и от неизвестного измеряемого значения а i , то результаты таких измерений представляют собой суммы вида

где К- количество независимых измерений неизвестной величины а i методом M j , a у ijk - случайная ошибка k-го измерения величины а i методом M j (предполагается, что все y ijk - независимые одинаково распределенные случайные величины, имеющие нулевое математич. ожидание: Е у ijk =0). Такая линейная наз. двухфакторной схемой Д. а.; первый - истинное значение измеряемой величины, второй - метод измерения, причем в данном случае для каждой возможной комбинации значений первого и второго факторов осуществляется одинаковое количество Кнезависимых измерений (это допущение для целей Д. а. не является существенным и введено здесь лишь ради простоты изложения).

Примером подобной ситуации могут служить спортивные соревнования I спортсменов, мастерство к-рых оценивается J судьями, причем каждый участник соревнований выступает Краз (имеет К"попыток"). В этом случае а i - истинное значение показателя мастерства спортсмена с номером i, b ij - систематич. ошибка, вносимая в оценку мастерства i -го спортсмена судьей с номером j, x ijk - оценка, выставленная j -м судьей г-му спортсмену после выполнений последним k-й попытки, а y ijk - соответствующая случайная . Подобная типична для так наз. субъективной экспертизы качества нескольких объектов, осуществляемой группой независимых экспертов. Другой пример - статистич. исследование урожайности сельскохозяйственной культуры в зависимости от одного из J сортов почвы и J методов ее обработки, причем для каждого сорта г почвы и каждого метода обработки с номером J осуществляется kнезависимых экспериментов (в этом примере b ij - истинное значение урожайности для г-го сорта почвы при j-м способе обработки, x ijk - соответствующая экспериментально наблюдаемая урожайность в k-м опыте, а y ijk - ее случайная ошибка, возникающая из-за тех или иных случайных причин; что же касается величин а i , то в агрономич. опытах их разумно считать равными нулю).

Положим c ij =a i +b ij , и пусть с i *, с *j и с ** - результаты осреднений с ij по соответствующим индексам, т. е.

Пусть, кроме того, a=c ** , b i = с i* - с ** , g j = с *j -с ** и d ij = с ij - с i* - с *j +c ** . Идея Д. а. основана на очевидном тождестве

Если символом (c ij )обозначить размерности IJ , получаемый из матрицы ||с ij || порядка IXJ с помощью какого-либо заранее фиксированного способа упорядочивания ее элементов, то (1) можно записать в виде равенства где все векторы имеют IJ , причем a ij =a, b ij =b i , g ij =g j . Так как четыре вектора в правой части (2) ортогональны, то a ij =a - наилучшее приближение функции c ij от аргументов i и j постоянной величиной [в смысле минимальности суммы квадратов отклонений ]. В том же смысле a ij +b ij =a+b i - наилучшее c ij функцией, зависящей лишь от i, a ij +g ij =a+g j - наилучшее приближение c ij функцией, зависящей лишь от j, a a ij +b ij +g ij =a+b i +g j - наилучшее приближение c ij суммой функций, из к-рых одна (напр., a+b i ) зависит лишь от г, а другая - лишь от j. Этот факт, установленный Р. Фишером (см. ) в 1918, позднее послужил основой теории квадратичных приближений функций.

В примере, связанном со спортивными соревнованиями, d ij выражает "взаимодействие" г-го спортсмена и j-го судьи (положительное значение б/у означает "подсуживание", т. с. систематич. завышение /-м судьей оценки мастерства i-го спортсмена, а отрицательное значение б/у означает "засуживание", т. е. систематич. снижение оценки). Равенство всех б/у нулю - необходимое требование, к-рое надлежит предъявлять к работе группы экспертов. В случае же агрономич. опытов такое равенство рассматривается как гипотеза, подлежащая проверке по результатам экспериментов, поскольку основная цель здесь - отыскание таких значений i и j, при к-рых функция (1) достигает максимального значения. Если эта гипотеза верна, то

и значит, выявление наилучших "почвы" и "обработки" может быть осуществлено раздельно, что приводит к существенному сокращению числа экспериментов (напр., можно при каком-либо одном способе обработки испытать все Iсортов "почвы" и определить наилучший сорт, а затем на этом сорте опробовать все J способов "обработки" и найти наилучший способ; общее количество экспериментов с повторениями будет равно (I+J) К). Если же гипотеза {все d ij =0} неверна, то для определения max c ij необходим описанный выше "полный план", требующий при Кповторениях IJК экспериментов.

В ситуации спортивных соревнований функция g ij =g j может трактоваться как систематич. ошибка, допускаемая j-м судьей по отношению ко всем спортсменам. В конечном счете g j - характеристика "строгости" или "либеральности" j-го судьи. В идеале хотелось бы, чтобы все g j были нулевыми, но в реальных условиях приходится мириться с наличием ненулевых значений g j и учитывать это обстоятельство при подведении итогов экспертизы (напр., за основу сравнения мастерства спортсменов можно принять не последовательности истинных значений a+b 1 +g j , ..., a+b I +g j , a лишь результаты упорядочиваний этих чисел по их величине, поскольку при всех j=1, . . . , J такие упорядочивания будут одинаковыми). Наконец, сумма двух оставшихся функций a ij +b ij =a+b i зависит лишь от iи поэтому может быть использована для характеризации мастерства г-го спортсмена. Однако здесь нужно помнить, что Поэтому упорядочивание всех спортсменов по значениям a+b i (или по a+ + b i +g j при каждом фиксированном j) может не совпадать с упорядочиванием по значениям a i . При практической обработке экспертных оценок этим обстоятельством приходится пренебрегать, так как Упомянутый полный план экспериментов не позволяет оценивать отдельно a i и b i* . Таким образом, a+b i =a i + b i* характеризует не только мастерство i -го спортсмена, но и в той или иной мере экспертов к этому мастерству. Поэтому, напр., результаты субъективных экспертных оценок, осуществленных в разное время (в частности, на нескольких Олимпийских играх), едва ли можно считать сопоставимыми. В случае же агрономич. опытов подобные трудности не возникают, поскольку все a i =0 и значит, a+b i =b i* .

Истинные значения функций a, b i , g i и d ij неизвестны и выражаются в терминах неизвестных функций c ij . Поэтому первый этап Д. а. заключается в отыскании статистич. оценок для c ij по результатам наблюдений x ijk .Несмещенная и имеющая минимальную дисперсию для c ij выражается формулой

Так как a, b i , g j и d ij - линейные функции от элементов матрицы ||c ij ||, то несмещенные линейные оценки для этих функций, имеющие минимальную дисперсию, получаются в результате замены аргументов c ij соответствующими оценками, c ij , т. е. причем случайные векторы и определенные так же, как введенные выше (a ij ), (b ij ), (g ij ). и (d ij ), обладают свойством ортогональности, и значит, они представляют собой некоррелированные случайные векторы (иными словами, любые две компоненты, принадлежащие разным векторам, имеют нулевой корреляции). Кроме того, любая вида

некоррелирована с любой из компонент этих четырех векторов. Рассмотрим пять совокупностей случайных величин {x ijk }, {x ijk -x ij* }, Так как

то дисперсии эмпирич. распределений, соответствующих указанным совокупностям, выражаются формулами

Эти эмпирич. дисперсии представляют собой суммы квадратов случайных величин, любые две из к-рых некоррелированы, если только они принадлежат разным суммам; при этом относительно всех y ijk справедливо тождество

объясняющее происхождение термина "Д. а."" Пусть и пусть

в таком случае

где s 2 - дисперсия случайных ошибок y ijk .

На основе этих формул и строится второй этап Д. а., посвященный выявлению влияния первого и второго факторов на результаты эксперимента (в агрономич. опытах первый фактор - сорт "почвы", второй - способ "обработки"). Напр., если требуется проверить гипотезу отсутствия "взаимодействия" факторов, к-рая выражается равенствомто разумно вычислить дисперсионное отношение s 2 3 /s 2 0 = F 3 . Если это отношение значимо отличается от единицы, то проверяемая гипотеза отвергается. Точно так же для проверки гипотезы полезно отношение s 2 2 /s 2 0 = F 2 , к-рое надлежит также сравнить с единицей; если при этом известно, чтото вместо F 2 целесообразно сравнить с единицей отношение

Аналогичным образом можно построить статистику, позволяющую дать заключение о справедливости или ложности гипотезы

Точный смысл понятия значимого отличия указанных отношений от единицы может быть определен лишь с учетом закона распределения случайных ошибок y ijk . В Д. а. наиболее обстоятельно изучена ситуация, в к-рой все y ijk распределены нормально. В этом случае - независимые случайные векторы, а - независимые случайные величины, причем

отношения подчиняются нецентральным распределениям хи-квадрат с f m степенями свободы и параметрами нецентральности l т, m =0, 1, 2, 3, где

Если параметр нецентральности равен нулю, то нецентральное хи-квадрат совпадает с обычным распределением хи-квадрат. Поэтому в случае справедливости гипотезы l 3 =0 отношение подчиняется F-распре делению (распределению дисперсионного отношения) с параметрами f 3 и f 0 . Пусть х- такое число, для к-рого события {F 3 >x} равна заданному значению е, называемому уровнем значимости (таблицы функции х= х (e; f 3 , f 0) имеются в большинстве пособий по математич. статистике). Критерием для проверки гипотезы l 3 =0 служит правило, согласно к-рому эта гипотеза отвергается, если наблюдаемое значение F 3 превышает х;в противном случае гипотеза считается не противоречащей результатам наблюдений. Аналогичным образом конструируются критерии, основанные на статистиках F 2 и F* 2 .

Дальнейшие этапы Д. а. существенно зависят не только от реального содержания конкретной задачи, но также и от результатов статистич. проверки гипотез на втором этапе. Напр., в условиях агрономич. опытов справедливость гипотезы l 3 =0, как указано выше, позволяет более экономно спланировать аналогичные дальнейшие эксперименты (если помимо гипотезы l 3 =0 справедлива также и гипотеза l 2 =0, то это означает, что урожайность зависит лишь от сорта "почвы", и поэтому в дальнейших опытах можно воспользоваться схемой однофакторного Д. а.); если же гипотеза l 3 =0 отвергается, то разумно проверить, нет ли в данной задаче неучтенного третьего фактора? Если сорта "почвы" и способы ее "обработки" варьировались не в одном и том же месте, а в различных географич. зонах, то таким фактором могут быть климатич. или географич. условия, и "обработка" наблюдений потребует применения трехфакторного Д. а.

В случае экспертных оценок статистически подтвержденная справедливость гипотезы l 3 = 0 дает основание для упорядочивания сравниваемых объектов (напр., спортсменов) по значениям величин i=l, . .. , I.

Если же гипотеза l 3 =0 отвергается (в задаче о спортивных соревнованиях это означает статистич. обнаружение "взаимодействия" нек-рых спортсменов и судей), то естественно попытаться перевычнслить все результаты заново, предварительно исключив из рассмотрения x ijk с такими парами индексов (i, j ), для к-рых абсолютные значения статистич. оценок d ij превышают нек-рый заранее установленный допустимый уровень. Это означает, что из матрицы ||x ij* || вычеркиваются нек-рые элементы, и значит, план Д. а. становится неполным.

Модели современного Д. а. охватывают широкий круг реальных экспериментальных схем (напр., схемы неполных планов, со случайно или неслучайно отобранными элементами x ij* ). Соответствующие этим схемам статистич. выводы во многих случаях находятся в стадии разработки. В частности, еще (к 1978) далеки от окончательного решения те задачи, в к-рых результаты наблюдений x ijk =c ij +y ijk не являются одинаково распределенными случайными величинами; еще более трудная задача возникает в случае зависимости величин x ijk . Неизвестно проблемы выбора факторов (даже в линейном случае). Суть этой проблемы заключается в следующем: пусть с=с ( и, v )- и пусть u=u (z, w u=u (z, w )- какие-либо линейные функции от переменных г и w. Фиксируя значения z 1 , . .., z I и w 1 , . . ., w J , можно при каждом заданном выборе линейных функций ии u. определить c ij формулой и построить Д. а. этих величин по результатам соответствующих наблюдений x ijk . Проблема заключается в отыскании таких линейных функций u и u, к-рым соответствует минимальное значение суммы квадратов

где (предполагается, что функция с( и, v )неизвестна). В терминах Д. а. эта проблема сводится к статистич. отысканию таких факторов z=z (u, v w-w (u, v ), к-рым соответствует "наименьшее взаимодействие".

Лит. : Fisher R. A., Statistical methods for research workers, Edinburgh, 1925; Шеффе Г., Дисперсионный анализ, пер. с англ., М., 1963; Xальд А., Математическая с техническими приложениями, пер. с англ., М., 1956; Снедекор Д ж. У., Статистические методы в применении к исследованиям в сельском хозяйстве и биологии, пер. с англ., М., 1961.

Л. Н. Большее.


Математическая энциклопедия. - М.: Советская энциклопедия . И. М. Виноградов . 1977-1985 .

Смотреть что такое "ДИСПЕРСИОННЫЙ АНАЛИЗ" в других словарях:

    Метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях. В литературе также встречается обозначение ANOVA (от англ. ANalysis Of… … Википедия

    - (analysis of variance) Статистический метод, основанный на разложении общей дисперсии (variance) какой либо характеристики населения на составные части, коррелирующие с другими характеристиками, и остаточную вариацию (residual variation). В… … Экономический словарь

    Один из методов математической статистики, применяемый для анализа результатов наблюдений, зависящих от различных, одновременно действующих факторов, к рые не поддаются, как правило, количеств. описанию. Рассмотрим простейшую из задач Д. а. Пусть … Физическая энциклопедия

    Дисперсионный анализ - раздел математической статистики, посвященный методам выявления влияния отдельных факторов на результат эксперимента (физического, производственного, экономического эксперимента). Д.а. возник как средство обработки результатов… … Экономико-математический словарь

    дисперсионный анализ - — дисперсионный анализ Раздел математической статистики, посвященный методам выявления влияния отдельных факторов на результат эксперимента (физического, производственного,… … Справочник технического переводчика

Результаты проведения опытов и испытаний могут зависеть от некоторых факторов, влияющих на изменчивость средних значений случайной величины . Значения факторов называют уровнями факторов, а величину называют результативным признаком. Например, объем выполненных на стройке работ может зависеть от работающей бригады. В этом случае номер бригады является уровнем фактора, а объем работ за смену - результативным признаком.

Метод дисперсионного анализа , или ANOVA (Analysis of Variance - дисперсионный анализ), служит для исследования статистической значимости различия между средними при трех и более выборках (уровнях фактора). Для сравнения средних в двух выборках используется t -критерий .

Процедура сравнения средних называется дисперсионным анализом, так как при исследовании статистической значимости различия между средними нескольких групп наблюдений проводится анализ выборочных дисперсий. Фундаментальная концепция дисперсионного анализа была предложена Фишером .

Сущность метода состоит в разделении общей дисперсии на две части, одна из которых обусловлена случайной ошибкой (то есть внутригрупповой изменчивостью), а вторая связана с различием средних значений. Последняя компонента дисперсии затем используется для анализа статистической значимости различия между средними значениями. Если это различие значимо, нулевая гипотеза отвергается и принимается альтернативная гипотеза о существовании различия между средними.

Переменные, значения которых определяется с помощью измерений в ходе эксперимента (например, экономическая эффективность, урожайность, результат тестирования), называются зависимыми переменными или признаками. Переменные, которыми можно управлять при проведении эксперимента (например, уровень управления, тип почвы, методы обучения) называются факторами или независимыми переменными.

В классическом дисперсионном анализе полагается, что исследуемые величины имеют нормальное распределение с постоянной дисперсией и средними значениями, которые могут отличаться для разных выборочных совокупностей. В качестве критерия проверки нулевых гипотез используется отношение дисперсии групповых средних и остаточной дисперсии. Однако было показано, что дисперсионный анализ справедлив и для негауссовских случайных величин, причем при объеме выборок для каждого уровня фактора n > 4 погрешность невысока. Если требуется высокая точность выводов, а распределение неизвестно, то следует использовать непараметрические критерии, например, использовать ранговый дисперсионный анализ.

Однофакторный дисперсионный анализ

Пусть проводится m групп измерений значений случайной величины Y при различных уровнях значения некоторого фактора, и a 1 , a 2 , a m - математическое ожидание результативного признака при уровнях фактора A (1) , A (2) , A (m) (i =1, 2, m ) соответственно.


Предположение о независимости результативного признака от фактора сводится к проверке нулевой гипотезы о равенстве групповых математических ожиданий

H 0: a 1 = a 2 = a m (6.12)

Проверка гипотезы возможна при соблюдении следующих требований для каждого уровня фактора:

1) наблюдения независимы и проводятся в одинаковых условиях;

2) измеряемая случайная величина имеет нормальный закон распределения с постоянной для различных уровней фактора генеральной дисперсией σ 2 . То есть справедлива гипотеза

H 0: σ 1 2 = σ 2 2 = σ m 2 .

Для проверки гипотезы о равенстве дисперсий трех и более нормальных распределений применяется критерий Бартлета.

Если гипотеза H 0: σ 1 2 = σ 2 2 = σ m 2 подтверждается, то приступают к проверке гипотезы о равенстве групповых математических ожиданий H 0: a 1 = a 2 = a m , то есть собственно к дисперсионному анализу. В основе дисперсионного анализа лежит положение, что изменчивость результативного признака вызвана как изменением уровней фактора А, так и изменчивостью значений случайных неконтролируемых факторов. Случайные факторы называются остаточными.

Можно доказать, что общая выборочная дисперсия может быть представлена в виде суммы дисперсии групповых средних и средней из групповых дисперсий

, где

Общая дисперсия выборки;

Дисперсия групповых средних (), рассчитанных для каждого уровня фактора;

Средняя по групповым дисперсиям (), рассчитанным для каждого уровня фактора. связана с влиянием на Y остаточных (случайных) факторов.

Перейдя от разложения для генеральной дисперсии к выборочным значениям, получим

, (6.13)

Представляет собой взвешенную сумму квадратов отклонений выборочных средних по каждому уровню A (i) от общего выборочного среднего,

Среднее значение квадратов отклонений внутри уровней.

Случайные величины , , имеют следующие значения для степеней свобод соответственно: n - 1, m - 1, n - m . Здесь n - общее число выборочных значений, m - число уровней фактора.

В математической статистике доказывается, что если нулевая гипотеза о равенстве средних (10.8) верна, то величина

имеет F -распределение с числом степеней свободы k = m - 1 и l = n- m , то есть

(6.14)

При выполнении нулевой гипотезы внутригрупповая дисперсия будет практически совпадать с общей дисперсией, подсчитанной без учета групповой принадлежности. В дисперсионном анализе, как правило, числитель в больше знаменателя. В противном случае считается, что наблюдения не подтверждают влияние фактора на результирующий признак и дальнейший анализ не проводится. Полученные внутригрупповые дисперсии можно сравнить с помощью F -критерия, проверяющего, действительно ли отношение дисперсий значимо больше 1.

В связи с этим для проверки гипотезы (6.12) с помощью F -критерия анализируется правосторонняя критическая область .

Если рассчитанное значение F попадает в указанный интервал, то нулевая гипотеза отвергается, и считается установленным влияние фактора А на результативный признак Y .

Приведем пример расчета сумм квадратов и выборочных дисперсий. Рассмотрим набор данных, представленный в таблице 6.2. В данном примере требуется определить, есть ли значимое различие в производительности бригад.

Таблица 6.2. Пример расчета сумм квадратов

Дисперсионный анализ - это статистический метод, предназначенный для оценки влияния различных факторов на результат эксперимента, а также для последующего планирования аналогичного эксперимента. Этот метод позволяет сравнивать несколько (более двух) выборок по признаку, измеренному в метрической шкале. Общепринятое сокращенное обозначение дисперсионного анализа ANOVA (от англ. ANalysis Of VAriance).

Создателем дисперсионного анализа является выдающийся английский исследователь Рональд Фишер, заложивший основы современной статистики.

Основной целью данного метода является исследование значимости различия между средними. Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности это связано с тем, что при исследовании статистической значимости различия между средними двух (или нескольких) групп, мы на самом деле сравниваем (то есть анализируем) выборочные дисперсии. Возможно, более естественным был бы термин анализ суммы квадратов или анализ вариации, но в силу традиции употребляется термин дисперсионный анализ.

Переменные, значения которых определяются с помощью измерений в ходе эксперимента (например, балл, набранный при тестировании), называются зависимыми переменными. Переменные, которыми можно управлять при проведении эксперимента (например, методы обучения или другие критерии, позволяющие разделить наблюдения на группы или классифицировать), называются факторами или независимыми переменными.

По числу факторов, влияние которых исследуется, различают однофакторный и многофакторный дисперсионный анализ. Мы будем рассматривать однофакторный дисперсионный анализ.

Основные допущения дисперсионного анализа:

  • 1) распределение зависимой переменной для каждой группы фактора соответствует нормальному закону (нарушение данного предположения, как показали многочисленные исследования, не оказывает существенного влияния на результаты дисперсионного анализа);
  • 2) дисперсии выборок, соответствующих разным градациям фактора, равны между собой (данное допущение имеет существенное значение для результатов дисперсионного анализа в том случае, если сравниваемые выборки отличаются по численности);
  • 3) выборки, соответствующие градациям фактора, должны быть независимы (выполнение данного допущения является обязательным в любом случае). Независимыми называются выборки, в которых объекты исследования набирались независимо друг от друга, то есть вероятность отбора любого испытуемого одной выборки не зависит от отбора любого из испытуемых другой выборки. Напротив, зависимые выборки характеризуются тем, что каждому испытуемому одной выборки поставлен в соответствие по определенному критерию испытуемый из другой выборки (типичный пример зависимых выборок - измерение свойства на одной и той же выборке до и после проведения методики. В этом случае выборки зависимы, поскольку состоят из одних и тех же испытуемых. Еще один пример зависимых выборок: мужья - одна выборка, их жены - другая выборка).

Алгоритм выполнения дисперсионного анализа:

  • 1. Выдвигаем гипотезу Н 0 - нет влияния группирующего фактора на результат.
  • 2. Находим межгрупповую (факторную) и внутригрупповую (оста- точную) дисперсии (й фтт и D ocm).
  • 3. Рассчитываем наблюдаемое значение критерия Фишера - Снедекора:

4. По таблице критических точек распределения Фишера - Снедекора или с помощью стандартной функции MS Excel «ЕРАСПОБР» находим

где: а - заданный уровень значимости, к х и к 2 - число степеней свободы факторной и остаточной дисперсии соответственно.

5. Если F Ha6ji > F Kp , то гипотеза Я 0 отвергается. Это значит, что есть влияние группирующего фактора на результат.

Если F Ha6jl F Kp , то гипотеза # 0 принимается. Это значит, что нет влияния группирующего фактора на результат.

Таким образом, дисперсионный анализ призван установить, оказывает ли существенное влияние некоторый фактор F , который имеет р уровней: F x , F 2 ,..., F p , на изучаемую величину.

  • Гмурман В.Е. Теория вероятностей и математическая статистика. С. 467.

В практической деятельности врачей при проведении медико-биологических, социологических и экспериментальных исследований возникает необходимость установить влияние факторов на результаты изучения состояния здоровья населения, при оценке профессиональной деятельности, эффективности нововведений.

Существует ряд статистических методов, позволяющих определить силу, направление, закономерности влияния факторов на результат в генеральной или выборочной совокупностях (расчет критерия I, корреляционный анализ, регрессия, Χ 2 - (критерий согласия Пирсона и др.). Дисперсионный анализ был разработан и предложен английским ученым, математиком и генетиком Рональдом Фишером в 20-х годах XX века.

Дисперсионный анализ чаще используют в научно-практических исследованиях общественного здоровья и здравоохранения для изучения влияния одного или нескольких факторов на результативный признак. Он основан на принципе "отражения разнообразий значений факторного(ых) на разнообразии значений результативного признака" и устанавливает силу влияния фактора(ов) в выборочных совокупностях.

Сущность метода дисперсионного анализа заключается в измерении отдельных дисперсий (общая, факториальная, остаточная), и дальнейшем определении силы (доли) влияния изучаемых факторов (оценки роли каждого из факторов, либо их совместного влияния) на результативный(е) признак(и).

Дисперсионный анализ - это статистический метод оценки связи между факторными и результативным признаками в различных группах, отобранный случайным образом, основанный на определении различий (разнообразия) значений признаков. В основе дисперсионного анализа лежит анализ отклонений всех единиц исследуемой совокупности от среднего арифметического. В качестве меры отклонений берется дисперсия (В)- средний квадрат отклонений. Отклонения, вызываемые воздействием факторного признака (фактора) сравниваются с величиной отклонений, вызываемых случайными обстоятельствами. Если отклонения, вызываемые факторным признаком, более существенны, чем случайные отклонения, то считается, что фактор оказывает существенное влияние на результативный признак.

Для того, чтобы вычислить дисперсию значения отклонений каждой варианты (каждого зарегистрированного числового значения признака) от среднего арифметического возводят в квадрат. Тем самым избавляются от отрицательных знаков. Затем эти отклонения (разности) суммируют и делят на число наблюдений, т.е. усредняют отклонения. Таким образом, получают значения дисперсий.

Важным методическим значением для применения дисперсионного анализа является правильное формирование выборки. В зависимости от поставленной цели и задач выборочные группы могут формироваться случайным образом независимо друг от друга (контрольная и экспериментальная группы для изучения некоторого показателя, например, влияние высокого артериального давления на развитие инсульта). Такие выборки называются независимыми.

Нередко результаты воздействия факторов исследуются у одной и той же выборочной группы (например, у одних и тех же пациентов) до и после воздействия (лечение, профилактика, реабилитационные мероприятия), такие выборки называются зависимыми.

Дисперсионный анализ, в котором проверяется влияние одного фактора, называется однофакторным (одномерный анализ). При изучении влияния более чем одного фактора используют многофакторный дисперсионный анализ (многомерный анализ).

Факторные признаки - это те признаки, которые влияют на изучаемое явление.
Результативные признаки - это те признаки, которые изменяются под влиянием факторных признаков.

Для проведения дисперсионного анализа могут использоваться как качественные (пол, профессия), так и количественные признаки (число инъекций, больных в палате, число койко-дней).

Методы дисперсионного анализа:

  1. Метод по Фишеру (Fisher) - критерий F (значения F см. в приложении N 1);
    Метод применяется в однофакторном дисперсионном анализе, когда совокупная дисперсия всех наблюдаемых значений раскладывается на дисперсию внутри отдельных групп и дисперсию между группами.
  2. Метод "общей линейной модели".
    В его основе лежит корреляционный или регрессионный анализ, применяемый в многофакторном анализе.

Обычно в медико-биологических исследованиях используются только однофакторные, максимум двухфакторные дисперсионные комплексы. Многофакторные комплексы можно исследовать, последовательно анализируя одно- или двухфакторные комплексы, выделяемые из всей наблюдаемой совокупности.

Условия применения дисперсионного анализа:

  1. Задачей исследования является определение силы влияния одного (до 3) факторов на результат или определение силы совместного влияния различных факторов (пол и возраст, физическая активность и питание и т.д.).
  2. Изучаемые факторы должны быть независимые (несвязанные) между собой. Например, нельзя изучать совместное влияние стажа работы и возраста, роста и веса детей и т.д. на заболеваемость населения.
  3. Подбор групп для исследования проводится рандомизированно (случайный отбор). Организация дисперсионного комплекса с выполнением принципа случайности отбора вариантов называется рандомизацией (перев. с англ. - random), т.е. выбранные наугад.
  4. Можно применять как количественные, так и качественные (атрибутивные) признаки.

При проведении однофакторного дисперсионного анализа рекомендуется (необходимое условие применения):

  1. Нормальность распределения анализируемых групп или соответствие выборочных групп генеральным совокупностям с нормальным распределением.
  2. Независимость (не связанность) распределения наблюдений в группах.
  3. Наличие частоты (повторность) наблюдений.

Нормальность распределения определяется кривой Гаусса (Де Мавура), которую можно описать функцией у = f(х), так как она относится к числу законов распределения, используемых для приближенного описания явлений, которые носят случайный, вероятностный характер. Предмет медико-биологических исследований - явления вероятностного характера, нормальное распределение в таких исследованиях встречается весьма часто.

Принцип применения метода дисперсионного анализа

Сначала формулируется нулевая гипотеза, то есть предполагается, что исследуемые факторы не оказывают никакого влияния на значения результативного признака и полученные различия случайны.

Затем определяем, какова вероятность получить наблюдаемые (или более сильные) различия при условии справедливости нулевой гипотезы.

Если эта вероятность мала*, то мы отвергаем нулевую гипотезу и заключаем, что результаты исследования статистически значимы. Это еще не означает, что доказано действие именно изучаемых факторов (это вопрос, прежде всего, планирования исследования), но все же маловероятно, что результат обусловлен случайностью.
__________________________________
* Максимальную приемлемую вероятность отвергнуть верную нулевую гипотезу называют уровнем значимости и обозначают α = 0,05.

При выполнении всех условий применения дисперсионного анализа, разложение общей дисперсии математически выглядит следующим образом:

D oбщ. = D факт + D ост. ,

D oбщ. - общая дисперсия наблюдаемых значений (вариант), характеризуется разбросом вариант от общего среднего. Измеряет вариацию признака во всей совокупности под влиянием всех факторов, обусловивших эту вариацию. Общее разнообразие складывается из межгруппового и внутригруппового;

D факт - факторная (межгрупповая) дисперсия, характеризуется различием средних в каждой группе и зависит от влияния исследуемого фактора, по которому дифференцируется каждая группа. Например, в группах различных по этиологическому фактору клинического течения пневмонии средний уровень проведенного койко-дня неодинаков - наблюдается межгрупповое разнообразие.

D ост. - остаточная (внутригрупповая) дисперсия, которая характеризует рассеяние вариант внутри групп. Отражает случайную вариацию, т.е. часть вариации, происходящую под влиянием неуточненных факторов и не зависящую от признака - фактора, положенного в основание группировки. Вариация изучаемого признака зависит от силы влияния каких-то неучтенных случайных факторов, как от организованных (заданных исследователем), так и от случайных (неизвестных) факторов.

Поэтому общая вариация (дисперсия) слагается из вариации, вызванной организованными (заданными) факторами, называемыми факториальной вариацией и неорганизованными факторами, т.е. остаточной вариацией (случайной, неизвестной).

Классический дисперсионный анализ проводится по следующим этапам:

  1. Построение дисперсионного комплекса.
  2. Вычисление средних квадратов отклонений.
  3. Вычисление дисперсии.
  4. Сравнение факторной и остаточной дисперсий.
  5. Оценка результатов с помощью теоретических значений распределения Фишера-Снедекора (приложение N 1).

АЛГОРИТМ ПРОВЕДЕНИЯ ДИСПЕРСИОННОГО АНАЛИЗА ПО УПРОЩЕННОМУ ВАРИАНТУ

Алгоритм проведения дисперсионного анализа по упрощенному способу позволяет получить те же результаты, но расчеты выполняются значительно проще:

I этап. Построение дисперсионного комплекса

Построение дисперсионного комплекса означает построение таблицы, в которой были бы четко разграничены факторы, результативный признак и подбор наблюдений (больных) в каждую группу.

Однофакторный комплекс состоит из нескольких градаций одного фактора (А). Градации - это выборки из разных генеральных совокупностей (А1, А2, АЗ).

Двухфакторный комплекс - состоит из нескольких градаций двух факторов в комбинации между собой. Этиологические факторы заболеваемостью пневмонией те же (А1, А2, АЗ) в сочетании с разными формами клинического течения пневмонии (Н1 - острое, Н2 - хроническое).

Результативный признак (количество койко-дней в среднем) Этиологические факторы развития пневмоний
А1 А2 А3
Н1 Н2 Н1 Н2 Н1 Н2
М = 14 дней

II этап. Вычисление общей средней (М обш)

Вычисление суммы вариант по каждой градации факторов: Σ Vj = V 1 + V 2 + V 3

Вычисление общей суммы вариант (Σ V общ) по всем градациям факторного признака: Σ V общ = Σ Vj 1 + Σ Vj 2 + Σ Vj 3

Вычисление средней групповой (М гр.) факторного признака: М гр. = Σ Vj / N,
где N - сумма числа наблюдений по всем градациям факторного I признака (Σn по группам).

III этап. Расчет дисперсий:

При соблюдении всех условий применения дисперсионного анализа математическая формула выглядит следующим образом:

D oбщ. = D факт + D ост.

D oбщ. - общая дисперсия, характеризуется разбросом вариант (наблюдаемых значений) от общего среднего;
D факт. - факторная (межгрупповая) дисперсия, характеризует разброс групповых средних от общего среднего;
D ост. - остаточная (внутригрупповая) дисперсия, характеризует рассеяние вариант внутри групп.

  1. Вычисление факториальной дисперсии (D факт.): D факт. = Σ h - H
  2. Вычисление h проводится по формуле: h = (Σ Vj) / N
  3. Вычисление Н проводится по формуле: H = (Σ V) 2 / N
  4. Вычисление остаточной дисперсии: D ост. = (Σ V) 2 - Σ h
  5. Вычисление общей дисперсии: D oбщ. = (Σ V) 2 - Σ H

IV этап. Расчет основного показателя силы влияния изучаемого фактора Показатель силы влияния (η 2) факторного признака на результат определяется долей факториальной дисперсии (D факт.) в общей дисперсии (D oбщ.), η 2 (эта) - показывает какую долю занимает влияние изучаемого фактора среди всех других факторов и определяется по формуле:

V этап. Определение достоверности результатов исследования методом Фишера проводят по формуле:


F - критерий Фишера;
F st. - табличное значение (см.приложение 1).
σ 2 факт, σ 2 ост. - факториальная и остаточная девиаты (от лат. de - от, via - дорога) - отклонение от средней линии, определяются по формулам:


r - число градаций факторного признака.

Сравнение критерия Фишера (F) со стандартным (табличным) F проводят по графам таблицы с учетом степеней свободы:

v 1 = n - 1
v 2 = N - 1

По горизонтали определяют v 1 по вертикали - v 2 , на их пересечении определяют табличное значение F, где верхнее табличное значение р ≥ 0,05, а нижнее соответствует р > 0,01, и сравнивают с вычисленным критерием F. Если значение вычисленного критерия F равно или больше табличного, то результаты достоверны и Н 0 не отвергается.

Условие задачи:

На предприятии Н. повысился уровень травматизма в связи с чем врач провел исследование отдельных факторов, среди которых изучался стаж работы работающих в цехах. Выборки сделаны на предприятии Н. из 4 цехов с близкими условиями и характером труда. Уровни травматизма рассчитаны на 100 работающих за прошлый год.

При исследовании фактора рабочего стажа получены следующие данные:

На основании данных проведённого исследования была выдвинута нулевая гипотеза (Н 0) о влиянии стажа работы на уровень травматизма работников предприятия А.

Задание
Подтвердите или опровергните нулевую гипотезу методом одно-факторного дисперсионного анализа:

  1. определите силу влияния;
  2. оцените достоверность влияния фактор.

Этапы применения дисперсионного анализа
для определения влияния фактора (стажа работы) на результат (уровень травматизма)

Вывод. В выборочном комплексе выявлено, что сила влияния стажа работы на уровень травматизма составляет 80% в общем числе других факторов. Для всех цехов завода можно с вероятностью 99,7% (13,3 > 8,7) утверждать, что стаж работы влияет на уровень травматизма.

Таким образом, нулевая гипотеза (Н 0) не отвергается и влияние стажа работы на уровень травматизма в цехах завода А считается доказанным.

Значение F (критерий Фишера) стандартного при р ≥ 0,05 (верхнее значение) при р ≥ 0,01 (нижнее значение)

1 2 3 4 5 6 7 8 9 10 11
6 6,0
13,4
5,1
10,9
4,8
9,8
4,5
9,2
4,4
8,8
4,3
8,5
4,2
8,3
4,1
8,1
4,1
8,0
4,1
7,9
4,0
7,8
7 5,6
12,3
4,7
9,6
4,4
8,5
4,1
7,9
4,0
7,5
3,9
7,2
3,8
7,0
3,7
6,8
3,7
6,7
3,6
6,6
3,6
6,5
8 5,3
11,3
4,6
8,7
4,1
7,6
3,8
7,0
3,7
6,6
3,6
6,4
3,5
6,2
3,4
6,0
3,4
5,9
3,3
5,8
3,1
5,7
9 5,1
10,6
4,3
8,0
3,6
7,0
3,6
6,4
3,5
6,1
3,4
5,8
3,3
5,6
3,2
5,5
3,2
5,4
3,1
5,3
3,1
5,2
10 5,0
10,0
4,1
7,9
3,7
6,6
3,5
6,0
3,3
5,6
3,2
5,4
3,1
5,2
3,1
5,1
3,0
5,0
2,9
4,5
2,9
4,8
11 4,8
9,7
4,0
7,2
3,6
6,2
3,6
5,7
3,2
5,3
3,1
5,1
3,0
4,9
3,0
4,7
2,9
4,6
2,9
4,5
2,8
4,5
12 4,8
9,3
3,9
6,9
3,5
6,0
3,3
5,4
3,1
5,1
3,0
4,7
2,9
4,7
2,9
4,5
2,8
4,4
2,8
4,3
2,7
4,2
13 4,7
9,1
3,8
6,7
3,4
5,7
3,2
5,2
3,0
4,9
2,9
4,6
2,8
4,4
2,8
4,3
2,7
4,2
2,7
4,1
2,6
4,0
14 4,6
8,9
3,7
6,5
3,3
5,6
3,1
5,0
3,0
4,7
2,9
4,5
2,8
4,3
2,7
4,1
2,7
4,0
2,6
3,9
2,6
3,9
15 4,5
8,7
3,7
6,4
3,3
5,4
3,1
4,9
2,9
4,6
2,8
4,3
2,7
4,1
2,6
4,0
2,6
3,9
2,5
3,8
2,5
3,7
16 4,5
8,5
3,6
6,2
3,2
5,3
3,0
4,8
2,9
4,4
2,7
4,2
2,7
4,0
2,6
3,9
2,5
3,8
2,5
3,7
2,5
3,6
17 4,5
8,4
3,6
6,1
3,2
5,2
3,0
4,7
2,8
4,3
2,7
4,1
2,6
3,9
2,6
3,8
2,5
3,8
2,5
3,6
2,4
3,5
18 4,4
8,3
3,5
6,0
3,2
5,1
2,9
4,6
2,8
4,2
2,7
4,0
2,6
3,8
2,5
3,7
2,7
3,6
2,4
3,6
3,4
3,5
19 4,4
8,2
3,5
5,9
3,1
5,0
2,9
4,5
2,7
4,2
2,6
3,9
2,5
3,8
2,5
3,6
2,4
3,5
2,4
3,4
2,3
3,4
20 4,3
8,1
3,5
5,8
3,1
4,9
2,9
4,4
2,7
4,1
2,6
3,9
2,5
3,7
2,4
3,6
2,4
3,4
2,3
3,4
2,3
3,3

  1. Власов В.В. Эпидемиология. - М.: ГЭОТАР-МЕД, 2004. 464 с.
  2. Архипова ГЛ., Лаврова И.Г., Трошина И.М. Некоторые современные методы статистического анализа в медицине. - М.: Метроснаб, 1971. - 75 с.
  3. Зайцев В.М., Лифляндский В.Г., Маринкин В.И. Прикладная медицинская статистика. - СПб.: ООО "Издательство ФОЛИАНТ", 2003. - 432 с.
  4. Платонов А.Е. Статистический анализ в медицине и биологии: задачи, терминология, логика, компьютерные методы. - М.: Издательство РАМН, 2000. - 52 с.
  5. Плохинский Н.А. Биометрия. - Издательство Сибирского отделения АН СССР Новосибирск. - 1961. - 364 с.

Дисперсионный анализ

1. Понятие дисперсионного анализа

Дисперсионный анализ -это анализ изменчивости признака под влиянием каких-либо контролируемых переменных факторов. В зарубежной литературе дисперсионный анализ часто обозначается как ANOVA, что переводится как анализ вариативности (Analysis of Variance).

Задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака вычленить вариативность иного рода:

а) вариативность обусловленную действием каждой из исследуемых независимых переменных;

б) вариативность, обусловленную взаимодействием исследуемых независимых переменных;

в) случайную вариативность, обусловленную всеми другими неизвестными переменными.

Вариативность, обусловленная действием исследуемых переменных и их взаимодействием, соотносится со случайной вариативностью. Показателем этого соотношения является критерий F Фишера.

В формулу расчета критерия F входят оценки дисперсий, то есть параметров распределения признака, поэтому критерий F является параметрическим критерием.

Чем в большей степени вариативность признака обусловлена исследуемыми переменными (факторами) или их взаимодействием, тем выше эмпирические значения критерия .

Нулевая гипотеза в дисперсионном анализе будет гласить, что средние величины исследуемого результативного признака во всех гра­дациях одинаковы.

Альтернативная гипотеза будет утверждать, что средние вели­чины результативного признака в разных градациях исследуемого фак­тора различны.

Дисперсионный анализ позволяет нам констатировать изменение признака, но при этом не указывает направление этих изменений.

начнем рассмотрение дисперсионного анализа с простей­шего случая, когда исследуется действие только одной переменной (одного фактора).

2. Однофакторный дисперсионный анализ для несвязан­ных выборок

2.1. Назначение метода

Метод однофакторного дисперсионного анализа применяется в тех случаях, когда исследуются изменения результативного признака под влиянием изменяющихся условий или градаций какого-либо фактора. В данном варианте метода влиянию каждой из градаций фактора подвер­гаются разные выборки испытуемых. Градаций фактора должно быть не менее трех. (Градаций может быть и две, но в этом случае мы не сможем установить нели­нейных зависимостей и более разумным представляется использование более про­стых).

Непараметрическим вариантом этого вида анализа является критерий Н Крускала-Уоллиса.

Гипотезы

H 0: Различия между градациями фактора (разными условиями) являются не более выраженными, чем случайные различия внутри каждой группы.

H 1: Различия между градациями фактора (разными условиями) являются более выраженными, чем случайные различия внутри каждой группы.

2.2. Ограничения метода однофакторного дисперсионного анали­за для несвязанных выборок

1. Однофакторный дисперсионный анализ требует не менее трех града­ций фактора и не менее двух испытуемых в каждой градации.

2. Результативный признак должен быть нормально распределен в ис­следуемой выборке.

Правда, обычно не указывается, идет ли речь о распределении признака во всей обследованной выборке или в той ее части, которая составляет дисперсионный комплекс.

3. Пример решения задачи методом однофакторного дисперсионного анализа для несвязанных выборок на примере:

Три различные группы из шести испытуемых получили списки из десяти слов. Первой группе слова предъявлялись с низкой скоростью -1 слово в 5 секунд, второй группе со средней скоростью - 1 слово в 2 секунды, и третьей группе с большой скоростью - 1 слово в секунду. Было предсказано, что показатели воспроизведения будут зависеть от скорости предъявления слов. Результаты представлены в Табл. 1.

Количество воспроизведенных слов Таблица 1

№ испытуемого

низкая скорость

средняя скорость

высокая скорость

Общая сумма

H 0: Различия в объеме воспроизведения слов между группами являются не более выраженными, чем случайные различия внутри каждой группы.

H 1: Различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы. Используя экспериментальные значения, представленные в Табл. 1, установим некоторые величины, которые будут необходимы для расчета критерия F.

Расчет основных величин для однофакторного дисперсионного анализа представим в таблице:

Таблица 2

Таблица 3

Последовательность операций в однофакторном дисперсионном анализе для несвязанных выборок

Часто встречающееся в этой и последующих таблицах обозначе­ние SS - сокращение от "суммы квадратов" (sum of squares). Это со­кращение чаще всего используется в переводных источниках.

SS факт означает вариативность признака, обусловленную действи­ем исследуемого фактора;

SS общ - общую вариативность признака;

S CA -вариативность, обусловленную неучтенными факторами, "случайную" или "остаточную" вариативность.

MS - "средний квадрат", или математическое ожидание суммы квадратов, усредненная величина соответствующих SS.

df - число степеней свободы, которое при рассмотрении непара­метрических критериев мы обозначили греческой буквой v .

Вывод: H 0 отклоняется. Принимается H 1 . Различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы (α=0,05). Итак, скорость предъявления слов влияет на объем их воспроизведения.

Пример решения задачи в Excel представлен ниже:

Исходные данные:

Используя команду: Сервис->Анализ данных->Однофакторный дисперсионный анализ, получим следующие результаты: