Пример применения однофакторного дисперсионного анализа

Сравним цены на гостинцы одного класса по 4 городам : Москве, Сант-Петербургу , Алматы, Астане. (Данные представлены в приложении). Таким образом, нулевая гипотеза H₀ – средняя цена проживания в одноместном номере отелях одного класса одинакова в разных городах, альтернативная гипотеза H₁ - средняя цена проживания в отелях одного класса неодинакова в разных городах (данные –гипотетические в условных ед)

Результаты дисперсионного анализа, произведенного в Excel показаны в таблицах:.

ИТОГИ
Группы	Счет	Сумма	Среднее	Дисп
Санкт-Пб			135,375	1771,13
Алматы			135,375	980,839
Москва			198,125	1649,55
Астана			151,375	3414,84
Дисперсионный анализ (ANOVA)	)
Источник вариации	SS	df	MS	F	P-Знач	F крит
Между группами	21145,38		7048,458	3,607	0,02549	2,94669
Внутри групп	54714,5		1954,089
Итого	75859,88

Анализ таблицы « Дисперсионный анализ» показывает, что межгрупповая сумма квадратов большая, это уже говорит о том, что средние цены проживания различны по городам. Столбец MS = сумме квадратов/степени свободы, т.е. эти величины можно рассматривать как дисперсии. Первое значение 7048,458 -это дисперсия цен между городами, а второе1954,089 – это дисперсия цен в одном городе. Так как изменчивость цен в разных городах выше изменчивости в одном городе, можно предположить, что средняя стоимость проживания в разных городах -различна. Для проверки этого предположения сравним вычисленное отношение двух дисперсий, согласно нулевой гипотезе оно должно удовлетворять F –распределению с степенями свободы межгрупповой дисперсии ( 3 - столбец df, равно число групп -1) и степенями своды внутригрупповой дисперсии (это 28 = степени свободы для общей суммы (число наблюдений-1 =31) - 3 (степенями свободы межгрупповой дисперсии). По таблице вычисленное F=3,607. F(3,28) = 2,95. F> F(3,28), p –значение = 0,025<0,05 Таким образом, можно опровергнуть нулевую гипотезу и принять альтернативную, что средние цены проживания в отелях одного класса разные в разных городах.

Дисперсионный анализ как особая форма анализа регрессии

Дисперсионный анализ можно представить как особую форму анализа регрессии, но с дискретными, а не с непрерывными предикторами. С помощью этой аналогии можно получить дополнительное представление о данных, но для этого нужно переформулировать модель.:

y=m_I+e

Способ выражения взаимосвязи средних можно представить собой модель влияния (effects model):у =m +a_i +e,

где m— среднее; a—влияние i-й группы;e-случайная ошибка, удовлетворяющая нормальному распределению со средним 0 и дисперсией s².

Допустим, имеются данные, разбитые на четыре группы. Каждая группа содержит данные об одном объекте, поэтому согласно модели влияния у нас имеется среднее mи четыре члена: а₁, а₂, а₃ и а_4.Однако в данном случае возникает проблема перепараметризации (overparametrizet model), поскольку модель содержит пять неизвестных параметров при наличии только четырех известных средних. В результате уравнению модели влияния удовлетворяет бесконечное множество решений. Для исправления этого недостатка обычно сокращают количество параметров одним из двух способов. Первый заключается в ограничении значений членов влияния a_i, так, чтобы их сумма равнялась нулю. Второй состоит в задании нулевого значения для одного из членов влияния

Для выполнения дисперсионного анализа с помощью анализа регрессии можно создать переменные-индикаторы для данных. Переменные-индикаторы (indicator variables) принимают значения 1 или 0 в зависимости от того, относятся данные к определенной группе или нет. Например, можно создать переменную-индикатор, которая принимает значение 1, если наблюдение относится к определенному объекту , или значение 0, если наблюдение не относится к этому объекту.

Затем для построения регрессионной модели, выражающей зависимость среднего значения от индикаторных переменных, используется процедура «Регрессия» из меню Сервис, Анализ данных

Двухфакторный дисперсионный анализ с помощью инструментов Excel

В однофакторном дисперсионном анализе сравнивается несколько групп, связанных с одной категориальной переменной или фактором. В двухфакторном дисперсионном анализе (two-way analysis of variance) сравнивается несколько групп, связанных двумя категориальными переменными. Например, агронома может заинтересовали влияние калия и азота на урожай риса, Выше рассматривалось уравнение модели средних для однофакторного дисперсионного анализа. Для двухфакторного дисперсионного анализа также можно применить аналогичное уравнение модели средних:

у_ijk =m_ij+e_ijk , (1)

где у_ijk — переменная отклика; m_ij — среднее на i-м уровне одного фактора и на уровне другого фактора. Для каждой комбинации двух факторов может быть несколько наблюдений, которые называются повторениями (replicates). Кроме того, e_ijk-случайная ошибка на i-м уровне одного фактора и j-м уровне другого факторе k-го повторения, удовлетворяющая нормальному распределению со средним s². Обычно для двухфакторного дисперсионного анализа применяется следующая модель влияния

у_ijk = m+ α _I+b_j + g_ij +e_ijk , (2)

где: у_ij- переменная отклика; m- общее среднее; α _I–влияние i обработки; b_j- влияние j обработки; g_ij- степень взаимодействия двух факторов, т.е. степень их взаимного влияния. Например, разные средства массовой информации могут по - разному или одинаково влиять на объем продаж рекламируемого товара.. Если увеличение объема продаж не зависит от средств массовой информации, то взаимодействие факторов равно 0, в противном случае есть взаимодействие.

B модуле Анализ данных программы Ехсеl предусмотрено два инструмента двухфакторного дисперсионного анализа. Один предназначен для анализа данных без повторов комбинаций факторов, а другой - с повторами. Количество повторов во всех ячейках должно быть одинаковым, данные с одинаковым количеством повторов называются сбалансированными. Для того, чтобы использовать для двухфакторного анализа инструмент модуля Анализ данных программы Ехсе1, нужно представить данные в виде двухфакторной таблицы (two-way наЫе), Т.е. данные должны быть отформатированы таким образом, что значения первого фактора располагаются по столбцам, a значения второго фактора Повторы занимают последовательно расположенные строки.

Чтобы осуществить двухфакторный дисперсионный анализ с повторами, выполните перечисленные ниже действия:

1. Выберите в меню Сервис, Анализ данных процедуру Двухфакторный дисперсионный анализ с повторениями , а затем щелкните по кнопке ОК

2. В диалоговом окне «Двухфакторный дисперсионный анализ с повторениями» введите диапазон в поле «Входной интервал»

3. В поле «Число строк» вводится число повторов

4. В поле Параметры вывода укажите область вывода

5. Щелкните по кнопке ОК

⇐ Предыдущая 18 19 20 21 222324 25 26 27 Следующая ⇒