Здавалка
Главная | Обратная связь

Основное правило, которое следует запомнить: о причинных связях здесь речи не идет, изменения просто связаны. Корреляция (являющаяся частью анализа) не означает причинной связи.

Множественный регрессионный анализ (МРА)

Цели МРА:

1. Моделирование отношений между X и Y;

2. Прогнозирование изменения значений целевой (зависимой) переменной;

3. Тестирование гипотез.

Формула множественной регрессии:

Y = a + b1X1 + b2X2 + bnXn + ε, где

b1 = частичный угол линии регрессии, отражающий линейную связь между первой независимой переменной (X1) и Y;

b2 = частичный угол линии регрессии, отражающий линейную связь между второй независимой переменной (X2) и Y;

bnXn = частичный угол линии регрессии, отражающий линейную связь между n независимой переменной (Xn) и Y;

ε = ошибка, т.е. неучтенные в модели факторы, влияющие на изменение зависимой переменной Y.

Допущения (требования) МРА:

1. Линейная модель должна быть приемлема.

2. Ожидаемое значение ошибок равно 0. Ошибка здесь - это все ненаблюдаемые, не включенные в модель переменные, которые влияют на оценку регрессии, ошибки измерения и пр. Если значения ошибок отклоняются от 0, это означает, что модель не включает в себя необходимые компоненты для ее оценки. Разумеется, в процессе моделирования ошибка скорее всего примет какое-то отклоняющееся от нуля значение.

3. Дисперсия ошибок постоянна и равна 0. Это допущение постоянной дисперсии называется гомоскедастичностью, а его нарушение (не постоянная дисперсия) - гетероскедастичностью. Нарушение этого допущения означает, что метод наименьших квадратов не эффективен в оценке истинных параметров модели.

4. Ошибки (остатки) не коррелированы друг с другом. Если модель плохо предсказывает значение конкретного наблюдения, то она плохо предсказывает все остальные значения.

5. Ошибки (остатки) нормально распределены. Это необходимо для того, чтобы можно было построить доверительный или прогнозный интервал, или протестировать гипотезы. Если они не распределены нормально, прогнозы будут неверными.

Нарушения этих условий приводят к неверным результатами и основной частью регрессионного анализа является их проверка посредством графиков, тестов и диагностических процедур.

По-отдельности коэффициенты в МРА не интерпретируются.

Коэффициент R2 - коэффициент детерминации - оценивает долю изменчивости в Y. Значения, близкие к 1, означают хорошую предсказательную способность предикторов для целевой переменной, а 0 - наоборот. R2 - прямое измерение того, насколько подобны наблюдаемые и подогнанные значения целевой переменной. Это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Основная проблема применения (выборочного) R2 заключается в том, что его значение увеличивается (не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют! Поэтому сравнение моделей с разным количеством факторов с помощью коэффициента детерминации, вообще говоря, некорректно.

Для того, чтобы была возможность сравнивать модели с разным числом факторов так, чтобы число регрессоров (факторов) не влияло на статистику R2 обычно используется скорректированный коэффициент детерминации (adjusted R2)

Проверка общей значимости уравнения регрессии отвечает на вопрос, любая ли переменная обеспечивает значимость прогноза для целевой переменной? Нулевая гипотеза - никакая не обеспечивает. Альтернативная гипотеза - некоторые обеспечивают.

Тест производится при помощи F-теста. Когда мы проводим анализ в Экселе, то смотрим на значимость F, т.е. вероятность того, насколько результаты случайны. Если у нас есть значимая F-статистика, то это означает, что все отобранные предикторы значимы.

1. Если значимость F меньше, чем выбранный уровень значимости (0,05), переходим к шагу 2 (если больше, то мы не можем отбросить нулевую гипотезу).

2. Исследуем индивидуальные коэффициенты регрессии (их P-значение), чтобы понять, какой из них статистически значим.

2. Проверка значимости отдельных коэффициентов отвечает на вопрос, при данных переменных в модели, обеспечивает ли прогнозную значимость какая-то конкретная переменная?

Важно: в выводе результатов в Экселе значимость F и P-значимость – одно и то же, только значимость F-статистики относится ко всей модели, а p-значимость t-статистики – к отдельным коэффициентам.

Здесь нужно сказать о двух типах ошибок, которые мы можем допустить, анализируя данные статистически:

http://www.statistica.ru/theory/oshibki-pri-proverke-gipotez-moshchnost/

Ошибка первого рода: ложное отбрасывание нулевой гипотезы, когда она верна. Например, мы ошиблись и назначили пациенту операцию, когда она не нужна (взяли, и вырезали бедолаге почку).

Ошибка второго рода: ложное принятие нулевой гипотезы, когда она неверна (пациенту нужно было вырезать почку, но мы решили, что он здоров. В результате пациент помер).

Соответственно, уровень значимости (F-значимость и p-значимость) – это оценка вероятности ошибки первого рода, т.е. ложного отбрасывания нулевой гипотезы. Если значимость теста больше 0,05, то это означает, что вероятность ложного отбрасывания нулевой гипотезы об отсутствии связи слишком высока (более пяти процентов). Это неудовлетворительный результат и мы не можем его принять.

Проверка допущений

1. График остатков vs подобранные значения. Никакой явной структуры на графике быть не должно. Соответственно, если структура прослеживается, у нас проблемы.

Остаток – это разница между наблюдаемым значением зависимой переменной (y) и прогнозируемым (предсказанным) значением зависимой переменной (обозначается (ŷ). Каждое значение имеет один остаток.

Остаток = Наблюдаемое значение – Предсказанное значение.

e = y - ŷ

Сумма всех остатков должна равняться 0. Среднее этих остатков тоже должно равняться 0 (т.е. соответствовать нормальному распределению).

Для оценки нужно построить график остатков и рассмотреть, как распределены значения на этом графике.

Random pattern – остатки случайно распределены. Модель приемлема. На остальных рисунках остатки ненормально распределены, модель неприемлема.

Еще пример, когда остатки ненормально распределены:

 

В общем и целом, при анализе графика остатков мы должны обращать внимание на ситуации, когда:

а) Точка или несколько точек, изолированные наверху или внизу графика, слева или справа. В добавок, бывает, что остальные точки имеют заметный "наклон" к этим изолированным точкам. Изолированные точки являются необычными и могут оказывать сильное воздействие на регрессию. Их нужно анализировать и, по возможности, убирать из данных.

б) Различная высота облаков точек на графике, исследуемом слева на право. Это означает потенциальную гетероскедастичность.

2. График нормального распределения остатков. Он показывает нормальность распределения остатков, размещая наблюдаемые упорядоченные остатки на одной оси и ожидаемые (при допущении нормальности) значения упорядоченных остатков на другой. График должен выглядеть как прямая линия. Изолированные точки представляют необычные наблюдения, кривая линия показывает, что ошибки, возможно, не распределены нормально, а тесты и интервалы не внушают доверия.

Пример:

Штат Убийства на 100 тыс. населения Население в тыс. Процент неграмотных Доход в тыс. на душу населения в месяц Морозность (число дней с температурой ниже нуля в столице или самом крупном городе штата
Alabama 15,1 2,1
Alaska 11,3 1,5
Arizona 7,8 1,8
Arkansas 10,1 1,9
California 10,3 1,1
Colorado 6,8 0,7
Connecticut 3,1 1,1
Delaware 6,2 0,9
Florida 10,7 1,3
Georgia 13,9
Hawaii 6,2 1,9
Idaho 5,3 0,6
Illinois 10,3 0,9
Indiana 7,1 0,7
Iowa 2,3 0,5
Kansas 4,5 0,6
Kentucky 10,6 1,6
Louisiana 13,2 2,8
Maine 2,7 0,7
Maryland 8,5 0,9
Massachusetts 3,3 1,1
Michigan 11,1 0,9
Minnesota 2,3 0,6
Mississippi 12,5 2,4
Missouri 9,3 0,8
Montana 0,6
Nebraska 2,9 0,6
Nevada 11,5 0,5
New Hampshire 3,3 0,7
New Jersey 5,2 1,1
New Mexico 9,7 2,2
New York 10,9 1,4
North Carolina 11,1 1,8
North Dakota 1,4 0,8
Ohio 7,4 0,8
Oklahoma 6,4 1,1
Oregon 4,2 0,6
Pennsylvania 6,1
Rhode Island 2,4 1,3
South Carolina 11,6 2,3
South Dakota 1,7 0,5
Tennessee 1,7
Texas 12,2 2,2
Utah 4,5 0,6
Vermont 5,5 0,6
Virginia 9,5 1,4
Washington 4,3 0,6
West Virginia 6,7 1,4
Wisconsin 0,7
Wyoming 6,9 0,6

 

Предположим, нас интересует, от чего зависит изменение числа убийств. Зависимая переменная Y, т.о., убийства. Остальные переменные будут предикторами.

Шаг 1. Корреляционный анализ.

Убийства Население Процент неграмотных Доход Морозность
Убийства (Y)        
Население (X1) 0,343642751      
Процент неграмотных (X2) 0,702975199 0,107622373    
Доход (X3) -0,23007761 0,208227557 -0,437075186  
Морозность (X4) -0,538883437 -0,332152454 -0,671946968 0,226282

 

Разумеется, простого расчета коэффициентов корреляции недостаточно. Нужен график распределения значений. В экселе придется делать все отдельно. Нас интересует связь между зависимой и независимыми переменными, поэтому строим графики переменной Y и каждой переменной X. Названия осей на графике придется добавлять вручную. При этом следует обратить внимание на то, чтобы значения независимой переменной X находились на оси X на графике.

 

 

 

Пытаемся понять, что же мы тут на графиках увидели в плане того, насколько можно доверять числовым значениям коэффициентов корреляции. Напоминаю, что доверять мы им можем только если на графиках точки примерно распределены вокруг прямой и не наблюдается выбросов.

Шаг 2. Все то же самое, что и в простой линейной регрессии: оцениваем значимость полученных коэффициентов, анализируем полученные значения формулы.

Шаг 3. Проверка допущений.

А) нормальность распределения остатков. Остатки содержатся в соответствующем столбце

Строим точечный график упорядоченных остатков

 

Б) Смотрим графики остатков по каждой переменной.

В) Затем проверяем данные на предмет наличия мультиколлинеарности (коррелированности ошибок между собой). Для этого нужно рассчитать матрицу корреляции и проанализировать ее значения.

Убийства Население Процент неграмотных Доход Морозность
Убийства (Y)        
Население (X1) 0,343642751      
Процент неграмотных (X2) 0,702975199 0,107622373    
Доход (X3) -0,23007761 0,208227557 -0,437075186  
Морозность (X4) -0,538883437 -0,332152454 -0,671946968 0,226282

 

Если предикторы коррелированы между собой на значения меньше 0,5, то это приемлемая ситуация. Если корреляция между предикторами выше этих значений, это неприемлемая ситуация и какая-то из этих переменных должна быть убрана из анализа.

На самом деле, корреляция должна рассчитываться не между значениями предикторов, но между остатками этих предикторов (строго говоря, рассчитывать корреляцию между предикторами, а не между остатками – неправильно, но мы будем следовать за содержанием множества учебников, в которых предлагается рассматривать связи между предикторами).

Шаг 4. Стандартизация уравнения

Если наши независимые переменные измеряются в разных единицах измерения (а в нашем примере у нас разные единицы измерения), то для оценки того, насколько сильно каждая независимая переменная оказывает воздействие на зависимую переменную, использовать данную формулу мы не можем (потому как получится, что мы сравниваем апельсины с яблоками).

Для того, чтобы сравнивать эффекты воздействия независимых переменных, мы должны привести их к общей единице измерения, т.е. стандартизировать. Для этого используются z-оценки:


Где xi – конкретное значение предиктора;

x-с-чертой – среднее значение предиктора;

sx – стандартное отклонение предиктора;

Стандартизированные частичные углы наклона линии регрессии (b) называются бета-весами (b*).

Бета-веса показывают степень изменения в стандартизированных оценках переменной Y для изменения на одну единицу в стандартизированных оценках каждой независимой переменной при контроле эффектов всех других независимых переменных.

Формула:

Zy = az + Z1 + Z2, где

Z означает, что все значения были стандартизированы.

Не стандартизированное уравнение множественной регрессии позволяет спрогнозировать значение зависимой переменной Y по значениям независимых переменных в исходных единицах измерения.

Стандартизированное уравнение множественной регрессии позволяет оценить относительную важность влияния различных независимых переменных путем сравнивания их бета-весов.

Стандартизация уравнения обязательна для выполнения задания. Каждый предиктор стандартизируется. Также, стандартизируется зависимая переменная.

Стандартизацию нужно провести самостоятельно, это не сложно (смотрим на формулу, проводим в Экселе соответствующие расчеты, а затем проводим регрессионный анализ стандартизированных коэффициентов). Выводы, разумеется, должны быть (что было сделано, зачем, что получилось).

Наборы данных берем из прошлого задания.

 

 





©2015 arhivinfo.ru Все права принадлежат авторам размещенных материалов.