Проверка статистических гипотез
Гипотеза— это утверждение или теория, которая пытается объяснить наблюдаемое явление. В статистике сначала формулируется гипотеза, затем собираются данные и выполняется проверка. Этот порядок действий имеет очень большое значение. Если сформулировать гипотезу после сбора данных, то возникает риск искаженной проверки, потому что гипотеза может быть подогнана под данные. Для исключения такого риска гипотезу следует проверить на новом наборе данных. На этом рисунке показан классический алгоритм создания и проверки теории. Проверка гипотезы включает четыре основных элемента. 1. Формулировка нулевой гипотезы 2. Формулировка альтернативной гипотезы 3. Вычисление статистики теста. 4. Определение области непринятия гипотезы.
Нулевая гипотеза, или нуль-гипотеза (null hypothesis) Статистика теста (test statistic) — это статистика, вычисленная после анализа данных, которые используются для принятия или непринятия нулевой гипотезы. Область непринятия гипотезы (rejection region) — это набор значений статистики теста, для которых нулевая гипотеза отвергается (или принимается). Во время проверки гипотез может возникнуть два типа ошибок.
1. Ошибка первого типа заключается в отказе от нулевой гипотезы, которая на самом деле является истинной. 2. Ошибка второго типа заключается в принятии нулевой гипотезы, тогда как на самом деле истинной является альтернативная гипотеза.
Вероятность возникновения ошибки первого типа обозначается греческой буквой Вообще говоря, в статистике чаще всего возникают ошибки первого типа, потому отказ от нулевой гипотезы часто приводит к некоторым фундаментальным изменениям общепринятых представлений. В примере с новым лекарством для понижения кровяного давления неправильное принятие альтернативной гипотезы может привести к тому, что неэффективное лекарство будет прописано тысячам людей. Устранение ошибок второго типа имеет особенно большое значение при планировании статистических исследований, когда во время исследования нужно обеспечить условия обнаружения разницы между гипотезами, если таковая имеется. Анализ эффективности лекарства для понижения кровяного давления нужно проводить с достаточно большой выборкой во избежание возникновения ошибки второго типа. В статистике используется предельное значение, которое называется уровнем значимости и является самым высоким допустимым значением вероятности возникновения ошибки первого типа. Чаще всего для уровня значимости используется величина 0,05. Это значит, что вероятность ошибочного отказа от нулевой гипотезы не превышает 5%. Рассмотрим в качестве примера производство по сборке телевизоров. Согласно предварительным исследованиям, количество дефектных телевизоров в партии соответствует нормальному распределению со средним 50 и стандартным отклонением 15. Допустим, что на фабрике предлагается внедрить новый технологический процесс, который позволяет сократить количество дефектных телавизоров с экономией материалов. В результате внедрения нового технологического процесса оказалось, что после анализа выборки из 25 партий среднее количество дефектных телевизиров в партии равно 45. Можно ли на основании этих данных утверждать, что новый технологический процесс позволяет сократить количество дефектных резисторов или число 45 является результатом допустимого случайного отклонения, а внедренный технологический процесс ни на что не влияет? Итак, в данном примере есть две гипотезы: - нулевая гипотеза - альтернативная гипотеза Эти гипотезы можно сформулировать следующим образом: - нулевая гипотеза - альтернативная гипотеза ©2015 arhivinfo.ru Все права принадлежат авторам размещенных материалов.
|