Здавалка
Главная | Обратная связь

ДРУГИЕ АСПЕКТЫ ВАЛИДНОСТИ



В этой главе мы говорили о заключениях, основанных на статистических решениях. Однако мы не должны упускать из виду, что существуют и другие важные аспекты валидности. Слишком часто о валидности заключения судят, лишь учитывая надежность, которой, мы занимались в данной главе. Но мы, конечно, знаем,, что валидность этим не исчерпывается.

Внешняя валидность

Напомним прежде всего, что эксперимент может не обладать внешней валидностью по ряду причин. Эксперимент может не быть экспериментом полного соответствия из-за несоответствующего уровня другой переменной (например если бы Джек Моцарт запоминал, вальсы вместо сонат при сравнительной оценке методов заучивания). В экспериментах, которые улучшают реальный мир (например с ночными посадками самолетов), мы хотим также быть уверенными, что искусственные независимая и зависимая переменные представляют те ситуации, к которым затем будут прилагаться результаты. В экспериментах, проводимых на выборке испытуемых (с информацией о стоимости товаров), мы рассматривали вопрос, насколько хороша данная выборка представляет популяцию покупателей универсама. Анализируя конкретные способы представления экспериментальной ситуации различных схем социальной структуры (авторитарной, демократической или анархистской), мы больше всего сомневались относительно операциональной валидности этих ситуаций.. Все наши статистические решения имеют отношение к внешней валидности. Тем не менее экспериментальные выводы не могут быть до конца валидными, если они наряду с внутренней валидностью не будут обладать внешней валидностью.

Систематическое смешение

Напомним далее о рассматривавшейся в главе 2 необходимости избегать систематического процедурного смешения (такого, как эффекты последовательности) и в главе 5 — сопутствующего смешения. Мы видели, что Флинер и Кернс (1970) сделали вывод о более сильном плаче при уходе матери, чем при уходе ассистентки. Однако, как показал Коэн (1977), здесь имело место систематическое сопутствующее смешение. Ведь остававшийся человек был разным, когда уходила мать и когда уходила ассистентка. Тем самым ложится тень на внутреннюю валидность независимо от величины различия между двумя условиями. Отвержение нулевой гипотезы ничего не говорит о систематическом смешении. Экспериментальные заключения могут иметь внутреннюю валидность лишь в той степени, в какой удалось избежать систематического смешения.

Когда мы судим о валидности экспериментальных заключений на основе статистических решений (хорошо или плохо они были использованы или они вообще были неверно проигнорированы), мы должны предполагать, что все ранее рассмотренные аспекты валидности удовлетворительно реализованы. Вам следует об этом хорошо помнить или еще лучше — «зарубить себе на носу».

КРАТКОЕ ИЗЛОЖЕНИЕ

Большие различия в действии разных условий независимой переменной приводят экспериментатора к выводу о подтверждении экспериментальной гипотезы. Меньшие различия интерпретируются как случайный результат. Основанием для таких различных выводов является статистическая значимость. Более конкретно это означает, что если бы в идеальном или бесконечном эксперименте различие отсутствовало, то было бы мало вероятно получить в конкретном эксперименте большое различие, не так невероятно — меньшее различие.

В научных экспериментах — в отличие от тех, где существует только два практических исхода — возможны три заключения из экспериментальных данных. В дополнение к подтверждению экспериментальной 257или противоположной ей гипотезы возможно заключение о не подтверждении ни одной из них. Какое именно из этих трех заключений будет сделано, зависит от статистического решения относительно нуль-гипотезы.

Если бы был проведен бесконечный эксперимент и нуль-гипотеза оказалась верной, то среднее различие между условиями было бы равно нулю. Однако в отдельных конкретных экспериментах различия могут быть как в пользу одного условия, так и в пользу другого. Если различие настолько велико, что очень редко могло бы быть получено в бесконечном эксперименте, нуль-гипотеза отвергается. Однако если вероятность появления различия, подобного полученному, достаточно высока, нуль-гипотеза не отвергается. Когда нуль-гипотеза отвергается, делается вывод о подтверждении экспериментальной гипотезы (или противоположной ей гипотезы, если различие оказалось с обратным знаком). Когда нуль-гипотеза не отвергается, ни экспериментальная, ни противоположная ей гипотезы не подтверждаются. Это последнее заключение может означать одно из двух. Если данные ненадежны, заключение будет состоять в том, что действие независимой переменной просто не удалось выявить. При надежных данных экспериментатор может быть уверен, что условия не оказывают различного действия.

Величина различия между условиями, необходимая для отвержения нуль-гипотезы, определяется двумя факторами. Первое — это надежность. Чем больше надежность, тем меньше различие, допускающее отвержение. Второй фактор — вероятность того, что экспериментатор рискнет ошибочно отвергнуть нуль-гипотезу, когда она верна. Он называется альфа-уровнем правила его решения. Ошибка, которая будет увеличиваться с возрастанием этого риска, называется ошибкой I типа. Так, риск ошибки I типа в пять раз выше при альфа-уровне 0,05 по сравнению с альфа-уровнем 0,01.

Однако при уменьшении альфа-уровня увеличивается риск противоположной ошибки. Это риск не отвергнуть нуль-гипотезу, когда верна некоторая другая гипотеза (и, конечно, нуль-гипотеза ошибочна). Это называют ошибкой II типа. Для любого конкретного набора данных эта вероятность (называемая бетой) увеличивается с уменьшением альфа-уровня. Однако, увеличивая надежность эксперимента, можно найти приемлемую величину бета даже при строгом альфа-уровне. Говорят, что статистическая проверка имеет силу в той мере, в какой низка вероятность бета и в которой может быть выявлено истинное различие.

Использование строгого альфа-уровня (например, 0,01) рекомендуется в тех случаях, когда различие между условиями должно подтвердить новую гипотезу, противоречащую общепринятому мнению. Эта строгость нужна для того, чтобы не засорять науку слишком большим числом артефактов. 5 ложных утверждений из 20 — это слишком тяжелое бремя для науки. С другой стороны, если результаты показали влияние независимой переменной, его нельзя сбрасывать со счетов только потому, что различие не достигло уровня значимости 0,01.

Назначение проверок на значимость — повышение внутренней валидности. Ведь внутренняя валидность и проверка нуль-гипотезы 258могут быть описаны через бесконечный эксперимент. В бесконечном эксперименте, состоящем из множества отдельных экспериментов (таких, какие проводятся реально), общее среднее различие между условиями будет равно нулю, если верна нуль-гипотеза. Однако различия, обнаруживаемые в отдельных экспериментах, не будут равны нулю, а лишь только распределятся вокруг нуля. Экспериментатор может выяснить это распределение. Он соотнесет полученное различие с его вариабельностью, но не будет делать вывода о различии только на том основании, что много отдельных экспериментов дает достаточно большое различие.

Если же верна нуль-гипотеза, экспериментатор также хотел бы обосновать и этот вывод. Но даже чтобы иметь возможность сделать вывод о правильности какой-то другой гипотезы, экспериментатор вынужден идти на некоторый риск. Экспериментатор хочет иметь заключение о верности экспериментальной гипотезы с такой степенью обоснованности, как если бы ожидаемое различие было получено в бесконечном эксперименте. Положение, которое он в конце концов занимает между ошибками I и II типа, отражает его оценку относительной валидности обоих типов обоснованности.

На пути к окончательным выводам остаются три трудные проблемы. Первая состоит в том, что только одного значимого различия недостаточно, если ожидается сильное влияние независимой переменной. Статистическая проверка наиболее пригодна в тех случаях, когда действие исследуемого фактора «зашумлено» другими случайными факторами. Вторая проблема заключается в том, что использование слишком большого числа испытуемых обнаруживает действие определенных дополнительных факторов. Третья проблема касается универсальности результатов. Можно ли отнести выводы ко всей соответствующей популяции, если они справедливы даже не для всех исследовавшихся испытуемых? Причем не только по причине случайных изменений. Наконец, было показано, что мы не можем принять экспериментальные выводы только на основе постоянных и достаточно сильных выявленных различий между условиями. Эксперименту будет недоставать внешней валидности, если он не будет удовлетворять хотя бы одному из целого ряда условий. Более того, он не будет обладать даже внутренней валидностью, если не организовать достаточный контроль за систематическим смешением.

ВОПРОСЫ

1. Почему Флинер и Кернс заключили, что старшие дети больше плачут при уходе матери, чем при уходе ассистентки, а у младших детей такого различия нет?

2. Что такое нуль-гипотеза?

3. Почему в эксперименте Флинера и Кернса возможно третье заключение, в то время как в эксперименте 259Иоки по предпочтению сорта томатного сока только два?

4. Что показывает диаграмма, иллюстрирующая: различие между средними для каждого условия, статистическое решение и заключение об экспериментальной гипотезе?

5. Как влияет уменьшение надежности на величину различия между средними, требуемую для отвержения нуль-гипотезы?

6. Как влияет альфа-уровень в правиле решения на величину различия между средними, требуемую для отвержения нуль-гипотезы?

7. Соотнесите альфа-уровень с риском ошибок I иII типов.

8. Когда особенно важно избегать ошибки I типа?

9. Опишите три фактора, влияющие на вероятность бета. Что это означает в отношении риска ошибки II типа?

10. При каких условиях экспериментатор может заключить, что независимая переменная не оказывает действия?

11. Почему говорят, что разумное использование правила статистического решения способствует внутренней валидности?

12. Может ли быть в эксперименте слишком много испытуемых?

13. Если в эксперименте получены надежные данные и высоко значимые различия между условиями, обеспечивает ли это полностью валидность вывода?

СТАТИСТИЧЕСКОЕ ПРИЛОЖЕНИЕ: t - КРИТЕРИЙ

В данном приложении будет описан метод нахождения величины различия между средними, необходимой для отвержения нуль-гипотезы. Фактически мы будем подробно объяснять диаграммы, представленные на рис. 6.1.







©2015 arhivinfo.ru Все права принадлежат авторам размещенных материалов.