Здавалка
Главная | Обратная связь

Тема: ОСНОВЫ ДИСКРИМИНАНТНОГО АНАЛИЗА

 

Дискриминантный анализ является статистическим методом, который позволяет изучать различия между двумя и более группами объектов по нескольким переменным.

Цель анализа служит для дискриминации, т. е. различения (дифференциации) и диагностирования (распознавания) биологических объектов и явлений, отличия между которыми неочевидны.

Использование дискириминантного анализа:

в медицине - для идентификации заболевания по ряду показателей (характерных симптомов);

а в биологии - для установления групп повой принадлежности отдельных особей (объектов).

Этот метод часто бывает полезен в социальных науках.

Есть и другие области применения дискриминантного анализа: тестирование при приеме на работу, анализ переписи населения, психологические тесты для детей, изучение эффекта от какого-либо метода лечения, исследование экономических различий между географическими районами. предсказание итогов голосования и др. Основным предположением дискриминантного анализа является то, что существуют две или более группы, которые по некоторым переменным отличаются от других групп, причем такие переменные могут быть измерены по интервальной шкале либо по шкале отношений, дискриминантный анализ помогает выявлять различия между группами и дает возможность классифицировать объекты по принципу максимального сходства.

Использование дискриминантного анализа, основные положения.

Во-первых, объекты (наблюдения) должны принадлежать одному из двух (или более) классов (групп). Объекты являются основными единицами анализа. Объектами изучения могут быть люди, животные, страны, экономика в различные моменты времени и вообще все, что угодно. Класс должен быть определен таким образом, чтобы каждое наблюдение принадлежало одному и только одному классу.

В практических задачах допускаются объекты, которые нельзя отнести ни к какой группе. Например, иногда определенное число наблюдений не удается идентифицировать либо по какой-то причине откладывается анализ этих наблюдений. Такие объекты будут классифицироваться позже, на основе математических функций, полученных из анализа наблюдений с «известной» принадлежностью.

Метод, относящийся к классификации, связан с получением одной иди нескольких функций, обеспечивающих возможность отнести данный объект к одной из групп. Эти функции, называемые дискриминантными, зависят от значений характеристик таким образом, что появляется возможность отнести каждый объект к одной из групп.

Характеристики, применяемые для того, чтобы отличать один класс от другого, называются дискриминантными переменными. Эти переменные должны измеряться либо по интервальной шкале, либо по шкале отношений. Таким образом, становится возможным вычисление математических ожиданий, дисперсий и правомерно использование дискриминантных переменных в математических. уравнениях.

Однако существуют определенные ограничения., касающиеся статистических свойств дискриминатных переменных:

1. Ни одна переменная не должна быть линейной комбинацией других переменных, линейная комбинация — это сумма одной или более переменных с постоянными весами. Таким образом, нельзя пользоваться суммой переменных или их средним арифметическим совместно с самими переменными. Соответственно недопустимы переменные, коэффициент корреляции которых равен 1.

2. Ковариационные матрицы для генеральных совокупностей (генеральные ковариационные матрицы) равны между собой для различных классов. Часто используемой форме дискриминантного анализа присущи линейные дискриминантные функции, соответствующие просто линейной комбинации дискриминантных переменных. Этот метод наиболее элементарен, поскольку предположение об одинаковых ковариационных матрицах в классах упрощает формулы вычисления дискриминантных функций, а также облегчает проверку гипотез о статистической значимости.

3. Закон распределения для каждого класса является многомерным нормальным, т. е. каждая переменная имеет нормальное распределение при фиксированных остальных переменных (В1а1оск, 1979; 452). Данное предположение позволяет получить точные значения вероятности принадлежности к данному классу и критерия значимости. При .нарушении допущения о нормальности распределения значения вероятности вычислить точно уже нельзя. но соответствующие оценки могут быть полезны, если, конечно, соблюдать известную осторожность.

Из всего сказанного, должно быть ясно, что дискриминантный анализ используется для изучения различий между несколькими группами по определенному набору дискриминантных переменных (рис. 1). Рассматривая классы как значения некоторой классифицирующей переменной, измеренной по шкале наименований , (когда каждому классу присваивается свое обозначение), мы представляем дискриминантный анализ в качестве метода сопоставления нескольких интервальных переменных одной номинальной переменной.

Иными словами; общая задача дискриминантного анализа заключается : в том, чтобы определить, к какой из двух известных групп объектов (явлений) принадлежит изучаемый объект. Как и в кластерном анализе, рассматриваемые здесь объекты также могут быть охарактеризованы многими параметрами. Однако задачи дискриминантного анализа - прямо противоположные: не выделить из множества объектов группы близких,а отнести тот или иной объект к определенной, априорно выделенной группе.

Пример: определение пола у молодых пеночек-весничек

Визуально самцы и самки этого вида не различаются, а морфологические признаки (длина крыла, хвоста, цевки) у них довольно сильно перекрываются. Это не позволяет с уверенностью диагностировать пол весннчек. Например, для длины крыла степень трансгрессии составляет - 20%, а длины цевки — 90%. Между тем дискриминантный анализ в силах справиться с подобной задачей.

Сущность этого метода состоит в данном случае в том, что на основе реальных признаков птиц математически рассчитать искусственный и единственный признак, все незначительные морфологические отличия полов в целом по всем признакам. При этом различия между группами самцов и самок становятся наиболее выраженными, а трансгрессия между их распределениями - наименьшей. Это позволяет свести к минимуму долю животных неопределенного пола, и с высокой степенью достоверности предсказывать пол по морфологическим признакам.

В основе дискриминантного анализа лежит дискриминантная функция, которая для двух признаков имеет следующий вид:

Z=a*X+b*Y-H-ΔZ

Как можно видеть, признаки X и Y, объединяясь, дают один признак Z. Если в анализ будут включены размерные признаки, такие как длина крыла и длина хвоста, то новый признак можно назвать размеры тела.

Коэффициенты а и b оценивают «вклад» каждого из признаков в диагностические возможности функции.

Коэффициент Н - это граничная величина между значениями для самцов и самок.

Свободный член уравнения ΔZ— поправка на разные объемы выборок.

Конкретные условия: у 10 самцов и 10 самок весничек (их пол был определен путем вскрытия), взяли промеры длины крыла и хвоста. По этим данным вычислены необходимые для дальнейших расчетов величины: суммы значений, их квадратов и произведений. Расчеты сведены в таблицу 1

Таблица 1

X Y X2 Y2 XY Z
Самцы
0.14
0.01
0.09
63,5 4032,25 3238,5 0.12
0.05
0.02
0.07
63,5 4032,25 0.08
0.03
0.06
39828,5 30170,5

Самки

Х У Х2 У2 ХУ Z
-0.080
-0.05
-0.17
57,5 3306,25 2472,5 -0.12
46,5 2162,25 2836,5 0.0004
60,5 3660,25 -0.01
57,5 3306,25 2587,5 -0.09
-0.1
60,5 3660,25 2722,5 -0.03
-0.04
449,5 20215,25
           
ΣХ=1218 ΣУ=927,5 ΣХ2=74324,5 ΣУ2=43087,25 Σ(Х*У)=56564,5
           

 

Теперь определим средние арифметические:

;

и их разности:

Находим также вспомогательные величины:

Cx= ΣХ2- =74324.5- =148.3;

Cy= ΣY2- =43087.25- =74.44;

Cxy= Σ(ХY)- =56564.5- =79.75;

Наконец, для определения коэффициентов а и b необходимо решить следующую систему уравнений:

Cx*a+Cxy*b=dx,

Cy*a+Cy*b=dy.

Ее корни будут:

а = =0.021423,

b = .

Теперь найдем средние значения признака Z. для самцов и самок:

Z1=a* +b =0.021423*63.1+0.015335*47.8=2.0848,

Z2=a* +b =0.021423*58.7+0.015335*44.95=1.9468.

 

Разность между этими средними (D=Z1—Z2) называется расстоянием Махаланобиса. В нашем примере оно равно:

D =2.0848 – 1.9468=0.138

Найдем границу между группировками самцов и самцов.

H=Z2+ =1.9468+ =2.0158.

 

Так получен третий член уравнения дискриминации. Что касается четвертого, поправки на объем .выборки, то он определяется по формуле:

ΔZ= ,

где nmax-наибольшая,

nmin-наименьшая численность групп,

D—расстояние Махаланобиса.

В нашем случае поправка равна 0, так как группы имеют одинаковый объем (по 10). Теперь можно записать уравнение дискриминации в полном виде:

Z = 0,021423 X+0.015335*Y-2.0158.

Рассчитаем с его помощью значение нового признака «размеры тела» для конкретных особей. Для первого самца величина разницы составит:

Z1 = 0.021423*65 + 0.015335*50—2.0158=0.14.

Значения для всех остальных особей занесены в таблицу 1.

Как показывает таблица 1, самцы имеют положительные, а самки (кроме одной) -отрицательные значения функции. Распределения нового признака перекрываются на одну двадцатую часть, т. е. всего на 5%. По исходным данным видно, что трансгрессия признаку х составила 10% (значение 61), а по признаку у 25% (значения 46 и 46,5). Таким образом, рассчитанный признак характеризуется меньшей трансгрессией по сравнению с реальными признаками, что снижает число неверных определений пола. Дальнейшие операции, связанные с использованием дискриминантной функции, вполне очевидны. Для особи с неизвестным полом, но известными промерами частей тела {когда птица после отлова и взятия промеров отпускается живой), вычисляется значение функции. Если оно больше 0, значит это самец, если меньше - самка.

Заключительный этап — оценка достоверности уравнения по критерию Фишера:

F(p,2,n-3)= ,

где n1 , n2 – объемы выборок,

D – расстояние Махаланобиса.

В нашем случае F= *0.138=0.32.

По таблице (приложение) находим критическое значение критерия Фишера для р=0,05 и числа степеней свободы dfi=2, dfz=20—3=17. В данном случае оно равно 3.6 поскольку эмпирическая величина (0.32) гораздо меньше, значит , уравнение недостовено. Скорее всего, это объясняется недостаточным объемом выборки в нашем примере, тем более, что для исходных данных из 50 экз. птиц каждого пола (а это обычный объем зоологического материала) критерий Фишера составит 4.2 (при Fst=3.1). Отсюда уравнение дискриминации для 50 особей достоверно и, следовательно, вполне пригодно для определения пола пеночек-весничек.

В лесном хозяйстве дискриминантный анализ является эффективным методом, предназначенным для оценки значимости различий выборок многомерных наблюдений, исследования их соотношений и построения решающих правил для диагностической классификации новых объектов относительно известных классов.

 





©2015 arhivinfo.ru Все права принадлежат авторам размещенных материалов.