Лабораторная работа №6

Имеется неизвестная функция двух переменных, которая задана 1000-ю значениями на интервале [0,10]х[0,10]. Предполагается, что точки, в которых заданы значения функции, распределены в указанном квадрате случайно.

Требуется построить математическую модель, которая описывает связь значений функции и значений независимых переменных.

Структура данных

Файл данных состоит из трех переменных: х, у, z. Переменные х и у - независимые, переменная z - зависимая (рис. 1).

Построение модели

В классическом подходе к решению задачи на первом шаге строится модель множественной регрессии. Очевидно, что зависимость нелинейная и все линейные модели будут давать «плохие» результаты. В STATISTICA имеется модуль нелинейной множественной регрессии, который позволяет автоматически включать в модель не только сами переменные, но и различные (но уже нелинейные) преобразования от них (т.е. х2, х3, ех и т.д.). В данном примере мы вначале построим модель с помощью Множественной нелинейной регрессии, а затем перейдем построению нейросетевой модели для данной задачи.

Рис. 1. Фрагмент исходной таблицы данных

Шаг 1. Запускаем модуль Множественная нелинейная регрессия (рис. 2).

Рис. 2. Запуск модуля Множественная нелинейная регрессия

На стартовом окне нажимаем кнопку Переменные и переходим к заданию переменных (рис. 3.).

Рис. 3. Диалог выбора переменных

На данном этапе не требуется указания зависимых или независимых переменных, а нужно просто указать те переменные, которые вместе со своими преобразованиями будут входить в модель. Максимальное число переменных, включаемых в модель в данном случае, равняется 4. Нажимаем ОК и возвращаемся к стартовому окну (рис. 4).

Прокомментируем остальные установки на данном окне: 1. При выборе опции Вычисления с повышенной точностью используется более точный алгоритм вычисления корреляционной матрицы, необходимой при проведении множественной регрессии.

Рис. 4. Стартовое окно

Эту опцию следует установить, если анализируемые переменные имеют чрезвычайно малую относительную дисперсию. Выполняемые в процессе фиксированной нелинейной регрессии вычисления с двойной точностью оптимальны в смысле достижения максимальной точности, так что почти для всех наборов данных, полученных с помощью реальных измерений (т.е. не созданных искусственно), результаты этих вычислений идентичны результатам, полученным с использованием опции повышенной точности вычислений. Обратите внимание, что эта опция доступна только после выбора опции Построчное удаление пропущенных данных.

2. Опция Показывать описательные статистики, корреляционные матрицы позволяет открыть диалоговое окно Просмотр описательных статистик после диалогового окна Регрессия с нелинейными компонентами.

В диалоговом окне Просмотр описательных статистик вы можете просмотреть подробные описательные статистики для выбранных переменных. Чтобы продолжить анализ и открыть диалоговое окно Определение модели, нажмите (Ж в диалоговом окне Просмотр описательных статистик.

На следующей вкладке можно сделать установки по преобразованиям зависимых и независимых переменных (рис. 5). Для каждой выбранной переменной создаются (в оперативной памяти компьютера, а не в исходном файле данных) новые временные переменные, содержащие результаты соответствующих преобразований (новая переменная будет создана для каждого выбранного преобразования по каждой выбранной переменной).

Рис. 5. Задание нелинейных функций преобразований

Имя новой переменной будет являться комбинацией номера соответствующей исходной переменной и выбранного преобразования, например, V42, 10V7, и т.д.

Доступные преобразования показаны на рис. 5. Вы можете выбрать более чем одно преобразование. Укажем все возможные преобразования и перейдем на следующее окно.

Шаг 2. Задание параметров анализа удобно производить на вкладке Дополнительно окна Определение модели (рис. 6).

Рис. 6. Окно Определение модели, вкладка Дополнительно

При нажатии кнопки Переменные вызывается стандартное диалоговое окно Выбор переменных, в котором можно выбрать зависимые и независимые переменные. Если указано более одной зависимой переменной, то регрессионный анализ выполняется последовательно для каждой переменной из списка зависимых переменных.

С помощью опции Процедура можно выбрать тип регрессионного анализа. Если выбрана Стандартная процедура, то все переменные будут включены в уравнение регрессии одним блоком (т.е. на одном шаге итерации).

Если выбрана процедура Пошаговая с включением, то независимые переменные будут по отдельности включаться или исключаться из модели на каждом шаге регрессии (если выбрано F -включить или F- исключить) до тех пор, пока не будет получена «наилучшая» регрессионная модель.

В случае процедуры Пошаговой с исключением независимые переменные будут исключаться из модели по одной на каждом шаге (если выбрано F- включить или F- исключить) до тех пор, пока не будет получена «наилучшая» регрессионная модель. В качестве зависимой переменной укажем переменную г. Независимыми переменными в данном случае являются переменные х иуи переменные, полученные путем выбранных на предыдущем окне преобразований. В качестве процедуры выбираем Пошаговая с включением. Нажимаем ОК.

Шаг 3. Переходим к анализу результатов, полученных с помощью данной модели (рис. 7).

Рис. 7. Окно результатов

Хотя коэффициенты регрессии оказались на высоком уровне значимости, но коэффициент множественной регрессии ничтожно мал (R = 0,25). Например, при х = 1,48, у = 9,0 предсказанное значение равно 0,31. Построим модель с помощью нейронных сетей.

Шаг 4. Запускаем Нейронные сети (рис. 8.).

На стартовом окне указываем тип задачи Регрессия. Далее переходим к выбору непрерывных входных и выходных переменных (нажимая кнопку ГГ). Диалог выбора переменных с установками показан на рис. 9.

Рис. 8. Запуск модуля Нейронные сети

Рис. 9. Диалог выбора переменных

В качестве инструмента выбираем Мастер решений (это установка по умолчанию). Стартовое окно с описанными установками показано на рис. 10. Нажимаем ОК.

Шаг 5. Далее необходимо определиться с типом сети. Как известно, многослойный персептрон моделирует функцию отклика с помощью функций «сигмоидных склонов». Метод разбиения пространства гиперплоскостями представляется естественным и интуитивно понятным, ибо он использует фундаментальное простое понятие прямой линии.

Рис. 10. Стартовое окно с проделанными установками

Столь же естественным является подход, основанный на разбиении пространства окружностями или (в общем случае) гиперсферами. Гиперсфера задается своим центром и радиусом. Подобно тому, как элемент многослойный персептрон реагирует (нелинейно) на расстояние от данной точки до линии «сигмоидного склона», в сети, построенной на радиальных базисных функциях, элемент реагирует (нелинейно) на расстояние от данной точки до «центра», соответствующего этому радиальному элементу.

Поверхность отклика радиального элемента представляет собой гауссову функцию (колоколообразной формы) с вершиной в центре и понижением по краям. Наклон гауссова радиального элемента можно менять подобно тому, как можно менять наклон сигмоидной кривой в многослойный персептрон (рис. 11).

Рис. 11. Поверхность отклика радиального элемента

Очевидно, что наша задача топологически близка именно к архитектуре сетей, основанных на РБФ. Поэтому на вкладке Тип сети выбираем пункт Радиальная базисная функция (рис. 12.). Длительность анализа: установим N сетей =100 (вкладка Быстрый). Нажимаем ОК. (рис. 13.).

Рис. 12. Окно задания установок Мастера решений, вкладка Тип сети

Рис. 13. Окно задания установок Мастери решений, вкладка Быстрый

Шаг 6. Проанализируем результаты (рис. 14).

По мере увеличения числа элементов на скрытом слое сети растет точность результатов. Заметим, что ни для одной модели не получено эффекта «зазубривания данных» (т.е. все модели обладают способностью обобщать результат на новые наблюдения). С помощью опции Выбор модели исключим все, кроме пятой сети. Построим график наблюдаемых и предсказанных значений. Для этого переходим на вкладку Графики н по оси X выбирай Наблюдаемые, а по оси Y- Предсказанные (рис. 15).

Рис. 14. Окно результатов анализа, вкладка Дополнительно

Рис. 15. Окно результатов анализа, вкладка Графики

Строим зависимость Yот X.

Перейдем на вкладку Быстрый окна результатов модели и нажмем кнопку Описательные статистики (рис. 16). На экране появится таблица (рис. 8.6.19).

Рис. 16. Окно результатов анализа, вкладка Быстрый

Рис. 17 Таблица описательных статистик

Как показано на рис. 16, в поле Выборки вывода результатов был выбран пункт Все. Теперь на той же вкладке укажем пункт Все*. Это позволит получить таблицу результатов по всем выборкам в отдельности. Результаты показаны на рис. 18.

Видно, что параметр Отношение ст.откл. однороден по всем выборкам.

Рис. 18. Таблица описательных статистик для всех выборок но отдельности

В заключение приведем граф построенной нейронной сети архитектуры РБФ (рис. 19).

Рис. 19. Схема построенной сети

Сеть имеет структуру прямого распространения с двумя входными переменными, 540 элементами на скрытом слое и одним элементом на выходном слое. Точность построенной модели равна 0,7%.