Здавалка
Главная | Обратная связь

Середня і гранична похибки вибірки та необхідна чисельність її при різних способах відбору



У процесі вибіркового дослідження розглядають два типи вибіркових оцінок – точкові та інтервальні.

Точкова оцінка характеризує значення параметра, обчислене на основі вибіркових даних (вибіркова середня та вибіркова частка ), а інтервальна – довірчий інтервал (інтервал значень параметра при даній ймовірності).

Якщо генеральна сукупність розподілена за нормальним законом, то вибіркові характеристики теж будуть розподілені нормально. Для вибірок великого розміру розподіл вибіркових характеристики буде наближено нормальним.

При вибірковому спостереженні крім похибок реєстрації можливі також похибки репрезентативності вибірки, які виникають тому, що структура вибірки дещо відрізняється від структури генеральної сукупності.

Похибками репрезентативності називається різниця між середніми величинами або частками ознаки вибіркової і генеральної сукупності. Похибки репрезентативності бувають систематичними і випадковими.

Систематичні похибки репрезентативності виникають внаслідок порушення принципів проведення вибіркового спостереження. Вони мають тенденцію до збільшення або зменшення величини досліджуваної ознаки.

Випадкові похибки репрезентативності викликані тим, що вибірка не відтворює точно параметри генеральної сукупності.

Визначення величини випадкових похибок репрезентативності є основним завданням теорії вибіркового методу.

Для узагальнюючої характеристики похибки вибірки обчислюють середню помилку репрезентативності, яку позначають буквою грецького алфавіту (мю).

Для визначення середньої похибки власне випадкової і механічної вибірки використовують формули, представлені у таблиці:

Таблиця 1

Формули середньої похибки вибірки при різних способах відбору

Спосіб відбору При визначенні середньої При визначенні частки
Повторний (для )
Повторний (для )
Безповторний (для )
Безповторний (для )

де – середня похибка вибірка; – дисперсія ознаки; – чисельність генеральної сукупності; – частка одиниць, що володіє даною ознакою; – частка одиниць, що не володіє даною ознакою.

Більш точні результати одержуються при безповторному відборі, оскільки одиниці сукупності не повторюються.

Обчислені похибки дозволяють визначити межі середньої та частки генеральної сукупності за формулами:

; .

Поряд з середньою похибкою вибірки обчислюють і граничну похибку вибірки, яка стверджує, що генеральні параметри не вийдуть за межі середньої похибки вибірки лише з певною ймовірністю.

Величину граничної похибки вибірки обчислюють за формулою:

,

де – середня похибка вибірка; – коефіцієнт довіри, який залежить від ймовірності, з якою гарантується гранична похибка вибірки.

Значення і (ймовірності прийняття тієї чи іншої похибки) подані в спеціальних таблицях, де розглядається як функція і обчислюється за формулою:

.

 

 

Запишемо значення цього інтеграла для деяких значень :

0,683
0,954
0,997
0,999

Для малих вибірок коефіцієнт довіри визначають за розподілом ймовірностей Стьюдента , де – ймовірність, – число ступенів свободи.

Ці показники означають, що з ймовірністю 0,683 можна стверджувати, що гранична похибка вибірки не перевищить , тобто в 68,3% випадків похибка репрезентативності не вийде за межі . По іншому, в 683 випадках із 1000 похибка репрезентативності не перевищить однієї величини середньої похибки. З ймовірністю 0,954 (найбільш часто вживаною на практиці) можна стверджувати, що похибка репрезентативності не перевищить , з ймовірністю 0,997 – не перевищить . З ймовірністю 0,999, близькою до одиниці, слідує що різниця між вибірковими і генеральними параметрами не перевищить чотирикратної похибки вибірки.

Гранична похибка вибірки обчислюється при проведенні вибіркового спостереження за різними формулами залежно від способу відбору. Вона дає можливість записати довірчий інтервал, в якому знаходиться величина генеральної середньої або генеральної частки.

Згідно теореми П.Л. Чебишева про те, що з ймовірністю можна стверджувати, що при достатньо великому числі незалежних спостережень вибіркова середня буде мало відрізнятись від генеральної середньої при проведенні повторної вибірки.

Академік А.А. Макаров довів збереження цієї умови для незалежних спостережень (безповторної вибірки), тобто:

або .

Теорема Я. Бернулі розглядає похибку вибірки для альтернативної ознаки (частки), тобто з ймовірністю, як найближчою до одиниці, можна стверджувати, що для вибірки достатньо великого обсягу вибіркова частка мало відрізняється від генеральної частки, тобто:

або .

Можна записати різні формули для обчислення граничної похибки вибірки, використовуючи формули середньої похибки вибірки, представлені в табл. 1.

За допомогою формул граничної похибки вибірки можна розв’язати такі задачі:

1. Визначити довірчий інтервал генеральної середньої і частки з заданою ймовірністю.

2. Визначити ймовірність того, що різниця між вибірковими і генеральними характеристиками не перевищить визначену величину.

3. Знайти необхідну чисельність вибірки, яка із заданою ймовірністю забезпечить очікувану точність вибіркових характеристики.

При організації проведення вибіркового спостереження важливо правильно визначити необхідний обсяг вибірки, яка з певною ймовірністю забезпечить встановлену точність результатів спостереження. Надзвичайно велика чисельність вибірки призводить до зайвих затрат сил, часу і коштів, недостатня – дасть результати з великою похибкою репрезентативності. Чисельність вибірки залежить від:

· варіації досліджуваної ознаки. Чим більша чисельність вибірки, тим більша варіація, і навпаки;

· розміру можливої граничної похибки вибірки. Чим менший розмір можливої похибки, тим більшим повинен бути обсяг вибірки. За існуючим правилом, якщо похибку необхідно зменшити в раз, то чисельність вибірки збільшити в раз;

· величини ймовірності, з якою гарантуватимуться результати вибірки. Чим більша ймовірність, тим більшим повинен бути обсяг вибірки;

· від способу відбору одиниць у вибіркову сукупність.

Для обчислення необхідного обсягу вибірки потрібно виконати алгебраїчне перетворення формул граничної похибки вибірки при різних способах відбору.

Розглянемо обчислення необхідного обсягу для власне випадкової і механічної вибірки. Використаємо формули граничної похибки вибірки для середньої арифметичної при повторному відборі:

.

Обидві частини формули піднесемо до квадрату, одержимо:

.

Звідси необхідний обсяг вибірки дорівнює:

.

З даної формули слідує, що чисельність вибірки залежить від величини граничної похибки , величини коефіцієнта довіри і величини варіації (дисперсії ).

Аналогічно вводяться формули необхідного обсягу вибірки при обчисленні частки ознаки, при повторному і безповторному відборах. Ці формули представлені в табл. 2.

Таблиця 2

Формули для визначення необхідного обсягу вибірки при різних способах відбору

Спосіб відбору Чисельність вибірки при визначенні
середньої частки
Повторний (для )
Повторний (для )
Безповторний (для )
Безповторний (для )

При типовому способі відбору, коли одиниці в вибірку відбираються з окремих типово однорідних груп, виділених за певною ознакою, варіація групових середніх відсутня, і похибка типової вибірки залежить від середньої з групових дисперсій. Тому в формулах похибок вибірки замість загальної дисперсії потрібно використовувати середню з групових дисперсій: – для середньої і – для частки.

Розрахунок граничної похибки вибірки при типовому способі відбору проводиться за формулами, що подаються у табл. 3.

Таблиця 3

Формули граничної похибки вибірки при типовому відборі

Спосіб відбору Чисельність вибірки при визначенні
середньої частки
Повторний (для )
Повторний (для )
Безповторний (для )
Безповторний (для )

Середня з групових дисперсій обчислюється за формулою:

,

де – дисперсія – тої групи; – кількість одиниць ознаки в – тій групі.

Загальна вибіркова середня визначається за формулою:

,

де – середня – тої групи.

,

де – частка – тої групи.

Середня з внутрішніх дисперсій визначається за формулою:

.

Для визначення необхідної чисельності вибірки при типовому відборі потрібно виконати алгебраїчне перетворення формул граничної похибки вибірки, що представлені в табл. 3.

Розглянемо розв’язок деяких задач до цієї теми, використовуючи розглянуті формули:

Задача 1. Методом власне випадкової повторної вибірки досліджена жирність молока у 100 корів. За даними вибірки середня жирність молока дорівнювала 3,84%, а дисперсія складала 2,60. Визначити:

а) середню похибку вибірки;

б) з ймовірністю, що дорівнює 0,954, довірчий інтервал генеральної сукупності.

Розв’язування.

За умовою задачі , , .

Підставляючи у формулу середньої похибки вибірки для середньої арифметичної (відбір повторний) матимемо:

.

Для знаходження довірчого інтервалу з заданою ймовірністю потрібно обчислити граничну похибку вибірки за формулою:

.

За таблицями значень при знаходимо, що . Звідси

;

або

;

,

тобто граничні значення жирності молока або довірчий інтервал генеральної сукупності) визначається як

або

.

Задача 2. Скільки працівників необхідно дослідити в порядку випадкової повторної вибірки для визначення середньої заробітної плати, щоб з ймовірністю можна було б гарантувати похибку не більше 5 грн. Очікуване середнє квадратичне відхилення грн.

Розв’язування.

Із формули знаходимо :

або

.

Задача 3. На основі вибіркового повторного спостереження 600 робітників однієї з галузей виробництва встановлено, що питома вага чисельності жінок складає 0,4.

З якою ймовірністю потрібно стверджувати, що при визначенні частки жінок, які зайняті в цій галузі, допущена похибка, що не перевищує 5%?

Розв’язування.

Введемо позначення: , , .

Із формули знаходимо квантиль (довірче число) , що пов’язане з ймовірністю .

.

За таблицями значень (дод. А) для знаходимо, що , тобто з ймовірністю 0,988 можна стверджувати, що при визначенні частки жінок (0,4) в загальному числі працівників допущена похибка не більше 0,05.

Задача 4. Відомі результати 20%-го вибіркового спостереження (вибірка випадкова, безповторна) цукристості буряків в фермерських господарствах району:

Цукристість, % 13 – 15 15 – 17 17 – 19 19 – 21 Понад 21
Кількість фермерських господарств

З ймовірністю 0,997 встановити для усіх фермерських господарств району:

1. Межі середньої цукристості буряків (%);

2 Межі частки фермерських господарств, що мають цукристість буряків понад 19%.

Розв’язування.

1. За даними вибіркового обстеження визначимо середню цукристість буряків, тобто вибіркову середню за формулою:

,

де – середина – того інтервалу; – частота, що показує число господарств в – тому інтервалі. Результати обчислення представлені в табл. 4.

Таблиця 4

Вихідні та розрахункові дані для обчислення середньої цукристості та її дисперсії

Цукристість, % Кількість господарств, Середина інтервалу,
13 – 15 –4,2 52,92
15 – 17 –2,2 38,72
17 – 19 –0,2 0,60
19 – 21 1,8 32,40
Понад 21 3,8 57,76
Разом Х Х 182,40

,

тобто середня цукристість буряків по 40 фермерських господарствах складає 18,2%.

Середня похибка вибірки для середньої арифметичної визначається за формулою:

.

Обчислимо дисперсію за формулою:

.

– обсяг генеральної сукупності, господарств. Одержані результати підставимо у формулу для , матимемо:

.

Можна записати межі середньої цукристості по всіх фермерських господарствах району:

;

;

або

.

Щоб встановити межі середньої цукристості для всіх фермерських господарств з ймовірністю 0,997, необхідно обчислити граничну похибку вибірки за формулою:

,

де – квантиль, значення якого для дорівнює .

.

Довірчий інтервал для середньої цукристості по всіх фермерських господарствах буде таким:

;

;

або

.

Це дає підставу стверджувати з ймовірністю 0,997, що середня цукристість буряків в цілому по району щонайменше 17,3% і не перевищує 19,1/%.

2. Для відповіді на це питання визначити частку фермерських господарств, що мають цукристість буряків понад 19%. Вона складає:

або 35%.

Середню похибку вибірки для частки визначимо, виходячи з формули:

або 6,7%.

Межі частки фермерських господарств району, що мають цукристість буряків понад 19% будуть такі:

;

;

;

або

.

Обчислимо граничну помилку чистки за формулою:

,

або 20,1%.

Довірчий інтервал для частки господарств району, що мають цукристість понад 19% буде таким:

;

;

;

або

.

З ймовірністю 0,997 можна стверджувати, що частка господарств району, в яких цукристість понад 19% знаходиться в межах від 14,9% до 55,1%.

Малі вибірки

При розрахунку характеристик вибіркової сукупності (дисперсії, середньої і граничної похибок) передбачалось мати сукупність великого обсягу . В науково-дослідній роботі та у практиці виробничих спостережень часто користуються вибірками невеликими за обсягом (в агрономічних і зоотехнічних дослідах, при перевірці якості продукції, в випадках, пов’язаних із знищенням зразків тощо). В статистиці вони називаються малими вибірками . Вибірки з чисельністю понад 30 одиниць називають великими. Вони забезпечують більшу точність порівняно з малими вибірками. В статистиці доведено, що результати, отримані за малими вибірками, також поширюються на генеральну сукупність. Але тут виникають деякі особливості, які потрібно враховувати при обчисленні середнього квадратичного відхилення. При малому обсязі вибірки користуються незміщеною оцінкою дисперсії, яка позначається .

Основи теорії малих вибірок були розроблені англійським математиком-статистиком В. Госсетом (псевдонім Стьюдент). Стьюдент показав, що для невеликого обсягу дисперсія у вибірці відрізняється від дисперсії у генеральній сукупності, що справедливо і для середніх квадратичних відхилень.

Середнє квадратичне відхилення генеральної сукупності є одним із параметрів кривої нормального розподілу. Тому використовувати функцію нормального розподілу для оцінки параметрів генеральної сукупності за даними малої вибірки в зв’язку з отриманням великих похибок не доцільно.

При обчисленні середньої похибки за невеликими вибірками завжди потрібно користуватись незміщеною оцінкою дисперсії:

,

де – число ступенів свободи варіації , яким називають число одиниць, що можуть приймати довільні значення, не змінюючи їх загальної характеристики (середньої).

Нехай проведено п’ять спостережень: ; ; ; ; . Середня величина визначається за формулою середньої арифметичної простої:

.

Отже, вільно варіюючи величин залишається тільки чотири. Тому що п’яту можна знайти за відомими чотирма величинами і середньою:

.

і т.д.

Для даного прикладу число ступенів свободи варіації дорівнює:

.

Стьюдентом було обґрунтовано закон розподілу відхилень вибіркової середньої від генеральної середньої для малих вибірок. Згідно розподілу Стьюдента ймовірність того, що гранична похибка не перевищить – кратну середню похибку в малих вибірках, залежить від величини і чисельності вибірки .

Теоретичне нормоване відхилення для малих вибірок одержало назву – критерію Стьюдента на відміну від – критерію нормального розподілу, який використовується у великих вибірках. Значення – критерію Стьюдента табульовані і представлені в спеціальних таблицях (дод. Д).

Порядок визначення середньої і граничної похибки для малої вибірки покажемо на прикладі.

Приклад. Для сушіння зерна на пункті прийому у господарстві формують партію зерна озимої пшениці. Для того, щоб задати потрібний режим роботи зерносушарки, необхідно визначити вологість зерна. Для цього протягом дня з автомашин взяли вибірково 10 проб на вологість зерна, що поступило від комбайнів. Величини вологості зерна представлена в табл. 5.

Таблиця 5

Вологість зерна озимої пшениці

Номер проби Вологість зерна, % Квадрат вологості, Номер проби Вологість зерна, % Квадрат вологості,
17,0 289,00 17,5 306,25
17,4 302,76 18,4 338,56
18,4 338,56 19,0 361,00
17,7 313,29 18,6 345,96
18,5 342,25 19,5 380,25
Х Х Х Разом 182,0 3317,88

Визначити: 1) середню вологість зерна озимої пшениці за вибіркою; 2) середню і граничну похибки вибіркової середньої вологості зерна; 3) довірчий інтервал, в якому перебуває середня вологість зерна у генеральній сукупності. Довірчу ймовірність взяти рівною .

Середня вологість зерна озимої пшениці складає:

.

Спостерігаючи за окремими спостереженнями бачимо, що вологість зерна варіює і середня лише по 10спостереженнях матиме деяку похибку.

Обчислимо вибіркову дисперсію:

.

Вибіркову дисперсію скоригуємо на втрату числа ступенів свободи, тому що чисельність вибірки одиниць. Скоригована дисперсія дорівнюватиме:

.

Незміщену оцінку дисперсії можна визначити і за такою формулою:

.

.

Визначимо середню похибку вибіркової середньої вологості зерна:

.

Отже, середня вологість зерна озимої пшениці у генеральній сукупності дорівнює 18,2% при середній похибці вибіркової середньої 0,26%. Це значить, що є точковою оцінкою генеральної середньої з похибкою 0,26%.

Для одержання інтервальної оцінки генеральної середньої і побудови довірчого інтервалу визначимо граничну похибку вибіркової середньої вологості зерна для малої вибірки. Для цього за таблицею «Значення критерію Стьюдента» (дод. Д) при заданому рівні ймовірності (рівень істотності ) і відповідному числі ступенів свободи варіації знайдемо табличне (теоретичне) значення критерію Стьюдента .

Гранична похибка вибіркової середньої є точковою оцінкою генеральної середньої і дорівнює:

.

Дамо інтервальна оцінку середнього відсотка вологості зерна озимої пшениці в генеральній сукупності, записавши довірчий інтервал:

, або

;

;

.

Отже, з довірчою ймовірністю можна стверджувати. Що середня вологість зерна в генеральній сукупності буде перебувати в межах від 17,61% до 18,79%.







©2015 arhivinfo.ru Все права принадлежат авторам размещенных материалов.