6. ОСНОВНІ ПОНЯТТЯ МАТЕМАТИЧНОЇ СТАТИСТИКИ

 

Математична статистика – це розділ математики, в якому вивчаються методи обробки і аналізу експериментальних даних, одержаних в результаті досліджень масових випадкових явищ. Основними задачами математичної статистики є:

1. Складання статистичного ряду або статистичної сукупності на основі генеральної і вибіркової сукупностей, яке ґрунтується на обчисленні частот появи значень випадкової величини.

2. На основі записаного статистичного ряду будуються функції розподілу f(x) i F(x).

3. Оцінка невідомих параметрів розподілу (математичне сподівання, дисперсія, середнє квадратичне відхилення, різні початкові і центральні моменти).

4. Статистична перевірка гіпотез.

Якщо в попередніх задачах за допомогою функцій розподілу визначається закон розподілу, то тут перевіряється відповідність значень спостережуваної випадкової величини з побудованими функціями розподілу.

Першою публікацією зі статистики вважають “Книгу чисел” в Біблії, в Старому Заповіті, в якій розказано про перепис військовозобов'язаних, проведений під керівництвом Мойсея та Аарона.

Вперше в художній літературі термін “статистика” ми знаходимо у творі Шекспіра “Гамлет” (1602). Зміст цього слова у Шекспіра визначається як знать, придворні.

Існує близько 200 визначень цього терміна. У XVIII ст. статистика описувала стан держави, її мета полягала в поданні фактів в найбільш стислій формі. Статистика полягає у спостереженні явищ, які можуть бути підраховані або виражені за допомогою чисел (1895). Статистика  це чисельне подання фактів з будь-якої галузі дослідження у їх взаємозв'язку (1909). З ХХ ст. статистику почали розглядати перш за все як самостійну наукову дисципліну. Статистика є сукупність методів і принципів, згідно з якими проводиться збір, аналіз, порівняння, подання та інтерпретація числових даних (1925).

Термін “статистика”, в кінцевому рахунку, випливає з Нью Латинської колегії ("Державна рада") та італійського слова statista "державний" або "Політика").

В 1954 р. академік АН УРСР Б. В. Гнеденко дав таке визначення: “Статистика складається з трьох розділів:

1) збір статистичних відомостей, тобто відомостей, що характеризують окремі одиниці будь-яких масових сукупностей;

2) статистичне дослідження отриманих даних, що полягає у з'ясуванні тих закономірностей, які можуть бути встановлені на основі даних масового спостереження;

3) розробка прийомів статистичного спостереження та аналізу статистичних даних. Останній розділ, власне, і складає зміст математичної статистики”.

 

6.1. Побудова статистичного ряду і функцій розподілу

 

Нехай вивчається неперервна випадкова величина ξ, значення якої одержані протягом деякого часу із незалежних одне від одного спостережень. Вся сукупність значень, одержаних в результаті таких спостережень, є генеральна сукупність. Якщо проводити n незалежних одну від одної вибірок, то сукупність їх результатів х1, х2, ..., хn називається випадковою вибіркою, або просто вибіркою з даної генеральної сукупності, а число n є об’ємом цієї вибірки.

Одержання обгрунтованих виводів про властивості генеральної сукупності за властивістю вибірки є задача аналізу генеральної сукупності. Розіб’ємо діапазон n значень вибірки неперервної випадкової величини ξ на інтервали однакової довжини Δх , кількість яких рівна k.

Нехай mi, число Сі -ξ величини, які спостерігаються в і-тому інтервалі. Розділивши mi на загальне число значень n, одержимо частоту появи значень в і-тому інтервалі:

Із вказаних величин складемо таблицю, яка називається статистичним рядом (Statistical series) або статистичною сукупністю (statistical combination):

Номери інтервалів

Інтервали

mi

Ci  середнє значення інтервалу

1

[x0, x1)

m1

2

[x0, x2)

m2

k

[xk-1, xk)

mi

Емпіричною (або статистичною) функцією розподілу випадкової величини ξ називається частота події, що полягає в тому, що величина ξ в результаті випробовування прийме значення, менше х:

.

На практиці достатньо знайти значення статистичної функції розподілу в точках х0, х1, …, хk, що є кінцями інтервалів статистичного ряду:

Слід зазначити, що .

Рис. 6.1

При збільшенні числа випробувань n частота події ξ>x збігається за ймовірністю до ймовірності цієї події. Це означає, що статистично функція розподілу F*(x) збігається за імовірністю до функції розподілу F(x).

.

Побудувавши точки Mi(xi,F*(xi)) і з’єднавши їх плавною кривою, отримаємо приблизний графік емпіричної функції розподілу (рис. 6.1). Використовуючи теореми, що їх відносять до законів великих чисел, можна довести, що при великій кількості випробувань n з імовірністю, близькою до одиниці, емпірична функція розподілу F*(x) відрізняється як завгодно мало від реальної функції розподілу F(x) випадкової величини ξ.

Рис. 6.2

Для побудови графіка щільності розподілу виконуємо такі кроки. На осі абсцис відкладаємо інтервали (x0, x1), (x1, x2), …, (xk-1, xk). На кожному інтервалі будуємо прямокутник, площа якого дорівнює частоті рі* появи величини на даному інтервалі. Висота hi цього прямокутника дорівнює           ,

де Δх  довжина кожного. Сума площ всіх побудованих прямокутників дорівнює одиниці.

Розглянемо функцію у=f*(х), яка в кожному з інтервалів (xi-1, xi) постійна і дорівнює hi.. Графік цієї функції називається гістограмою і являє собою ступінчасту лінію. Тут також можна довести, що для великих n з практичною достовірністю f*(x) як завгодно мало відрізняється від реальної щільності розподілу f(x) неперервної випадкової величини ξ. Відповідно до теореми Бернуллі при необмеженому збільшенні числа випробувань n частота події ξ<x  збігається за імовірністю до імовірності цієї події.

.

6.2. Обчислення невідомих параметрів розподілу

 

За допомогою гістограми наближено будується графік щільності розподілу випадкової величини ξ.

Вигляд цього графіка часто дає можливість зробити припущення про закон розподілу ймовірностей. Цей закон містить параметри, які потрібно обчислити з дослідних даних. Нехай х1, х2, ..., хn  значення із випробувань неперервної випадкової величини ξ. Величину називають статистичним середнім (або середнім вибірковим). В другій частині рівності кожне із значень, що спостерігаються, вважають приблизно рівним середньому значенню сі на цьому інтервалі. Статистичне середнє прямує за імовірністю до математичного сподівання випадкової величини при великій кількості випробувань.

Визначимо вибіркову статистичну дисперсію.

,

де  вибіркове статистичне середнє квадратичне відхилення.

Виправлені або незміщені дисперсії:

.

Аналогічно визначають статистичні початкові і центральні моменти довільного порядку

При збільшенні кількості спостережень всі статистичні характеристики будуть збігатись за імовірностями до відповідних характеристик випадкової величини ξ і при достатньо великих n можуть бути прийняті рівними їм.