3.4 Кореляція випадкових величин
Прямим визначенням терміну кореляція є стохастичний, ймовірний іможливий зв’язок між двома (парна) або кількома (множинна) випадковими величинами.
Вище говорилося про те, що якщо для двох ВВ (X і Y) має місце рівність P(XY) = P(X)P(Y), то величини X і Y вважаються незалежними. Однак, якщо це не так!? Адже завжди важливим є питання – а наскільки залежить одна ВВ від іншої? І справа у властивому людям прагненні аналізувати що-небудь обов’язково у числовому вимірі. Зрозуміло, що системний аналіз означає безперервні обчислення, при цьому, використання комп’ютера змушує нас працювати з числами, а не поняттями.
Для числової оцінки можливого зв’язку між двома випадковими величинами Y (із середнім My і середньо-квадратичним відхиленням Sy) та Х (із середнім Mx і середньо-квадратичним відхиленням Sx) прийнято використовувати коефіцієнт кореляції:
(3.10)
Цей коефіцієнт може приймати значення від -1 до +1 залежно від тісноти зв’язку між даними випадковими величинами. Якщо коефіцієнт кореляції дорівнює нулю, то X і Y називають некорельованими. Вважати їх незалежними зазвичай немає підстав.
Виявляється, що існують такі, як правило, нелінійні зв’язки величин, для яких Rxy = 0, хоча величини і залежать одна від одної. Зворотне завжди вірне – якщо величини незалежні, то Rxy = 0. Однак, якщо модуль Rxy = 1, то є всі підстави думати про наявність лінійного зв’язку між X і Y. Саме тому часто говорять про лінійну кореляцію під час застосування такого способу оцінки зв’язку між ВВ.
Відзначимо ще один спосіб оцінки кореляційного зв’язку двох випадкових величин. Якщо додати добутки відхилень кожної з них від свого середнього значення, то отриману величину
Cxy = S(X – Mx)(Y – My), (3.11)
або ковариацію величин X і Y відрізняє від коефіцієнта кореляції два показники: по-перше, усереднення (ділення на число спостережень або пар X, Y) і, по-друге, нормування шляхом ділення на відповідні середньоквадратичні відхилення. Така оцінка зв’язків між ВВ у складній системі є одним з початкових етапів системного аналізу, і тому вже тут постає питання про довіру до висновку про наявність або відсутність зв’язків між двома ВВ.
У сучасних методах системного аналізу зазвичай діють таким чином. За знайденим значенням R обчислюють допоміжну величину
W = 0.5 Ln[(1 + R) / (1 – R)], (3.12)
і питання про довіру до коефіцієнта кореляції зводять до довірчих інтервалів випадкової величини W, що визначаються стандартними таблицями або формулами.
В окремих випадках під час системного аналізу доводиться вирішувати питання про зв’язки кількох (більше 2) випадкових величин або питання про множинну кореляцію. Так, наприклад, нехай X, Y і Z – випадкові величини, під час спостереження за якими ми встановили їх середнє Mx, My, Mz і середньо-квадратичні відхилення Sx, Sy, Sz. Тоді можна знайти парні коефіцієнти кореляції Rxy, Rxz, Ryz за наведеною вище формулою. Однак, цього явно недостатньо, адже на кожному з трьох етапів ми забували про наявність третьої випадкової величини. Тому у випадках множинного кореляційного аналізу іноді потрібно відшукувати так званні часткові коефіцієнти кореляції, наприклад, оцінка впливу Z на зв’язок між X і Y здійснюється за допомогою коефіцієнта
, (3.13)
І, нарешті, можна підняти питання. А який же є зв’язок між даною ВВ і сукупністю інших? Відповідь на це дають коефіцієнти множинної кореляції Rx.yz, Ry.zx, Rz.xy, формули для обчислення яких аналогічні тим же принципам, тобто, із врахуванням зв’язків однієї з величин із всіма іншими у сукупності.
На складність обчислень всіх описаних показників кореляційних зв’язків можна не звертати особливої уваги. Програми для їх розрахунку досить прості і існують у готовому вигляді у багатьох програмах прикладного забезпечення сучасних комп’ютерів. Достатньо зрозуміти лише головне – якщо для формального опису елементів складної системи, сукупності таких елементів у вигляді підсистеми або системи у цілому, ми розглядаємо зв’язки між окремими її частинами, то степінь тісноти зв’язків у вигляді впливу однієї ВВ на іншу можна і потрібно оцінювати на рівні кореляції.
Наприкінці відзначимо ще одне. В усіх випадках системного аналізу на кореляційному рівні обидві випадкові величини за умови парної або множинній кореляції вважаються «рівноправними». Тобто, мова йде про взаємний вплив ВВ одна на одну. Так буває далеко не завжди і часто питання про зв’язки X і Y ставиться інакше – тобто, чи є одна з величин функцією від іншої величини (аргументу).