Линейный коэффициент корреляции Пирсона

Банк

Выборочный коэффициент корреляции

Коэффициент корреляции обычно рассчитывают по выборке. Значит, у аналитика в распоряжении не истинное значение, а оценка, которая всегда ошибочна. Если выборка была репрезентативной, то истинное значение коэффициента корреляции находится где-то относительно недалеко от оценки. Насколько далеко, можно определить через доверительные интервалы.

Согласно Центральное Предельной Теореме распределение оценки любого показателя стремится к нормальному с ростом выборки. Но есть проблемка. Распределение коэффициента корреляции вблизи придельных значений не является симметричным. Ниже пример распределения при истинном коэффициенте корреляции ρ = 0,86.

Предельное значение не дает выйти за 1 и, как бы «поджимает» распределение справа. Симметричная ситуация наблюдается, если коэффициент корреляции близок к -1.

Распределение z для тех же r имеет следующий вид.

Далее исходя из свойств нормального распределения несложно найти верхнюю и нижнюю границы доверительного интервала для z. Определим квантиль стандартного нормального распределения для заданной доверительной вероятности, т.е. количество стандартных отклонений от центра распределения.

cγ – квантиль стандартного нормального распределения;N-1 – функция обратного стандартного распределения;γ – доверительная вероятность (часто 95%).Затем рассчитаем границы доверительного интервала.

Это была теоретическая часть. Переходим к практике расчетов.

Графическое представление коэффициента Фехнера

изменяется в пределах [-1; 1] и применяется для оценки тесноты связи качественных признаков (непараметрические методы).

Значение коэффициента Фехнера Качественная характеристика силы связи
[-0,9;-1] Очень высокая обратная
[-0,7;-0,9] Высокая обратная
[-0,5;-0,7] Заметная обратная
[-0,3;-0,5] Умеренная обратная
[-0,1;-0,3] Слабая обратная
0 Связь отсутствует
0,1 – 0,3 Слабая прямая
0,3 – 0,5 Умеренная прямая
0,5 – 0,7 Заметная прямая
0,7 – 0,9 Высокая прямая
0,9 – 1 Очень высокая прямая

Пример №1. При разработке глинистого раствора с пониженной водоотдачей в высокотемпературных условиях проводили параллельное испытание двух рецептур, одна из которых содержала 2% КМЦ и 1% Na2CO3, а другая 2% КМЦ, 1% Na2CO3 и 0,1% бихромата калия. В результате получена следующие значения Х (водоотдача через 30 с).

X1 9 9 11 9 8 11 10 8 10
X2 10 11 10 12 11 12 12 10 9

Проверит, различимы ли рассматриваемые растворы по значению водоотдачи.

Линейный коэффициент корреляции Пирсона

где na – число совпадений знаков отклонений индивидуальных величин от средней; nb – число несовпадений.

Коэффициент Фехнера может принимать значения от -1 до 1. Kф = 1 свидетельствует о возможном наличии прямой связи, Kф =-1 свидетельствует о возможном наличии обратной связи.

Xi

Yi

Знаки отклонений значений признака от средней

Совпадение (а) или несовпадение (в) знаков

Для Xi

Для Yi

8

40

А

9

50

В

10

48

В

10

52

В

11

41

В

13

30

В

15

35

В

Для примера: .

Значение коэффициента свидетельствует о том, что можно предполагать наличие обратной связи.

Перейти к онлайн решению своей задачи

Xi

Yi

Знаки отклонений от средней X

Знаки отклонений от средней Y

Совпадение (а) или несовпадение (b) знаков

12

220

B

9

1070

B

8

1000

B

14

606

B

15

780

A

10

790

B

10

900

B

15

544

B

93

5910

0

0

0

Значение коэффициента свидетельствует о том, что можно предполагать наличие обратной связи.

Для оценки достаточно оценить его значимость и найти доверительный интервал.
Значимость коэффициента Фехнера.
По таблице Стьюдента находим t (n-m-1;a) = (6;0.05) = 1.943
Поскольку Tнабл {amp}gt; tтабл, то отклоняем гипотезу о равенстве 0 коэффициента корреляции знаков. Другими словами, коэффициент Фехнера статистически – значим.

Доверительный интервал для коэффициента Фехнера:
r(-1.0;-0.4495)

Xi Yi Знаки отклонений от средней X Знаки отклонений от средней Y Совпадение (а) или несовпадение (b) знаков
96 220 B
52 1070 B
60 1000 B
89 606 B
82 780 A
77 790 B
70 900 B
92 544 B
618 5910 0 0 0

Оценка коэффициента корреляции знаков. Значимость коэффициента корреляции знаков.
По таблице Стьюдента находим tтабл:
tтабл (n-m-1;a) = (6;0.05) = 1.943
Поскольку Tнабл {amp}gt; tтабл , то отклоняем гипотезу о равенстве 0 коэффициента корреляции знаков. Другими словами, коэффициент корреляции знаков статистически – значим.

Доверительный интервал для коэффициента корреляции знаков.
Доверительный интервал для коэффициента корреляции знаков.
r(-1;-0.4495)

Расчет доверительного интервала для коэффициента корреляции в Excel

— Делаем преобразование Фишера для r. — На основе нормальной модели рассчитываем доверительный интервал для z.— Делаем обратное преобразование Фишера из z в r.

Удивительно, но для преобразования Фишера в Excel есть специальная функция ФИШЕР.

Стандартная ошибка z легко подсчитывается с помощью формулы.

Используя функцию НОРМ.СТ.ОБР, определим квантиль нормального распределения. Доверительную вероятность возьмем 95%.

коэффициент ранговой корреляции Спирмена: формула

Значение 1,96 хорошо известно любому опытному аналитику. В пределах ±1,96σ от средней находится 95% нормально распределенных величин.

Используя z, стандартную ошибку и квантиль, легко определим доверительные границы z.

Последний шаг – обратное преобразование Фишера из z назад в r с помощью функции Excel ФИШЕРОБР. Получим доверительный интервал коэффициента корреляции.

Нижняя граница 95%-го доверительного интервала коэффициента корреляции – 0,724, верхняя граница – 0,953.

Надо пояснить, что значит значимая корреляция. Коэффициент корреляции статистически значим, если его доверительный интервал не включает 0, то есть истинное значение по генеральной совокупности наверняка имеет тот же знак, что и выборочная оценка.

Несколько важных замечаний

1. Коэффициент корреляции Пирсона чувствителен к выбросам. Одно аномальное значение может существенно исказить коэффициент. Поэтому перед проведением анализа следует проверить и при необходимости удалить выбросы. Другой вариант – перейти к ранговому коэффициенту корреляции Спирмена. Рассчитывается также, только не по исходным значениям, а по их рангам (пример показан в ролике под статьей).

2. Синоним корреляции – это взаимосвязь или совместная вариация. Поэтому наличие корреляции (r ≠ 0) еще не означает причинно-следственную связь между переменными. Вполне возможно, что совместная вариация обусловлена влиянием третьей переменной. Совместное изменение переменных без причинно-следственной связи называется ложная корреляция.

3. Отсутствие линейной корреляции (r = 0) не означает отсутствие взаимосвязи. Она может быть нелинейной. Частично эту проблему решает ранговая корреляция Спирмена, которая показывает совместный рост или снижение рангов, независимо от формы взаимосвязи.

В видео показан расчет коэффициента корреляции Пирсона с доверительными интервалами, ранговый коэффициент корреляции Спирмена.

Оцените статью
Финансовый консультант