ВВЕДЕНИЕ

В этом посте мы обсудим ковариацию и корреляцию. Это играет важную роль при выборе функций.

Статистические корреляции говорят нам как о силе связи между двумя переменными, так и о направлении этой связи.

Ковариация, как и корреляция, сообщает нам направление связи между двумя переменными. Но, в отличие от корреляции, ковариация не вычисляет силу связи, а вместо этого указывает разброс между двумя переменными.

Диапазон значений дисперсии и ковариации может варьироваться от отрицательной бесконечности до положительной бесконечности, а диапазон значений корреляции может идти только от отрицательного до положительного включительно.

Ковариация, как следует из названия, представляет собой меру дисперсии двух переменных, взятых вместе. Когда у нас есть одна переменная, мы называем ее дисперсией, но в случае двух переменных мы указываем ее как Ковариация, чтобы измерить, как две переменные изменяются вместе. Ковариация считается очень важной концепцией, когда речь идет об анализе данных. Мы обсудим это более подробно в следующих разделах. Мы также обсудим некоторые ограничения ковариации и способы их смягчения с помощью корреляции. Определяет силу связи между двумя наборами данных.

я. Корреляция положительна, когда оба значения увеличиваются вместе.

ii. Корреляция является отрицательной, когда одно значение уменьшается при увеличении другого.

Также мы рассмотрим подробную концепцию приведенной ниже корреляции.

  1. Коэффициент корреляции Пирсона.
  2. Коэффициент ранговой корреляции Спирмена

КОВАРИАНТНОСТЬ

Давайте попробуем понять Ковариацию на примере. Давайте рассмотрим возраст и зарплату жителей города.

Итак, если вы обратите внимание на приведенную выше таблицу, вы увидите положительную связь между возрастом и зарплатой. По мере увеличения возраста увеличивается и зарплата.

Итак, уравнение для ковариации указано ниже:

Где xi…. n — индивидуальный возраст и yi…. n — это индивидуальная заработная плата. µx, µy — среднее значение возраста и цены соответственно.

Если вы попытаетесь внимательно рассмотреть уравнение ковариации, то поймете, что оно очень похоже на то, что мы делаем в случае дисперсии, единственная разница была в случае дисперсии, мы использовать одну переменную, а в Covariance мы используем 2 переменные.

дисперсия

Давайте выведем уравнение Дисперсия, чтобы лучше понять эту концепцию:

Если вы возьмете приведенное выше уравнение и вместо двух переменных возьмете одну переменную и получите уравнение:

Итак, приведенное выше уравнение похоже на ковариационное уравнение. Мы могли бы переписать уравнение следующим образом:

ПОЛОЖИТЕЛЬНАЯ И ОТРИЦАТЕЛЬНАЯ КОВАРИАНТНОСТЬ

Используя приведенное выше уравнение ковариации, мы можем определить, является ли ковариация положительной или отрицательной.

Предположим, что с увеличением возраста (X) увеличивается и оклад (Y), и тогда мы имеем положительную ковариацию.

В другом случае предположим, что с увеличением возраста (X) заработная плата (Y) уменьшается, тогда мы имеем отрицательную ковариацию.

Давайте построим график, чтобы лучше понять эту связь.

ПОЛОЖИТЕЛЬНАЯ КОВАРИАНТНОСТЬ

1. На приведенном выше графике, если вы посмотрите на синюю точку, координаты x и y больше, чем их соответствующие средние значения. Итак, если вы поместите значения в уравнение ковариации

Таким образом, это в основном означает, что если случайное значение X увеличивается, а вместе с этим увеличивается и Y, то мы имеем положительную ковариацию.

ОТРИЦАТЕЛЬНАЯ КОВАРИАНТНОСТЬ

2. Теперь предположим, что у нас есть сценарий, в котором случайная величина X увеличивается, а значение Y уменьшается. В этом случае у нас будет отрицательная ковариация.

Вы можете видеть, что на приведенном ниже графике значение X выше среднего, однако значение Y ниже среднего, что означает, что с увеличением X, значение Y уменьшилось.

Поместив это в уравнение, мы получим отрицательное значение для Ковариации.

Из приведенных выше случаев мы узнали об отрицательной и положительной ковариации. Но здесь есть кое-что, на что мы должны обратить внимание, а именно на то, что Ковариация не определяет значение положительного или отрицательного значения, которое есть.

Чтобы смягчить это ограничение, мы используем другую матрицу — коэффициент корреляции Пирсона.

Ключевой вывод Covariance заключается в том, что он помогает нам понять и количественно оценить взаимосвязь между двумя переменными в наборе данных. Итак, в нашем наборе данных, если значение определенного столбца увеличивается, и в то же время значение другого столбца также увеличивается, мы имеем положительную ковариацию. А в другом случае, если значение одного столбца в наборе данных увеличивается, а значение другого столбца уменьшается, мы имеем отрицательную ковариацию.

КОРРЕЛЯЦИЯ

Теперь, когда мы поняли концепцию ковариации, давайте разберемся, как можно смягчить ее ограничение, используя коэффициент корреляции Пирсона.

КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ I.ПИРСОНА

Коэффициент корреляции Пирсона в основном показывает линейную зависимость между двумя наборами данных и возможность представления двух наборов данных с помощью линейного графика.

Формула коэффициента корреляции Пирсона:

Где σx, σy — стандартные отклонения для x и y.

Как обсуждалось выше в разделе Ковариация, если мы пытаемся найти ковариацию двух переменных и предположим, что одна из них увеличивается по отношению к другой, тогда мы имеем положительную ковариацию. Итак, из этого мы понимаем, что ковариация предоставляет нам направление отношения, то есть движется ли оно в положительном или отрицательном направлении.

Теперь в случае с коэффициентом корреляции Пирсона у нас есть дополнительное преимущество. С дисперсией X и Y (σx, σy) он сможет сообщить нам Силу корреляции между X и Y.

Он также сообщит нам Направление связи между X и Y.

Таким образом, основное различие между ковариацией и коэффициентом корреляции Пирсона заключается в том, что в случае ковариации мы не можем знать, насколько сила Положительного или отрицательного отношения между X и Yили Направления отношения.

Но в случае коэффициента корреляции Пирсона мы можем это сделать, поскольку мы делим ковариацию на дисперсиюX и Y. .

ДИАПАЗОН КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ ПИРСОНА

Диапазон значения коэффициента корреляции всегда будет находиться в диапазоне от -1 до 1.

Давайте попробуем понять эту концепцию, взяв несколько примеров, где коэффициент корреляции будет варьироваться от -1 до 1.

1. Допустим, у нас есть сценарий, в котором X увеличивается, а вместе с этим увеличивается и Y, а значение лежит на прямой, как показано ниже. В этом случае значение Коэффициента корреляции Пирсона всегда будет 1.

2. Допустим, у нас есть сценарий, в котором Xувеличивается, Yуменьшается, а значение лежит на прямой, как показано ниже. В этом случае значение коэффициента корреляции Пирсона всегда будет отрицательным 1.

3. Давайте рассмотрим случай, когда у нас нет никакой связи внутри X и Y.Точки разбросаны повсюду. В этом случае значение Коэффициента корреляции Пирсона всегда будет 0.

4. В приведенном ниже сценарии значения X и Y имеют отрицательную корреляцию, поскольку значение X увеличивается, значение Y уменьшается, однако все точки не лежат на одной прямой. Это означает, что значение коэффициента корреляции Пирсона больше равно -1 именьше равно 0.

5. В приведенном ниже сценарии значения X и Y положительно коррелируют по мере увеличения значения X, значение Y также увеличивается, однако все точки не лежат на одной прямой. Это означает, что значение коэффициента корреляции Пирсона больше, чем равно 0 именьше, чем равно 1.

Теперь, когда мы обсудили различные возможные сценарии и возможные значения, давайте на самом деле поймем, почему используется коэффициент корреляции Пирсона и где его можно использовать.

ВАЖНОСТЬ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

я. Выбор признаков с использованием коэффициента корреляции Пирсона

Коэффициент корреляции в основном используется в случае Выбора функций. Давайте рассмотрим пример, чтобы увидеть, как его можно использовать в Выборе функций.

Рассмотрим две переменные: X, Y.

X – это независимая функция, а Y – результирующая переменная/метка для набора данных. Допустим, мы обнаружили, что корреляция между X и Y равна 1, что означает, что когда X увеличивается, Y также увеличивается.

Кроме того, поскольку мы знаем, что значение корреляции равно 1, это означает, что и X, и Y одинаковы. Таким образом, мы можем отказаться от одной функции и применить к ней алгоритм машинного обучения.

Теперь, когда мы обсудили концепции и различные сценарии, связанные с коэффициентом корреляции Пирсона, и насколько он важен для выбора признаков, давайте продолжим и обсудим коэффициент ранговой корреляции Спирмена. и ограничения коэффициента корреляции Пирсона, которые он решает.

II. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ РАНГА СПИРМЭНА

Предположим, что у нас есть значения X и Y, которые положительно коррелированы, и по мере увеличения значения X значение Y также увеличивается, но связь между ними является нелинейным.

На рисунке ниже показан график, чтобы лучше проиллюстрировать это:

На приведенном выше графике X и Y положительно коррелированы, однако, если мы применим к нему корреляцию Пирсона, значение составит 0,88 и >Корреляция Спирмена дает результат 1.

Таким образом, корреляция Спирмена имеет преимущество перед корреляцией Пирсона, когда речь идет о нелинейной связи между двумя атрибутами.

КОНЦЕПЦИЯ КОЭФФИЦИЕНТА РАНГОВОЙ КОРРЕЛЯЦИИ SPEARMAN

Мы также можем написать уравнение следующим образом:

Здесь,

  1. ρ обозначает коэффициент корреляции Пирсона, который здесь применяется к рангу X и Y.
  2. cov(rgx , rgy)обозначает ковариациюранга X и Y
  3. σrgx , σrgy — стандартные отклонения ранга X и Y.

СЦЕНАРИИ ПРИ ПОИСКЕ КОРРЕЛЯЦИИ С ИСПОЛЬЗОВАНИЕМ КОЭФФИЦИЕНТА РАНГОВОЙ КОРРЕЛЯЦИИ СПИРМЭНА

Мы можем столкнуться с двумя типами сценариев при поиске корреляции между двумя атрибутами с использованием метода коэффициента ранговой корреляции Спирмена.

СЛУЧАЙ 1: КОГДА ВСЕ РАНГИ ЯВЛЯЮТСЯ РАЗЛИЧНЫМИ ЦЕЛЫМИ ЧИСЛАМИ, Т. Е. В РАНГАХ НЕТ РАЗЛИЧИЯ, МЫ МОЖЕМ ВЫЧИСЛИТЬ КОРРЕЛЯЦИЮ, ИСПОЛЬЗУЯ НИЖЕ ФОРМУЛУ:

Где di = rg(Xi) — rg(Yi) — это разница между рангом X и Y и n, количество наблюдений.

Это звучит немного абстрактно и сложно, но поверьте мне, это не так. Мы возьмем пример, чтобы лучше понять эту концепцию.

Пример: когда в рейтингах нет равных

Приведенная выше формула представляет собой разновидность корреляции Пирсона, с той лишь разницей, что она применяется к рангу X и Y.

Давайте попробуем понять ранг на примере ниже. Мы взяли этот пример из Википедии. Не стесняйтесь пойти и проверить это там, а также.

Чтобы применить формулу Рейтинг Спирмена, нам необходимо выполнить следующие шаги:

  1. Отсортируйте данные для 1-го столбца.
  2. Создайте отдельный столбец xi, чтобы присвоить ранги отсортированным значениям 1-го столбца — Rank (xi).
  3. Аналогичным образом создайте отдельный столбец yi и назначьте ранги отсортированным значениям второго столбца — Rank(yi).
  4. Теперь создайте столбец для разницы между двумя столбцами рангов — di.
  5. Наконец, создайте столбец для квадрата значения разницы между двумя столбцами рангов.

Как вы могли видеть выше, в рядах нет ничьей. Таким образом, мы могли бы использовать приведенную ниже формулу, чтобы найти корреляцию.

Вывод из результатов

Исходя из приведенного выше результата, мы можем сказать, что оба атрибута IQ и Часы просмотра телевизора в неделю имеют отрицательную корреляцию. А поскольку значение близко к нулю, можно сказать, что корреляция между IQ и часами просмотра телевизора в неделю очень низкая. Отрицательное значение результата предполагает, что IQ ниже у тех, кто больше часов смотрит телевизор в неделю.

СЛУЧАЙ 2: КОГДА НИЧЬЯ В РЯДАХ. ДАВАЙТЕ ПРИМЕР, ЧТОБЫ ЛУЧШЕ ПОНЯТЬ ЭТО:

Предположим, у нас есть следующие записи, как показано в таблице ниже:

Теперь, чтобы найти корреляцию Спирмена, нам нужно выполнить следующие шаги:

1. Отсортируйте данные по первому столбцу.

2. Создайте отдельный столбец xi, чтобы присвоить ранги отсортированным значениям 1-го столбца — Rank (xi). Мы можем начать ранжирование в порядке возрастания или убывания значений X и Y.

3. Теперь, если значение в 1-м столбце имеет одинаковые значения, возьмите значение позиций/индекса для 2 одинаковых значений и разделите на количество записей, имеющих такое же значение.

Например, в столбце X есть 2 позиции, которые имеют одинаковое значение 30. Предположим, что позиции этих двух 30-х являются 1-й и 2-й соответственно.

Ранг будет (1+2)/2, что равно 1,5. Таким образом, мы бы присвоили 1,5 обоим значениям ранга для 30. Этот подход будет применяться и для значений в Y.

4. Тогда для следующего элемента ранг будет его фактической позицией/значением индекса. Если он имеет равный ранг, то мы снова начнем с шага iii.

Мы будем использовать приведенную ниже формулу для расчета коэффициента корреляции.

В приведенном выше уравнении

  1. mобозначает, сколько раз повторяется определенное число.

Пример. 30 повторяется дважды в столбце X, поэтому (m3 — m) будет (23–2) = 6.

Точно так же 23 повторяется дважды в столбце X, поэтому (m3 — m) будет (23–2) = 6.

Мы будем повторять это столько раз, сколько повторяются одни и те же числа.

2.Nобозначает количество записей.

Давайте решим вышеуказанную проблему, подставив значения в приведенную выше формулу:

Вывод из результатов

Исходя из приведенного выше результата, мы можем сказать, что оба атрибута X и Y имеют отрицательную корреляцию. А поскольку значение близко к нулю, можно сказать, что корреляция между X и Y очень низкая. Отрицательное значение результата предполагает, что X ниже для тех, у кого более высокие значения Y.

Концепция ковариации и корреляции будет использоваться при предварительной обработке данных и исследовательском анализе данных.

СЛЕДУЙТЕ ЗА МНОЙ, ЧТОБЫ БОЛЬШЕ ТАКОГО СОДЕРЖАНИЯ

СПАСИБО