Учитывая выборку, скажем, рост 10 человек в городе, вы хотите оценить средний рост всех взрослых в городе. Вы можете сделать это, взяв среднее значение высот вашей выборки, но ни в коем случае это среднее значение выборки не будет равно среднему значению генеральной совокупности (из-за ошибки выборки). По мере увеличения размера вашей выборки среднее значение выборки будет приближаться к среднему значению генеральной совокупности, но практически для вас будет практически невозможно продолжать увеличивать выборку.

Таким образом, чтобы количественно оценить неопределенность, присущую вашей точечной оценке среднего значения, вы рассчитываете доверительный интервал, который даст вам диапазон значений, в котором будет лежать ваше среднее значение совокупности с определенным уровнем уверенности. Доверительный интервал всегда рассчитывается на основе выборочной статистики. Мы берем вашу точечную оценку, добавляем и вычитаем погрешность, чтобы получить доверительный интервал. Вскоре мы увидим, как это делается.

С этим понятием связан еще один термин: уровень уверенности. Он сообщает вам, как часто доверительный интервал будет содержать параметр совокупности, который вы пытаетесь оценить (среднее значение в приведенном выше случае). Это долгосрочная вероятность. Для уровня достоверности 95%, если вы рисуете случайные выборки и вычисляете интервал снова и снова, то в среднем в 95 случаях из 100 он будет соответствовать вашему параметру совокупности.

Если у вас есть некоторый опыт проверки гипотез, существует термин, называемый уровнем значимости. Это вероятность отклонения нулевой гипотезы при условии, что нулевая гипотеза верна. Мы хотим, чтобы во время тестов этот показатель был как можно ниже, 5 % является стандартом. Уровень уверенности — это обратная сторона одной и той же медали, поэтому, если вы отвергаете нулевую гипотезу, потому что значение p‹0,05, то ваш уровень уверенности составляет 95%.

Уровень уверенности = 1 — Уровень значимости (альфа)

Мы уже достаточно говорили об уровне доверия. Давайте посмотрим, как мы можем использовать уровень достоверности для расчета интервалов для разных типов данных (непрерывных и категориальных).

Доверительный интервал для непрерывных данных

В приведенном выше примере оценки среднего роста населения (взрослых жителей города) мы имели непрерывные данные. Давайте посмотрим на формулу доверительного интервала.

  • — выборочное среднее, z-критическое z-значение для уровня достоверности, s — стандартное отклонение выборки, n- размер выборки.
  • Эта формула дает нижний и верхний предел доверительного интервала, а второй член — это, по сути, ваша погрешность.
  • Вы можете использовать либо z-значения, либо t-значения для уровня достоверности. Для размеров выборки менее 30 значения t дадут более точные результаты. На практике в основном используются t-значения. Вы можете найти соответствие между уровнем достоверности и соответствующим ему критическим значением t здесь. Степени свободы также используются для сопоставления значений t, обычно они равны размеру выборки -1.

Доверительный интервал для категориальных данных

Рассмотрим это в приведенном выше примере: друг считает, что более 50% жителей города имеют рост выше 165 см. У вас есть 10 образцов роста, из которых 6 выше 165 см. В вашей выборке 60% людей имеют рост выше 165 см. Вашей первой мыслью может быть, что предположение вашего друга верно, но вы понимаете, что размер вашей выборки довольно мал, и для большей уверенности вам нужен доверительный интервал. Формула для категориальных данных следующая:

  • p̂-доля населения в выборке, n-размер выборки, z-критическое z-значение для уверенности уровне, вы также можете использовать критическое значение t, как я уже говорил выше.
  • мы возьмем уровень достоверности равным 95%, что соответствует 1,96 как значению z. Итак, доверительный интервал = (0,6-1,96* sqrt((0,6*0,4)/10), 0,6+1,96* sqrt((0,6*0,4)/10)) , решая его, мы получаем (0,6-0,02, 0,6+0,02)
  • Наш доверительный интервал равен (0,58,0,62). Доверительный интервал превышает 50% или 0,5. Следовательно, мы можем с уверенностью 95% заключить, что более 50% жителей города имеют рост выше 165 см.

Что влияет на доверительные интервалы

  • Уровень уверенности.Из двух формул, которыми я поделился выше, становится ясно, что по мере увеличения уровня уверенности диапазон интервала также будет увеличиваться.
  • Изменчивость выборки. В первой формуле, в которой мы рассчитывали доверительный интервал для непрерывных данных, мы видели стандартное отклонение в термине предела погрешности. Вариативность данных влияет на точность вашей оценки. По мере увеличения изменчивости интервал расширяется.
  • Размер выборки. Из обеих приведенных мной формул можно вывести, что размер выборки обратно пропорционален доверительному интервалу. По мере увеличения размера выборки мы становимся все более и более уверенными в нашей оценке, и размер нашего интервала сокращается.

Вот и все, что касается доверительных интервалов. Если вы хотите погрузиться глубже, я рекомендую этот ресурс.

Доверительные интервалы очень полезны при тестировании AB для количественной оценки неопределенности значения p, которое вы получаете после запуска проверки гипотезы. Если вы хотите узнать об AB-тестировании и всей науке, стоящей за ним, я рекомендую следующую серию, в которой я разбиваю ее на небольшие удобоваримые части и даю пошаговое руководство.