Понять идею, стоящую за структурой проверки гипотез, на примерах

Введение

Отличные продукты не создаются за одну ночь, они совершенствуются и полируются годами. Самые успешные команды используют цикл обратной связи при разработке продукта. Сначала они разрабатывают идею, внедряют ее в производство и контролируют процесс. Затем на основе собранных данных они анализируют и определяют, насколько это успешно. Выводы, полученные в ходе анализа, служат основой для следующей итерации разработки. Франсуа Шоле, создатель Keras, называет это петлей прогресса [2].

Роль статистики имеет решающее значение в аналитической части. Это помогает нам проверить гипотезу и принять решение, наблюдая за отслеживаемыми данными. Теперь существуют различные методы проверки гипотез, адаптированные для разных сценариев, но в этой статье мы поймем идею и процесс, лежащие в основе структуры проверки гипотез, на простом примере.

Часто выбор в реальном мире четко не определен

В статистике мы называем варианты выбора гипотезами. Часто гипотезы не ясны в реальном мире. Позвольте мне проиллюстрировать. Рассмотрим два сценария:

  1. В первом сценарии вам дают кубик и просят выяснить, является ли кубик правильным или загруженным.
  2. Во втором сценарии вам дается два кубика: один честный и один загруженный. Однако на этот раз вы знаете распределение вероятностей загруженной кости. Если вы случайно выберете кубик и подбросите его, сможете ли вы определить, какой кубик вы выбрали, по тому, какой стороной он приземлился?

Два сценария представляют собой форму задач проверки гипотез. Однако разница между ними в том, что мы знаем, как выглядит альтернативная гипотеза в последнем случае.

Со вторым сценарием справиться проще. Существуют четко определенные методы, такие как проверка отношения правдоподобия, которые помогают нам принять решение на основе одного наблюдения.

Однако большинство реальных случаев выглядят как первый сценарий.

В первом сценарии мы не знаем, как выглядит альтернативная гипотеза. Мы просто предполагаем, что альтернативная гипотеза состоит в том, что игральная кость загружена. Мы не знаем, насколько он загружен. Таким образом, цель проверки гипотезы сводится к подтверждению или отклонению нулевой гипотезы, которая в данном случае является предположением о том, что кубик справедлив.

Эта форма проверки гипотез также называется проверкой значимости и находится в центре внимания этой статьи.

Если вы хотите понять, как справляться с проблемами первого рода, подумайте о том, чтобы прочитать мою другую статью, где мы изучаем проверку гипотез из первых принципов.



Пример — Является ли монета честной или предвзятой?

Давайте начнем с примера и построим наш путь.

Вам дают монету и просят выяснить, является ли она честной или предвзятой.

Пусть 𝜃 представляет вероятность выпадения орла. Нулевая гипотеза 𝜃 = 1/2, а альтернативная гипотеза 𝜃 ≠ 1/2.

Обратите внимание, насколько неясна альтернативная гипотеза. 𝜃 может быть любым значением от 0 до 1.

Ключевая идея проверки гипотез заключается в том, что результаты эксперимента зависят от гипотез. Таким образом, наблюдая за результатами, мы можем сделать вывод.

В этом примере давайте подбросим монету n раз и посмотрим на результат.

Пусть результаты представлены X1, X2, X3, …, Xn, где Xi — случайная величина, представляющая результат ith жеребьевки. Xi = 1 если монета падает орлом, иначе Xi = 0.

Область отклонения и критическое отношение

Пусть S = X1 + X2 + X3 + … + Xn представляет собой общее количество голов. S называется статистикой и, по сути, обобщает наблюдения. Теперь, если нулевая гипотеза верна и монета честная, мы с большей вероятностью увидим n/2 орла. Если это не так, то разница |S — n/2| будет большой. Таким образом, правило разумного решения:

reject the null hypothesis if |S - n/2| > 𝜉

Это означает, что мы отклоняем нулевую гипотезу или предположение, что монета является честной, если абсолютная разница между наблюдаемым количеством орла и n/2 больше определенного значения 𝜉. 𝜉 называется критическим соотношением.

Основываясь на этом решающем правиле, мы можем разделить пространство наблюдения на две области: область отклонения и область принятия. Значения S, для которых удовлетворяется решающее правило |S — n/2| > 𝜉, попадают в область отклонения, а остальные значения попадают в область принятия.

Граница между областями зависит от 𝜉. Давайте посмотрим, как мы можем выбрать его значение.

Уровень значимости

При нулевой гипотезе вероятность того, что наблюдения попадут в область отбраковки, называется уровнем значимости. Ее можно вычислить следующим образом:

P(reject H0 ; H0) = 𝛼

H0 — нулевая гипотеза. P(reject H0 ; H0) представляет вероятность наблюдений в области отклонения под H0. 𝛼 — уровень значимости.

В нашем примере это можно представить как:

P(|S - n/2| > 𝜉 ; H0) = 𝛼

Теперь 𝛼 зависит от 𝜉. По мере увеличения 𝜉 размер области отклонения уменьшается, как и 𝛼.

Если мы зафиксируем значение 𝛼, мы сможем найти значение 𝜉. Если мы знаем распределение решающего правила при нулевой гипотезе, мы можем найти значение 𝜉 для заданного значения 𝛼.

Давайте запустим симуляцию и посмотрим на нее в действии.

Понимание через симуляцию

В нашем примере S соответствует биномиальному распределению с параметрами n и 𝜃. Однако по мере увеличения n S приближается к нормальному распределению в соответствии с центральной предельной теоремой [4].

Таким образом, если предположить, что S следует нормальному распределению, мы можем стандартизировать его, вычтя среднее значение и разделив его на стандартное отклонение. Среднее значение бинома равно n * 𝜃, а его стандартное отклонение равно sqrt(n * 𝜃 * (1-𝜃)).

def standardize(S):
  return (S - n * 𝜃) / sqrt(n * 𝜃 * (1-𝜃))

Подбросим монету n=1000 раз, и согласно нулевой гипотезе монета правильная, значит 𝜃=1/2. Значение 𝜉 для уровня значимости 𝛼=0.05 можно вычислить, как показано ниже:

   P(|S - n𝜃| > 𝜉 ; H0) = 𝛼

   Divide the inequality by sqrt(n * 𝜃 * (1-𝜃)) which is the std of S

=> P(|S - n𝜃| / sqrt(n * 𝜃 * (1-𝜃)) > 𝜉 / sqrt(n * 𝜃 * (1-𝜃)) ; H0) = 𝛼

   Let Z = |S - n𝜃| / sqrt(n * 𝜃 * (1-𝜃))
   Z is a standard normal variable as discussed above

=> P(|Z| > 𝜉 / sqrt(n * 𝜃 * (1-𝜃)) ; H0) = 𝛼
=> P(|Z| > 𝜉 / sqrt(1000 * 1/2 * (1-1/2)) = 0.05
=> P(|Z| > 𝜉 / sqrt(250)) = 0.05

   According to the standard normal tables, P(Z) = 0.05 if |Z| > 1.96
   This is illustrated in the diagram below.

=> Z > 1.96 or Z < -1.96

   The minimum value of 𝜉 can be calculated as:
   𝜉 / sqrt(250) = 1.96

=> 𝜉 = 31

Таким образом, для уровня значимости 𝛼 = 0.05 критическое соотношение равно 𝜉 = 31. Что это значит? Наше решающее правило:

reject the null hypothesis if |S - n/2| > 𝜉

Если я проведу эксперимент и подброшу монету n=1000 раз и увижу количество орлов S=472, то |472–500| = 28 < 31.

Поэтому мы говорим, что нулевая гипотеза H₀ не отвергается при уровне значимости 5 %.

Обратите внимание, что мы говорим H₀ не отклоняется вместо того, чтобы говорить H₀ принимается. Это потому, что у нас нет веских оснований принимать H₀. На основании данных невозможно доказать, что 𝜃 точно равно 0,5. 𝜃 также может быть равно 0,51 или 0,49. Поэтому вместо этого мы говорим, что наблюдения S=472 недостаточно, чтобы опровергнуть нулевую гипотезу H₀ на уровне значимости 5%.

В этом случае, когда 𝜉 = 31, наблюдения S < 469 и S > 531 попадают в область отклонения. Более того, если я увеличу значение 𝜉, область отклонения уменьшится, как показано на графике ниже:

Когда мы фиксируем уровень значимости 𝛼, скажем, на уровне 5%, это означает, что в модели, управляемой H₀, наблюдения, вероятно, попадают в область отклонения только в 5% случаев. Таким образом, если наблюдение в конечном итоге попадает в область отклонения, это дает убедительные доказательства того, что H₀ может быть ложным.

P-значение

Формальное определение p-значения:

p-значение — это вероятность получения результатов теста, по крайней мере столь же экстремальных, как и фактически наблюдаемый результат, в предположении, что нулевая гипотеза верна. — Википедия [3]

В отличие от уровня значимости, который фиксируется перед проведением эксперимента, p-значение зависит от результата эксперимента.

Предположим, что результат эксперимента с подбрасыванием монеты равен S=430, тогда результаты, которые являются «по крайней мере столь же экстремальными», как и результат при допущении, что нулевая гипотеза верна, равны S < 430 и S > 570, поскольку распределение при нулевой гипотезе симметрично и сосредоточено вокруг Значение.

Я смоделировал результат s, варьируя 𝜃, и p-значение для каждого результата показано ниже:

По сути, p-значение — это значение 𝛼, для которого s будет точно на пороге между отклонением и не отклонением.

Необходимость нормального приближения

В приведенном выше примере мы знаем, что результаты следуют биномиальному распределению с параметрами n и 𝜃. Таким образом, мы можем напрямую вычислить критическое отношение 𝜉 на основе 𝛼, используя любую библиотеку статистики, не прибегая к нормальной аппроксимации.

Однако в большинстве случаев мы не знали бы распределения при нулевой гипотезе. Однако большинство из них имеют тенденцию приближаться к нормальному распределению по мере увеличения размера выборки. Поэтому важно использовать большие размеры выборки в экспериментах по проверке гипотез.

Заключение

Часто в науке ученый выдвигает теорию, а другие ученые доказывают или опровергают ее, проводя эксперименты. Они выполняют проверку гипотез, где исходная идея является нулевой гипотезой.

Общую основу для проверки гипотез можно резюмировать следующим образом [1]:

  1. Выберите статистику S, которая является репрезентативной для наблюдаемых данных. Это скалярная случайная величина, которая зависит от наблюдений. Часто в качестве статистики используется выборочное среднее или выборочная дисперсия.
  2. Придумайте правило принятия решения, чтобы отклонить нулевую гипотезу H₀. Правило принятия решений является функцией статистики S и критического отношения 𝜉. Основываясь на решающем правиле и 𝜉, пространство наблюдения можно разделить на область отклонения и область принятия.
  3. Выберите уровень значимости 𝛼, который представляет собой вероятность того, что наблюдение может попасть в область отклонения при нулевой гипотезе.
  4. Вычислите критическое отношение 𝜉 на основе уровня значимости 𝛼. Для выполнения этого вычисления необходимо знать распределение при нулевой гипотезе. Однако, как мы обсуждали, большинство из них можно аппроксимировать нормальным распределением, если размер выборки велик. Когда значение 𝜉 известно, можно определить область отбраковки.

После того, как мы проведем эксперимент и запишем наблюдения, нам нужно сделать следующее:

  1. Вычислите значение s статистики S.
  2. Отклонить нулевую гипотезу, если s принадлежит области отклонения.

Прелесть проверки гипотез в том, что здесь нет никаких ограничений. Мы вольны планировать эксперимент и выбирать нулевую и альтернативную гипотезы.

Надеюсь, вам понравилась статья.

Let's Connect

Hope you've enjoyed the article. Please clap and follow if you did.

You can also reach out to me on LinkedIn and Twitter.

Авторы изображений и диаграмм

Все изображения, рисунки и схемы в этой статье созданы автором; если прямо не указано в заголовке.

Рекомендации

  1. Глава 9 и раздел 4 книги Дмитрия Берцекаса и Джона Цициклиса Введение в теорию вероятностей
  2. Петля прогресса Франсуа Шолле
  3. p-значение в Википедии
  4. Центральная предельная теорема в Википедии