Вы бросаете кубик, и выпадает 1. Удивительно?

Вряд ли, с моей удачей. Но даже в целом, я думаю, не так уж много — он должен был приземлиться на что-то, верно?

Что, если бы я сказал вам, что кубик загружен и что в 90% случаев он выпадает на 6?

Тогда я был бы удивлен, если бы получил 1.

Что, если вы снова подбросите этот кубик и получите 6?

Учитывая, что он приземляется на шестерку в 90% случаев, это совсем не удивительно.

В общем, если вы наблюдаете за происходящим событием, насколько вы будете удивлены?

Это зависит от вероятности события. Чем менее вероятно событие, тем больше я буду удивлен, что оно произошло.

Итак, что было бы хорошим способом количественной оценки неожиданности?

Что-то вроде -P(X) должно работать. Чем больше вероятность, тем меньше сюрприз, и наоборот.

По вашему определению, каково будет ваше удивление, когда вы выбросите 6 на этом загруженном кубике?

Мое удивление было бы –0,9.

Сюрприз -0,9. Разве это не кажется странным?

Может быть. Отрицательное значение неожиданности на самом деле не интуитивно понятно.

Каким может быть альтернативное определение неожиданности, в котором не было бы этой проблемы?

Определение сюрприза как 1 / P(X) должно помочь.

Почему?

Менее вероятные события еще более удивительны, и, кроме того, неожиданность теперь никогда не бывает отрицательной.

Хороший. Что, если бы я обобщил ваше определение и сказал, что неожиданность события X равна F(1 / P(X)) для любой реальной функции F. Будет ли это иметь смысл?

В общем, нет. Например, применение F(a) = 1 / a к (1 / P(X)) равносильно P(X). И это вряд ли удовлетворяет нашим условиям для надлежащей меры внезапности.

Тогда для какого F будет иметь смысл обобщенное определение?

Только для тех, которые увеличиваются. Таким образом, события с малой вероятностью гарантированно будут более неожиданными, чем более вероятные.

А как насчет нашего второго условия, об отсутствии негативного сюрприза?

О верно. Так что только возрастающие функции и, значения которых неотрицательны.

Хороший. Допустим, я нашел такое F и подсчитал, что удивление от того, что вы выбросили единицу, равно 50, а удивление от того, что вы выбросили шестерку, равно 10. Как вы думаете, каково ваше общее удивление от этих двух событий?

Я бы сказал, что это должна быть простая сумма этих двух сюрпризов, то есть 60. Но не все так просто, правда?

Возможно. Но во-первых, как рассчитать неожиданность наблюдения двух независимых событий?

Вероятность того, что я увижу два независимых события, X и Y, равна PX * PY, поэтому, согласно нашему определению, мое удивление будет F(1 / (PX * PY)).

Как бы вы сформулировали условие аддитивности?

Я хочу, чтобы F(1 / (PX * PY)) было равно F(1 / PX) + F(1 / PY).

Такой F вообще существует?

На этот вопрос было бы намного легче ответить, если бы не обратные числа внутри нашей формулы.

Как же так?

Что ж, мы будем искать F удовлетворяющих F(PX * PY) = F(PX) + F(PY). И логарифм является такой функцией.

Если подумать, логарифм также удовлетворяет уравнению с обратными числами!

Имеет ли значение основание логарифма?

Нет, любая база работает.

Логарифм также является возрастающей функцией, поэтому он удовлетворяет первому условию, которое мы установили в обобщенном определении для неожиданности. Удовлетворит ли это второе?

Так и есть. Его значения отрицательны только для входных данных 1 или ниже.

Является ли это проблемой для нашего варианта использования?

Это не. P(X) меньше или равно 1 по определению, и отсюда следует, что его обратная величина больше или равна единице. Следовательно, log(1 / P(X)) никогда не будет отрицательным, что нам и нужно.

Скажи мне еще раз, что мы получили, добавив логарифм к первоначальному определению неожиданности как1/P?

С логарифмом неожиданность наблюдения двух независимых событий является аддитивной, то есть мы можем сложить неожиданность каждого из событий, и результатом будет неожиданность комбинированного события.

И кстати, мы что-то потеряли?

С добавлением логарифма больше не верно, что если какое-то событие произойдет в k раз реже, мы также в k раз больше удивимся, когда оно действительно произойдет.

Подводя итог, к какому определению неожиданности мы пришли?

Неожиданность события X равна log(1 / P(X)) или, что то же самое, -log P(X). Основание логарифма значения не имеет.

И какими свойствами обладает эта мера неожиданности?

  1. Чем более вероятно событие, тем меньше наше удивление, когда мы его наблюдаем.
  2. Наше удивление всегда неотрицательно.
  3. Удивление при наблюдении за двумя независимыми событиями равно сумме их индивидуальной неожиданности. (аддитивность)

Фантастика! И, наконец, знаете ли вы, где можно применить полученные знания?

Я думаю, что степень неожиданности как-то связана с информацией и энтропией. Но я уверен, что мы поговорим об этом подробнее в нашем следующем разговоре.

Источники:

Спасибо The Little Schemer за вдохновение написать статью в форме вопросов и ответов. Думаю, здесь следует упомянуть и Сократа, как первоначального сторонника обучения на основе вопросов и ответов.