Вы бросаете кубик, и выпадает 1. Удивительно?
Вряд ли, с моей удачей. Но даже в целом, я думаю, не так уж много — он должен был приземлиться на что-то, верно?
Что, если бы я сказал вам, что кубик загружен и что в 90% случаев он выпадает на 6?
Тогда я был бы удивлен, если бы получил 1.
Что, если вы снова подбросите этот кубик и получите 6?
Учитывая, что он приземляется на шестерку в 90% случаев, это совсем не удивительно.
В общем, если вы наблюдаете за происходящим событием, насколько вы будете удивлены?
Это зависит от вероятности события. Чем менее вероятно событие, тем больше я буду удивлен, что оно произошло.
Итак, что было бы хорошим способом количественной оценки неожиданности?
Что-то вроде -P(X)
должно работать. Чем больше вероятность, тем меньше сюрприз, и наоборот.
По вашему определению, каково будет ваше удивление, когда вы выбросите 6 на этом загруженном кубике?
Мое удивление было бы –0,9.
Сюрприз -0,9. Разве это не кажется странным?
Может быть. Отрицательное значение неожиданности на самом деле не интуитивно понятно.
Каким может быть альтернативное определение неожиданности, в котором не было бы этой проблемы?
Определение сюрприза как 1 / P(X)
должно помочь.
Почему?
Менее вероятные события еще более удивительны, и, кроме того, неожиданность теперь никогда не бывает отрицательной.
Хороший. Что, если бы я обобщил ваше определение и сказал, что неожиданность события X равна
F(1 / P(X))
для любой реальной функцииF
. Будет ли это иметь смысл?
В общем, нет. Например, применение F(a) = 1 / a
к (1 / P(X))
равносильно P(X)
. И это вряд ли удовлетворяет нашим условиям для надлежащей меры внезапности.
Тогда для какого
F
будет иметь смысл обобщенное определение?
Только для тех, которые увеличиваются. Таким образом, события с малой вероятностью гарантированно будут более неожиданными, чем более вероятные.
А как насчет нашего второго условия, об отсутствии негативного сюрприза?
О верно. Так что только возрастающие функции и, значения которых неотрицательны.
Хороший. Допустим, я нашел такое
F
и подсчитал, что удивление от того, что вы выбросили единицу, равно 50, а удивление от того, что вы выбросили шестерку, равно 10. Как вы думаете, каково ваше общее удивление от этих двух событий?
Я бы сказал, что это должна быть простая сумма этих двух сюрпризов, то есть 60. Но не все так просто, правда?
Возможно. Но во-первых, как рассчитать неожиданность наблюдения двух независимых событий?
Вероятность того, что я увижу два независимых события, X и Y, равна PX * PY
, поэтому, согласно нашему определению, мое удивление будет F(1 / (PX * PY))
.
Как бы вы сформулировали условие аддитивности?
Я хочу, чтобы F(1 / (PX * PY))
было равно F(1 / PX) + F(1 / PY)
.
Такой
F
вообще существует?
На этот вопрос было бы намного легче ответить, если бы не обратные числа внутри нашей формулы.
Как же так?
Что ж, мы будем искать F
удовлетворяющих F(PX * PY) = F(PX) + F(PY)
. И логарифм является такой функцией.
…
Если подумать, логарифм также удовлетворяет уравнению с обратными числами!
Имеет ли значение основание логарифма?
Нет, любая база работает.
Логарифм также является возрастающей функцией, поэтому он удовлетворяет первому условию, которое мы установили в обобщенном определении для неожиданности. Удовлетворит ли это второе?
Так и есть. Его значения отрицательны только для входных данных 1 или ниже.
Является ли это проблемой для нашего варианта использования?
Это не. P(X)
меньше или равно 1 по определению, и отсюда следует, что его обратная величина больше или равна единице. Следовательно, log(1 / P(X))
никогда не будет отрицательным, что нам и нужно.
Скажи мне еще раз, что мы получили, добавив логарифм к первоначальному определению неожиданности как
1/P
?
С логарифмом неожиданность наблюдения двух независимых событий является аддитивной, то есть мы можем сложить неожиданность каждого из событий, и результатом будет неожиданность комбинированного события.
И кстати, мы что-то потеряли?
С добавлением логарифма больше не верно, что если какое-то событие произойдет в k
раз реже, мы также в k
раз больше удивимся, когда оно действительно произойдет.
Подводя итог, к какому определению неожиданности мы пришли?
Неожиданность события X равна log(1 / P(X))
или, что то же самое, -log P(X)
. Основание логарифма значения не имеет.
И какими свойствами обладает эта мера неожиданности?
- Чем более вероятно событие, тем меньше наше удивление, когда мы его наблюдаем.
- Наше удивление всегда неотрицательно.
- Удивление при наблюдении за двумя независимыми событиями равно сумме их индивидуальной неожиданности. (аддитивность)
Фантастика! И, наконец, знаете ли вы, где можно применить полученные знания?
Я думаю, что степень неожиданности как-то связана с информацией и энтропией. Но я уверен, что мы поговорим об этом подробнее в нашем следующем разговоре.
Источники:
Спасибо The Little Schemer за вдохновение написать статью в форме вопросов и ответов. Думаю, здесь следует упомянуть и Сократа, как первоначального сторонника обучения на основе вопросов и ответов.