中文是熵排截, /shāng/。下面是個簡單科普:
由于一些其他的原因禀挫,把信息(熵)定義為 概率分布的對數(shù)的相反數(shù) 是有道理的旬陡。事件的概率分布和每個事件的信息量構(gòu)成了一個隨機變量,這個隨機變量的均值(即期望)就是這個分布產(chǎn)生的信息量的平均值(即熵)语婴。熵的單位通常為比特描孟,但也用Sh驶睦、nat、Hart計量匿醒,取決于定義用到對數(shù)的底场航。
例如廉羔,投擲一次硬幣提供了1 Sh的信息溉痢,而擲m次就為m位。更一般地蜜另,你需要用log2(n)位來表示一個可以取n個值的變量适室。
Model for Information
觀察發(fā)生概率為p 的事件此迅,得到的信息為i(p)
- i(p) ≥ 0 : information never decrease,得到的信息永遠增加
- i(1) = 0 : observing a certain event adds no information 必然發(fā)生的時間旧巾,是得不到信息的
- i(p1p2) = i(p1)+i(p2): information from observing independent events are additive 信息可以相加
- 單調(diào)性,即發(fā)生概率越高的事件鲁猩,其所攜帶的信息熵越低坎怪。極端案例就是“太陽從東方升起”,因為為確定事件廓握,所以不攜帶任何信息量搅窿。從信息論的角度,認為這句話沒有消除任何不確定性隙券。
- 非負性男应,即信息熵不能為負。這個很好理解娱仔,因為負的信息沐飘,即你得知了某個信息后,卻增加了不確定性是不合邏輯的牲迫。
- 累加性耐朴,即多隨機事件同時發(fā)生存在的總不確定性的量度是可以表示為各事件不確定性的量度的和。
能滿足上面的模型盹憎,最簡單就是 i(p) = ?log(p)
Shannon's Information Entropy
上面是離散的和連續(xù)的 變量 x浪的 Entropy 函數(shù)
直覺上筛峭,信息量等于傳輸該信息所用的代價,這個也是通信中考慮最多的問題脚乡。比如說:賭馬比賽里蜒滩,有4匹馬{A, B, C, D} 滨达,獲勝概率分別為 1/2, 1/4俯艰,1/8捡遍, 1/8
如果 A ,那么需要問1次(問題1:是不是A竹握?)画株,概率為1/2煞赢;
如果 B 牢屋,那么需要問2次(問題1:是不是A?問題2:是不是B聘殖?)芹关,概率為 1/4 续挟;
如果 C ,那么需要問3次(問題1侥衬,問題2诗祸,問題3),概率為 1/8 ;
如果 D 轴总,那么同樣需要問3次(問題1直颅,問題2,問題3)怀樟,概率為 1/8
為了確定 贏的馬功偿,在這種問法下, 取值的二元問題數(shù)量為:
這部分去看 知乎 - 信息熵是什么投蝉?
- 這句話我也沒有太理解养葵,信息熵 Information entropy 是 分布的 disorder
- why this is not a good model for knowledge? For Shannon's Information Entropy
%pylab inline
import warnings
p = np.array([.5, .25, .01])
print(-p*np.log2(p) - (1-p)*np.log2(1-p))
Populating the interactive namespace from numpy and matplotlib
[ 1. 0.81127812 0.08079314]
Underdetermined problem
An optimization problem with more variables than constraints:
關(guān)于變量比 約束多的 優(yōu)化問題:
- has infinite number of solutions 有無數(shù)的解決方案
- requires an objective function for a unique solution 需要一個獨特解決方案的目標函數(shù)
- common problem in quant finance
- finding implied distribution from few liquid market prices 從流動性差的市場價格中找到隱含分布
- curve building
In (early) literature, various ad hoc objective functions are used: 目標函數(shù)
- e.g.: sum of squares of first and second order derivatives 例一階和二階導(dǎo)數(shù)的平方和
Ignorance is strength
Disorder (or the lack of information) in a distribution is highly desirable:
- more uncertainty in outcome, leaves open more possibilities 結(jié)果中更多的不確定性瘩缆,留下更多的可能性
- free from the contamination of irrelevant and artificial restrictions 不受無關(guān)和人為限制的干擾
- the distribution is smooth and well behaved 分布光滑且表現(xiàn)良好
- more difficult to arbitrage against 更難以套利
Max entropy is the ideal objective for finding implied distributions:
- much better than ad hoc smoothness constraints 比特設(shè)光滑度限制好
- invokes the higher principles of the information theory 引用信息論的更高原則
Maximum Entropy Method
- exp(p), log(p) 都是列向量
- 對p 求導(dǎo) d/dp (p^T * log(p)) = log(p^T) + 1^T
- 我們只考慮線性約束关拒,在實踐中易于處理和充分
- 連續(xù)分布可以用積分來表示。
Maximum Entropy Method 問題:
- 1^T p = 1 的1 是什么意思
- Ap = b b是什么意思
- 這個我也不完全懂:對p 求導(dǎo) d/dp (p^T * log(p)) = log(p^T) + 1^T
Uniform distribution
使得log(p)在 = -(1+ λ) 1 時有最大值
Uniform distribution問題:
- 1 究竟是什么恐锦?
- 應(yīng)用拉格朗日乘數(shù),后面λ部分應(yīng)該是約束條件疆液。究竟是個什么約束條件一铅?
Normal distribution
Normal distribution has the maximum entropy with given mean and variance
- This explains the ubiquity of the normal distribution 解釋了正態(tài)分布的普遍性
- Knowing only mean and variance, we have to assume the distribution is normal 只知道均值和方差,我們必須假設(shè)分布是正常的
Normal distribution問題:
- 三個約束條件都是怎么得出來的堕油?
Exponential distribution
Exponential distribution has the maximum entropy for a positive random variable with a given expectation 指數(shù)分布在給定期望的正隨機變量時潘飘,有最大熵
Without addtional information, we have to assume all survival times are exponetially distributed. 沒有附加信息,我們必須假設(shè)所有survival times 都是指數(shù)分布的掉缺。
- p(x)dx - 1
- xp(x)dx - μ
%pylab inline
import me
from scipy.optimize import minimize
import pandas as pd
lecture = 10
matplotlib.rcParams.update({'font.size': 14})
x = np.arange(0, 10, .05)
a = np.array([x])
u = np.array([1.])
e = np.array([0])
q = np.ones(np.size(x))
dual = me.MaxEntDual(q, a, u, e)
res = minimize(dual.dual, np.zeros(len(u)), jac=dual.grad, method="BFGS")
figure(figsize=[12, 8])
subplot(2, 2, 1)
plot(x, dual.dist(res.x));
title('$x>0, \mathbb{E}[x]=1$');
subplot(2, 2, 3)
x = np.arange(-13., 13., .01)
a = np.array([x, x*x])
u = np.array([0., 1.])
e = np.array([0., 0.])
q = np.ones(np.size(x))/len(q)
dual = me.MaxEntDual(q, a, u, e)
res = minimize(dual.dual, np.zeros(len(u)), jac=dual.grad, method="BFGS")
semilogy(x, dual.dist(res.x))
xlim(-8, 8)
ylim(1e-16, 1e-2)
title('$\mathbb{E}[x] = 0, \mathbb{E}[x^2] = 1$');
subplot(2, 2, 4)
a = np.vstack([a, x*x*x*x])
u = np.append(u, 20)
e = np.append(e, 0)
dual = me.MaxEntDual(q, a, u, e)
res = minimize(dual.dual, np.zeros(len(u)), jac=dual.grad, method="BFGS")
semilogy(x, dual.dist(res.x))
xlim(-8, 8)
title('$\mathbb{E}[x] = 0, \mathbb{E}[x^2] = 1, \mathbb{E}[x^4] = 20$');
subplot(2, 2, 2)
a = np.vstack([a, x*x*x])
u = np.append(u, -4)
e = np.append(e, 0)
dual = me.MaxEntDual(q, a, u, e)
res = minimize(dual.dual, np.zeros(len(u)), jac=dual.grad, method="BFGS")
plot(x, dual.dist(res.x))
xlim(-8, 4)
title('$\mathbb{E}[x] = 0, \mathbb{E}[x^2] = 1, \mathbb{E}[x^3] = -4, \mathbb{E}[x^4] = 20$');
這一塊老師用了他自己的 import me
同時我也不太理解他的 MaxEntDual 是什么?先跳過眶明,之后要回來再找找艰毒。
