点击查看【bilibili】

1 章 绪论.pdf

2 章 离散信源及其信息测度.pdf

intro

熵可以从随机变量状态需要的平均信息量角度理解, 也可以从描述统计力学中无序程度的度量角度理解。从平均信息量的角度来看,对于不确定性事件,可以用消除其不确定性需要的信息量(bit 数)来表示,这里表示成logpi-\log p_i,而考虑到随机事件的不确定性,可以通过对信息量求期望得到某随机事件(随机变量)的信息熵,信息熵越大,则说明(消除随机性)需要的信息量越大,即不确定性越大。
一般来说,对于随机变量XX,其信息熵定义如下:

H(X)=i=1np(xi)log2p(xi)H(X)=-\sum\limits_{i=1}^{n}p(x_i)\log_2{p(x_i)}

  • if p=0p=0,then plog2p=0p\log_2{p}=0
  • H(X)H(X)越小,XX的纯度越高。非均匀分布比均匀分布熵要小
  • 熵衡量的是不确定性,概率描述的是确定性,其实确定性和不确定性差不多。

条件熵

一般来说,在不引入任何额外信息的情况下,系统的不确定性是不会改变的,任何公式或者数字的游戏都不能减少不确定性。几乎所有的自然语言处理与数字信号处理都是一个引入信息消除不确定性的过程。在对引入信息减少的不确定性之前,需要先定义信息引入后系统的熵,即条件熵:

H(XY)=xX,yYnp(xy)log2p(xy)H(X|Y)=\sum\limits_{x\in\mathcal{X},y\in\mathcal{Y}}^{n}p(x|y)\log_2{p(x|y)}

注意这里的期望其实相当于条件概率函数的对数期望,其实际含义就是当YY给定时XX的不确定性。
接下来的概念,把熵的思想应用在模式识别问题中。

互信息

定义了条件熵之后,很容易就可以得到引入信息YYXX的不确定性减少量,亦或者叫做熵的减少量,这里我们将其定义为互信息(mutual information):

I(X;Y)=H(X)H(XY)I(X;Y)=H(X)-H(X|Y)

其实,所谓两个事件的相关性的度量,其实就是当一个事件YY给定的前提下,消除另一个变量XX不确定性所需要提供的信息量,若该值为 0,则说明当YY给定条件下XX唯一确定,也就是说XXYY完全相关,互信息常被用来度量语言现象中的相关性(解决词义的二义性问题)

相关性主要刻画线性,互信息刻画非线性

信息增益

这个对应的是第五章的内容,决策树学习应用信息增益准则选择特征。 g(D,A)=H(D)H(DA)g(D,A)=H(D)-H(D|A)
信息增益表示得知XX的信息而使类YY的信息的不确定性减少的程度。
在决策树学习中,信息增益等价于训练数据集中类与特征的互信息

联合熵

联合熵相当于集合中的并集运算

H(X,Y)=H(X)+H(YX)=H(Y)+H(XY)=H(XY)+H(YX)+I(X;Y)H(X, Y) = H(X) + H(Y|X) = H(Y)+H(X|Y) = H(X|Y)+H(Y|X)+I(X;Y)

I(X;Y)=H(X)H(XY)I(X;Y)=H(X)-H(X|Y)

这个通过 Venn 应该是相对容易记忆,是不是容易理解这个。
如果XXYY独立同分布,联合概率分布P(X,Y)=P(X)P(Y)P(X,Y)=P(X)P(Y)

相对熵 (KL 散度)

相对熵(Relative Entropy)/KL 散度描述差异性,可用于度量两个取值为正的函数之间的差异:

KL(f(x)g(x))=xXf(x)logf(x)g(x)K L(f(x) \| g(x))=\sum_{x \in X} f(x) \cdot \log \frac{f(x)}{g(x)}

KL 散度不是一个度量,度量要满足交换性(可通过定义12[KL(f(x)g(x))+KL(g(x)f(x))] \frac{1}{2}[K L(f(x) \| g(x))+K L(g(x) \| f(x))] 做修正)
KL 散度满足非负性。

KL 散度也可以用来度量两个分布函数的差异性,KL 散度越大,分布的差异越大

考虑由p(x,y)p(x,y)给出的两个变量xxyy组成的数据集。如果变量的集合是独立的,那么他们的联合分布可以分解为边缘分布的乘积p(x,y)=p(x)p(y)p(x,y)=p(x)p(y)
如果变量不是独立的,那么我们可以通过考察联合分布边缘分布乘积之间的 KL 散度来判断他们是否"接近"于相互独立。

I(x,y)=KL(p(x,y)p(x)p(y))=p(x,y)ln(p(x)p(y)p(x,y))I(x,y)=KL(p(x,y)|p(x)p(y))=-\iint p(x,y) \ln {\left( \frac{p(x)p(y)}{p(x,y)}\right)}

交叉熵最早被应用到信号处理中两个不同信号的比较,后来也被用来判断两个常用词是否是同义(比较在不同文本中的概率分布)