# 1. 信息量(Information Content)

在信息论中,信息量用来度量某个事件带来的“惊讶程度”。
概率越小的事件,发生时带来的信息量越大。

定义:如果某个事件 xx 的概率是 P(x)P(x),它的信息量为:

I(x)=logP(x)I(x) = - \log P(x)

解释:

  • 概率大 → 事件常见 → 信息量小
  • 概率小 → 事件稀有 → 信息量大

# 2. 信息熵(Entropy)

如果我们有一个分布 PP,它描述了所有可能事件的概率分布,那么信息熵表示的是 在这个分布下,事件发生时平均能带来的信息量

公式为:

H(P)=xP(x)logP(x)H(P) = - \sum_x P(x) \log P(x)

连续分布则写为:

H(P)=P(x)logP(x)dxH(P) = - \int P(x) \log P(x) \, dx

直观理解:熵越大,说明分布越“均匀”,不确定性越高;熵越小,说明分布越集中,不确定性越低。


# 3. 交叉熵(Cross Entropy)

假设真实分布是 PP,但我们用另一个分布 QQ 去建模,那么平均信息量会是多少?
这就引出了 交叉熵

H(P,Q)=xP(x)logQ(x)H(P, Q) = - \sum_x P(x) \log Q(x)

解释:

  • 如果我们用 QQ 来代替 PP,那么事件的概率会按照 QQ 来估计。
  • 交叉熵越小,说明 QQ 越接近 PP

# 4. KL 散度(Kullback–Leibler Divergence)

KL 散度就是 交叉熵和信息熵的差

DKL(PQ)=H(P,Q)H(P)D_{KL}(P \| Q) = H(P, Q) - H(P)

展开后就是常见的定义:

DKL(PQ)=xP(x)logP(x)Q(x)D_{KL}(P \| Q) = \sum_x P(x) \log \frac{P(x)}{Q(x)}

意义:

  • 它表示:如果真实分布是 PP,但我们用 QQ 来近似时,额外多花了多少信息量
  • P=QP=Q 时,DKL=0D_{KL}=0;否则 DKL>0D_{KL} > 0

# 5. 性质总结

  1. 非负性

    DKL(PQ)0D_{KL}(P \| Q) \geq 0

    (由 Jensen 不等式保证)

  2. 不对称性

    DKL(PQ)DKL(QP)D_{KL}(P \| Q) \neq D_{KL}(Q \| P)

  3. 等于零的条件
    当且仅当 P=QP = Q


# 6. 举个例子

真实分布:

P=(0.8,0.2)P = (0.8, 0.2)

预测分布:

Q=(0.5,0.5)Q = (0.5, 0.5)

计算:

DKL(PQ)=0.8log0.80.5+0.2log0.20.50.193D_{KL}(P \| Q) = 0.8 \log \frac{0.8}{0.5} + 0.2 \log \frac{0.2}{0.5} \approx 0.193

说明:预测分布 QQ 和真实分布 PP 有一定差异,但还算可以接受。


# 7. 在机器学习中的应用

  1. 分类任务
    常见的交叉熵损失函数,其实就是 H(P,Q)H(P, Q),等价于 KL 散度 + 熵 H(P)H(P)(因为 H(P)H(P) 是常数,不影响优化)。

  2. 变分自编码器 (VAE)
    用 KL 散度约束隐变量分布不要偏离先验分布。

  3. 强化学习
    用 KL 散度衡量新旧策略的差异,避免训练时更新过大。


更新于

请我喝[茶]~( ̄▽ ̄)~*

koen 微信支付

微信支付

koen 支付宝

支付宝