KL散度

# 1. 信息量（Information Content）

在信息论中，信息量用来度量某个事件带来的“惊讶程度”。
概率越小的事件，发生时带来的信息量越大。

定义：如果某个事件 $x$ 的概率是 $P(x)$ ，它的信息量为：

$I(x) = - \log P(x)$

解释：

如果我们有一个分布 $P$ ，它描述了所有可能事件的概率分布，那么信息熵表示的是 在这个分布下，事件发生时平均能带来的信息量。

公式为：

$H(P) = - \sum_x P(x) \log P(x)$

连续分布则写为：

$H(P) = - \int P(x) \log P(x) \, dx$

直观理解：熵越大，说明分布越“均匀”，不确定性越高；熵越小，说明分布越集中，不确定性越低。

假设真实分布是 $P$ ，但我们用另一个分布 $Q$ 去建模，那么平均信息量会是多少？
这就引出了 交叉熵：

$H(P, Q) = - \sum_x P(x) \log Q(x)$

解释：

KL 散度就是 交叉熵和信息熵的差：

$D_{KL}(P \| Q) = H(P, Q) - H(P)$

展开后就是常见的定义：

$D_{KL}(P \| Q) = \sum_x P(x) \log \frac{P(x)}{Q(x)}$

意义：

真实分布：

$P = (0.8, 0.2)$

预测分布：

$Q = (0.5, 0.5)$

计算：

$D_{KL}(P \| Q) = 0.8 \log \frac{0.8}{0.5} + 0.2 \log \frac{0.2}{0.5} \approx 0.193$

说明：预测分布 $Q$ 和真实分布 $P$ 有一定差异，但还算可以接受。

分类任务
常见的交叉熵损失函数，其实就是 $H(P, Q)$ ，等价于 KL 散度 + 熵 $H(P)$ （因为 $H(P)$ 是常数，不影响优化）。
变分自编码器 (VAE)
用 KL 散度约束隐变量分布不要偏离先验分布。
强化学习
用 KL 散度衡量新旧策略的差异，避免训练时更新过大。