在这个由数据驱动的时代,传统的确定性算法习惯告诉我们“是”或“否”。但在真实世界,尤其是复杂的物理系统或灾害推演中,充满了不确定性。
贝叶斯理论(Bayesian Theory) 提供了一种从不确定性中寻找真理的数学框架。它不只是一组公式,更是一种思维方式:根据新的证据,不断更新我们对世界的认知。
本文将带你走过一条从经典统计学通往现代深度学习的演进之路:
- 贝叶斯定理:一切的起源。
- 朴素贝叶斯:为了计算效率的“独立性妥协”。
- 贝叶斯网络 (PGM):描述万物因果的复杂图谱。
- 贝叶斯神经网络 (BNN):给深度学习装上“懂得怀疑”的大脑。
# 1. 一切的起点:贝叶斯定理
如果你只能记住一个概率公式,那必须是贝叶斯公式。它的核心逻辑是:后验概率 = (似然 × 先验概率) / 标准化常数。
# 1.1 数学形式与物理含义
- (Hypothesis,假设):我们想要验证的结论(例如:发生了山洪)。
- (Evidence,证据):我们观测到的事实(例如:降雨量超过 100mm)。
这个公式告诉我们如何通过观测来修正信念:
- 先验概率:在拿到数据之前,根据历史经验,山洪发生的概率是多少。
- 似然概率:如果真的发生了山洪(假设成立),那么出现“降雨量>100mm”这种现象的概率有多大?
- 后验概率:在观测到暴雨后,我们要把“发生山洪”的概率修正到多少?
# 1.2 直观理解:逆向推断
贝叶斯定理之所以强大,是因为它允许我们进行逆向概率推断。
通常我们容易获得“正向数据”(比如统计过去所有山洪事件中,有多少次是暴雨引发的)。但我们在应用中往往面临的是反向问题:现在正在下暴雨,未来发生山洪的几率有多大?贝叶斯公式就是连接这两者的桥梁。
# 2. 工程的妥协:朴素贝叶斯 (Naive Bayes)
当我们需要处理的特征非常多时(例如:判断灾害需要考虑降雨、坡度、植被、土壤湿度等几十个维度),计算所有特征的联合分布会变得异常困难。
为了让计算变得可行,数学家做了一个“天真(Naive)”的假设。
# 2.1 “朴素”在哪里?
朴素贝叶斯假设:所有的特征 之间是相互独立的。
这意味着,它认为“降雨量”和“土壤湿度”之间没有关系(虽然这在物理学上显然是错的)。但这个假设将复杂的联合概率简化为了简单的连乘。
# 2.2 为什么它依然有效?
尽管独立性假设不符合物理直觉,但在高维分类任务(如垃圾邮件识别、简单的文本分类)中,朴素贝叶斯依然表现出色。这是因为我们主要关注的是哪个类别的概率最大,而不是精确的概率值。只要各特征对分类的“投票方向”一致,独立性假设带来的偏差就不会改变最终的分类结果。
# 3. 结构化的因果:概率图模型 (PGM) / 贝叶斯网络
但是在很多场景中,不能容忍“特征独立”这种天真的假设。我们需要描述因果链条。
# 3.1 经典的“洒水车-下雨”模型
![]()
(图源:Wikimedia Commons. 这是一个经典的有向无环图 (DAG)。草湿了 (Grass Wet) 既可能是因为下雨 (Rain),也可能是因为洒水车 (Sprinkler))
# 3.2 灾害链中的应用
给出一个博主正在做的灾害链推演模型,这个图的结构可能变成:
[暴雨] [山洪] [泥石流]
我们利用这种结构进行阈值反演:
- 正向:暴雨导致泥石流的概率是多少?
- 反向:如果要求泥石流发生概率低于 1%,那么暴雨强度的警戒阈值应该设为多少?
# 4. 深度学习的进化:贝叶斯神经网络 (BNN)
传统的深度神经网络(DNN)虽然在拟合能力上远超上述模型,但它有一个致命弱点:盲目自信。
传统神经网络是确定的:输入数据,经过固定的权重计算,给出一个确定的分数。即使输入一张完全无关的噪声图,模型也可能以 99% 的置信度将其分类为“猫”。这在自动驾驶或灾害预警中是极度危险的。
# 4.1 从“点”到“分布”
贝叶斯神经网络 (BNN) 将贝叶斯概率论引入了深度学习。它的核心改变在于权重 (Weights):
- 传统 NN:权重 (每个神经元连接是一个固定的数字)。
- 贝叶斯 NN:权重 (每个神经元连接是一个高斯分布)。
![]()
(图源:Wikimedia Commons. 在 BNN 中,图中每一条连接线的权重 不再是一个固定的数字,而是一个高斯分布 )
这意味着,网络本身不再是一个死板的函数,而是一个概率分布系综。
# 4.2 两种不确定性
BNN 最强大的能力在于它能区分两种“不知道”:
- 偶然不确定性 (Aleatoric Uncertainty):源于数据本身的噪声(如传感器误差)。即便增加数据也无法消除。
- 认知不确定性 (Epistemic Uncertainty):源于模型见识太少(如训练数据未覆盖的场景)。BNN 会通过权重的剧烈波动,给出平坦的预测分布,告诉人类“我没见过这个,我不确定”。
# 4.3 推理机制:变分推断 (Variational Inference)
由于 BNN 的后验分布极其复杂,无法直接计算。在实际工程中,我们通常采用变分推断或MC Dropout 等方法进行近似。
简单来说,就是在预测时,不是只跑一次网络,而是让网络在权重的分布中随机采样多次(比如 50 次),得到 50 个不同的结果:
- 如果 50 个结果高度一致 高置信度。
- 如果 50 个结果差异巨大 高不确定性(需要人工介入)。
# 5. 总结
从最基础的贝叶斯公式,到为了计算妥协的朴素贝叶斯,再到能够刻画因果结构的贝叶斯网络,最后到融合了深度学习拟合能力的贝叶斯神经网络,这是一条从“规则”到“学习”,再回归到“理性怀疑”的技术演进之路。
- 朴素贝叶斯告诉我们:有时候为了效率,可以忽略细节。
- 贝叶斯网络告诉我们:世界的运作是有因果结构的,掌握结构就能反演阈值。
- BNN告诉我们:真正的智能,不仅是能给出答案,更是通过概率分布,诚实地表达自己对答案有多大把握。
在未来的 AI + 科学计算(AI for Science) 领域,结合了物理机理约束(PGM思维)与深度表示学习(NN思维)的融合模型,将是解决复杂系统推演的关键钥匙。
