贝叶斯公式与全概率公式的深层理解——直觉与理性的碰撞

0 条件概率与全概率公式

0.1 条件概率

条件概率的定义感觉是建立在贝叶斯公式的基础上的, 但是这一章只介绍其意义, 公式由来在贝叶斯章节介绍

对于事件 , 表示在事件 发生的条件下事件 发生的概率, , 其中 表示事件 同时发生的概率, 当且仅当 独立时,

0.2 全概率公式

全概率公式是条件概率的推广, 对于事件 , 如果它们是完备事件组 (用人话说就是把所有可能情况不重不漏地分到 个不同的集合中去), 即 , 且两两互斥, 即 (), 则对于任意事件 , 其发生的概率就是其在 条件下的发生的概率之和, 其中 发生的概率为 , 即

上面都是开胃小菜, 接下来——

1 贝叶斯公式

1.1 公式和推导

贝叶斯的公式内容和推导其实十分简单:

1.2 反直觉的例子

考虑一个案例: 有一个人叫 , 他乐于助人, 容易害羞, 性格较为孤僻, 温柔且做事仅仅有条, 结构清晰且乐于钻研细节, 那么他是农民的可能性大还是是图书管理员的可能性大?

大多数人出于经验 (有些人觉得是理性) 会判断他更可能是图书管理员, 但这个判断实际上是非理性的. 这个问题(非理性)的关键并不在于农民与图书管理员形象的认知偏差, 而是在于没有人把农民与图书管理员占总人口的比例因素考虑进去, 这就产生了判断与概率论定律的建议的做法之间产生非理性的矛盾 (听起来不像人话, 那么只要关注最后两个字, 知道判断与概率论的结果有矛盾就行了)

在这里, 是否理性指的并不是人们是否知道事实, 而是意识到哪些因素是相关的, 比如在这个例子中, 没有人知道农民与图书管理员的比例, 但是若人们是理性的, 那么应该意识到这个判断应该同时取决于职业的人数之比

这在概率论中是一个经典错误: 忽略基础概率

概率论的角度来看, 假设: - , 也就是眼前有 个农民和 个图书管理员 - 听到对于 的描述后, 认为有 的图书管理员符合这个描述, 有 的农民符合这个描述

那么, 眼前符合这个描述的农民是 个, 图书管理员是 个, 将这 个人作为样本空间, 那么 是农民的概率是 , 是图书管理员的是 , 也就是说, 哪怕认为符合描述的人是图书管理员的可能性是是一个农民的四倍, 也抵不住农民人多, 所以 是农民的可能性更大

到这里, 矛盾显而易见地出现了. 显然应该更接受概率论的结果, 因为经验性的判断仅仅是将二者使新证据(也就是那一段描述)成立的概率大小相比较, 缺少严谨性

因此, 我们知道了, 新证据不能直接凭空决定看法, 而是应该更新先前的经验

1.3 贝叶斯公式的引入

回顾一下我们在上文中根据概率论计算的过程: 1. 整理已有的经验概率 2. 根据眼前的证据, 更新 (限制) 经验概率, 确定概率空间 (换句话说, 我们把考虑的情况限制在了证据正确的条件下) 3. 计算概率空间中的概率

这就是贝叶斯公式的计算逻辑, 它将过去的经验眼前的证据有机结合, 并赋予了人们更新经验的能力

这句话是笔者高中的第一个数学老师说的, 也是笔者十分敬重的老师. 初次听到这句话的时候, 并没有很大的感触, 只是闭眼就用. 近期偶然间接触了条件概率的深层意义, 写这篇笔记的时候才真正体会到了这句话的精妙之处

因此, 个人认为, 在贝叶斯公式中, 这样一个符号 中的 解释成给定(given)更为合适, 解释为 证据(即做出判断的条件), 解释为 假设(即做出判断的结论), 解释为 在给定 $A$ 的条件下, 假设的 $B$ 成立的概率

再回头看这个公式与上文例子之间的联系:

  • 指的是证据(Evidence), 即符合描述的人

    指的是符合描述的人的频率(占比)(似然概率)

  • 指的是假设(Hypothesis)(先验概率), 即图书管理员 (注意: 这里没有提出前提条件)

    指的是图书管理员的频率(占比), 也可以认为是考虑新证据之前, 成立的概率, 在上述例子中

  • 是我们的目标(后验概率), 也就是在给定 的条件下, 成立的概率, 在例子中指的就是在给定符合描述的人的情况下, 这个人是图书管理员的可能性

  • 指的是在给定 的条件下, 成立的概率, 在例子中指的就是在给定这个人是一名图书管理员的情况下, 这个人符合描述的概率

    类似的, 指的是在给定这个人不是图书管理员的情况下, 也就是这个人是农民的情况下, 这个人符合描述的概率

那么, 将计算的过程文字化表示(把 理解为在...的条件下), 就有:

1.4 记忆理解方式

当我们看到证据时, 证据对于已有经验的不同部分的限制程度是不同的, 在这种情况下, 假设成立的概率是它在被限制部分中成立的概率

有人可能会推荐背公式, 也有人可能会推荐记一张图片, 其中有不同的占比. 笔者偏向后面一种理解方法(也就是在这里. 当我们把 理解为已有经验中, 假设成立所占的面积, 理解为已有经验中, 符合描述的人所占的总面积, 那么贝叶斯公式自然而然就理解了

1.5 贝叶斯公式与全概率公式的结合

1.5.1 引入全概率公式

一看到标题, 可能很多人会一头雾水. 事实上, 在上文中我们已经将二者相结合了

1.3中的文字表述公式抄下来, 我们有:

在上文中, 我们已有经验有两部分, 分别是图书管理员()和农民(), 因此我们写出来的公式是:

不妨对比一下这个公式与最初贝叶斯公式的区别

可以看到, 我们把 拆分成了 , 并且我们可以发现 , 换句话说, 是完备事件组, 根据全概率公式, , 因此, 我们在上文中未加推导自然而然就把全概率公式带入贝叶斯了.

1.5.2 更为鲁棒的形式

然而, 在大多数情况下, 全集 并不是会仅分成两个事件, 而是分成多个事件, 因此, 仅仅用一个 表示所有的已有经验的分类是不够的, 我们需要设出 表示所有可能的已有经验, 其中 (), , 那么我们可以写出更为鲁棒的形式:

不要看到 这种形式就发怵, 它和上文中的 没有本质上的区别

1.6 再来一个例子

是一个外向的, 非常聪明的女生, 专业是哲学, 作为一名学生, 她非常关心歧视和社会公平问题, 而且参加反核游行示威活动.

那么, 是一个银行出纳员更有可能, 还是是一个银行出纳员也是女权(不是拳)运动中的一个积极分子更有可能?

如果选择后者, 那么一定没有按照概率论来思考, 而是用普通做选择题所谓最符合的思想来选判断了, 注意我们的问题: 更有可能

那么我们知道了, 要用贝叶斯公式来严谨计算概率.假设 表示是银行出纳员, 表示是女权积极分子且是银行出纳员, 是其他情况…

又错了, 应该注意到, 是女权积极分子且是银行出纳员的前提是是银行出纳员, 前者是后者成立的必要条件, 换句话说, , 我们不能这么设事件

其实到这里, 我们已经可以意会到, 是女权且是出纳员”成立的概率一定小于(生活精要告诉我们不可能等于)“是银行出纳员”成立的概率

1.6.1 问法会影响判断

若是换一个问法: 一百个人符合上述描述, 那么其中有 个银行出纳员, 个既是女权, 又是出纳员?, 那么相信一定能答出 的答案

若是将不同问法影响判断的程度排序, 我们可以体会到:

100个种有 $m$ 个$40\%$ 更直观比$0.4$ 更直观比...更有可能更直观

原因是, 从前到后, 我们更难使用上文中提到的几何角度来模拟概率了

2 概率论的实质

笔者当然没法把实质完全讲清楚, 只说一些自身的理解

概率, 在许多人看来是不确定性的代表, 然而, 无论从几何还是数学公式来看, 其的值都是由确定的比例构成的, 这也是科学速强调的点

3 贝叶斯公式的应用的矛盾性

相信已经有人发现了, 若是将一个公式套用之至现实, 其相对性会产生其矛盾性, 感觉不像人话, 那我们拿上文中的例子来看

  1. 的例子中, 首先, 谁是 ? 换句话说, 他是从哪里被抽出来的? 是全国? 还是全校? 还是图书馆? 还是某个人身边的人群? 这会直接影响先验概率的值, 就像笔者在过去的一段时间里接触的图书管理员一定比农民要多. 那么这时候哪怕考虑了人群比例作出的判断也一定会是图书管理员
  2. 的例子中, 我们意识到职业之间是会有交集的, 一个人可以既是银行出纳员, 还是女权. 那么目光转移到 的例子中, 为什么一个人不能既是图书管理员, 又是农民呢? 也许会说, 这概率也太小了吧, 但它确实不等于 .

这里有一个十分简单的解释, 设 代表银行出纳员, 代表是银行出纳员同时也是女权.

在上述例子中, 总体符合描述的人的占比是相同的(即 的值不变), 我们只要比较 的值即可. 在这里, 我们并不要求 是完备事件集. 那么显然, , 且 , 那么符合描述时, 是银行收纳员的概率一定比兼具二者的概率大

的例子中, 我们设 代表图书管理员, 代表农民, , 同样的, 的值保持不变, 我们可以将是图书管理员分为是图书管理员且不是农民()和是农民且是图书管理员(), 且容易得到, 当全集 时, 是完备事件集, 农民同理, 那么根据贝叶斯公式和全概率公式, 我们可以得到:

则之女比较 的值即可, 这时二者没有交集, 可以用上文中的方式来操作.

4 理性与感性的契合与矛盾

在上文两个例子中, 我们都可以看到, 理性感性均出现了矛盾, 那么为什么会出现这种矛盾呢? 这显然是心理学家该研究的东西

这里想说, 在大多数情况下, 人们作出判断的过程还是符合贝叶斯公式的内容的. 防止有人读完这篇笔记再也不相信自己的直觉了, 再举个例子(来源于漫士沉思录)

家有一条狗, 晚上突然大叫, 那么家里进贼的概率是多少?

在这个案例中, 人们会自然而然地考虑这条狗平时是好狗还是坏狗, 即这条狗有贼时叫的概率有贼不叫的概率还有没贼也叫/没贼不叫的概率

我们可以很自然地设出事件: 代表有贼, 代表没贼, 这其中是不存在有贼和没贼的量子叠加态的; 代表狗叫, 代表狗不叫, 同样狗不可能同时叫又不叫

那么

  • 表示 居住地有贼的概率(也就是治安), 治安越好, 越小
  • 表示先前已经验证过, 有贼时狗会叫的概率, 直越大表示这条狗越聪明(好)
  • 表示先前已经验证过, 有贼时狗不会叫的概率, 越大表示这条狗越笨
  • 表示先前已经验证过, 没有贼时狗会叫的概率, 越大表示这条狗越爱叫(坏)
  • 表示先前已经验证过, 没有贼时狗不会叫的概率, 越大表示这条狗越不爱叫

要是排列组合所有取值那也太难了(而且没意义), 我们就拿两种情况来解释

  1. 治安好, 且狗很爱叫, 那么当狗叫时, 会认为有贼的概率会很小

    写出公式: , 此时 很小, 很大, 也很大, 那么 就会很小

  2. 治安差, 且狗是好狗, 那么当狗叫时, 会认为有贼的概率会很大

    写出公式, 此时 很大, 很小, 很大, 那么 就会很大

可以看到, 在上述两种情况下, 的判断与概率论所建议的相契合, 这是因为将先验概率考虑进去了

5 刨坑

贝叶斯公式在人工智能, 以及连续概率中的应用