贝叶斯公式与全概率公式的深层理解——直觉与理性的碰撞

贝叶斯公式与全概率公式的深层理解——直觉与理性的碰撞
Kanwuqing0 条件概率与全概率公式
0.1 条件概率
条件概率的定义感觉是建立在贝叶斯公式的基础上的, 但是这一章只介绍其意义, 公式由来在贝叶斯章节介绍
对于事件
0.2 全概率公式
全概率公式是条件概率的推广, 对于事件
上面都是开胃小菜, 接下来——
1 贝叶斯公式
1.1 公式和推导
贝叶斯的公式内容和推导其实十分简单:
1.2 反直觉的例子
考虑一个案例: 有一个人叫
大多数人出于经验 (有些人觉得是理性)
会判断他更可能是图书管理员, 但这个判断实际上是非理性的.
这个问题(非理性)的关键并不在于农民与图书管理员形象的认知偏差,
而是在于没有人把农民与图书管理员占总人口的比例因素考虑进去,
这就产生了判断与概率论定律的建议的做法之间产生非理性的矛盾
(听起来不像人话, 那么只要关注最后两个字,
知道判断与概率论的结果有矛盾就行了)
在这里, 是否理性指的并不是人们是否知道事实, 而是意识到哪些因素是相关的, 比如在这个例子中, 没有人知道农民与图书管理员的比例, 但是若人们是理性的, 那么应该意识到这个判断应该同时取决于职业的人数之比
这在概率论中是一个经典错误:
忽略基础概率
从概率论的角度来看, 假设: -
那么, 眼前符合这个描述的农民是
到这里, 矛盾显而易见地出现了. 显然应该更接受概率论的结果, 因为经验性的判断仅仅是将二者使新证据(也就是那一段描述)成立的概率大小相比较, 缺少严谨性
因此, 我们知道了, 新证据不能直接凭空决定看法, 而是应该更新先前的经验
1.3 贝叶斯公式的引入
回顾一下我们在上文中根据概率论计算的过程: 1. 整理已有的经验概率 2. 根据眼前的证据, 更新 (限制) 经验概率, 确定概率空间 (换句话说, 我们把考虑的情况限制在了证据正确的条件下) 3. 计算概率空间中的概率
这就是贝叶斯公式的计算逻辑, 它将过去的经验与眼前的证据有机结合, 并赋予了人们更新经验的能力
这句话是笔者高中的第一个数学老师说的, 也是笔者十分敬重的老师. 初次听到这句话的时候, 并没有很大的感触, 只是闭眼就用. 近期偶然间接触了条件概率的深层意义, 写这篇笔记的时候才真正体会到了这句话的精妙之处
因此, 个人认为, 在贝叶斯公式中, 这样一个符号 给定(given)更为合适,
证据(即做出判断的条件), 假设(即做出判断的结论), 在给定 $A$ 的条件下, 假设的 $B$ 成立的概率
再回头看这个公式与上文例子之间的联系:
指的是证据(Evidence), 即符合描述的人 指的是符合描述的人的频率(占比)( 似然概率)指的是假设(Hypothesis)( 先验概率), 即图书管理员 (注意: 这里没有提出前提条件)指的是图书管理员的频率(占比), 也可以认为是考虑新证据之前, 成立的概率, 在上述例子中 是我们的目标( 后验概率), 也就是在给定的条件下, 成立的概率, 在例子中指的就是在给定符合描述的人的情况下, 这个人是图书管理员的可能性 指的是在给定 的条件下, 成立的概率, 在例子中指的就是在给定这个人是一名图书管理员的情况下, 这个人符合描述的概率 类似的,
指的是在给定这个人不是图书管理员的情况下, 也就是这个人是农民的情况下, 这个人符合描述的概率
那么, 将计算的过程文字化表示(把 在...的条件下),
就有:
1.4 记忆理解方式
当我们看到证据时, 证据对于已有经验的不同部分的限制程度是不同的, 在这种情况下, 假设成立的概率是它在被限制部分中成立的概率
有人可能会推荐背公式, 也有人可能会推荐记一张图片, 其中有不同的占比.
笔者偏向后面一种理解方法(也就是在这里.
当我们把
1.5 贝叶斯公式与全概率公式的结合
1.5.1 引入全概率公式
一看到标题, 可能很多人会一头雾水. 事实上, 在上文中我们已经将二者相结合了
将1.3中的文字表述公式抄下来, 我们有:
在上文中, 我们已有经验有两部分, 分别是图书管理员(
不妨对比一下这个公式与最初贝叶斯公式的区别
可以看到, 我们把
1.5.2 更为鲁棒的形式
然而, 在大多数情况下, 全集
不要看到
这种形式就发怵, 它和上文中的 没有本质上的区别
1.6 再来一个例子
那么, 不是拳)运动中的一个积极分子更有可能?
如果选择后者, 那么一定没有按照概率论来思考, 而是用普通做选择题所谓最符合的思想来选判断了, 注意我们的问题: 更有可能
那么我们知道了, 要用贝叶斯公式来严谨计算概率.假设
又错了, 应该注意到,
是女权积极分子且是银行出纳员的前提是是银行出纳员,
前者是后者成立的必要条件, 换句话说,
其实到这里, 我们已经可以意会到, 是女权且是出纳员”成立的概率一定小于(生活精要告诉我们不可能等于)“是银行出纳员”成立的概率
1.6.1 问法会影响判断
若是换一个问法: 一百个人符合上述描述, 那么其中有
若是将不同问法影响判断的程度排序, 我们可以体会到:
100个种有 $m$ 个比$40\%$
更直观比$0.4$ 更直观比...更有可能更直观
原因是, 从前到后, 我们更难使用上文中提到的几何角度来模拟概率了
2 概率论的实质
笔者当然没法把实质完全讲清楚, 只说一些自身的理解
概率, 在许多人看来是不确定性的代表, 然而, 无论从几何还是数学公式来看, 其的值都是由确定的比例构成的, 这也是科学速强调的点
3 贝叶斯公式的应用的矛盾性
相信已经有人发现了, 若是将一个公式套用之至现实, 其相对性会产生其矛盾性, 感觉不像人话, 那我们拿上文中的例子来看
- 在
的例子中, 首先, 谁是 ? 换句话说, 他是从哪里被抽出来的? 是全国? 还是全校? 还是图书馆? 还是某个人身边的人群? 这会直接影响先验概率的值, 就像笔者在过去的一段时间里接触的图书管理员一定比农民要多. 那么这时候哪怕考虑了人群比例作出的判断也一定会是图书管理员 - 在
的例子中, 我们意识到职业之间是会有交集的, 一个人可以既是银行出纳员, 还是女权. 那么目光转移到 的例子中, 为什么一个人不能既是图书管理员, 又是农民呢? 也许会说, 这概率也太小了吧, 但它确实不等于 .
这里有一个十分简单的解释, 设
在上述例子中, 总体符合描述的人的占比是相同的(即
在
则之女比较
4 理性与感性的契合与矛盾
在上文两个例子中, 我们都可以看到,
理性与感性均出现了矛盾,
那么为什么会出现这种矛盾呢? 这显然是心理学家该研究的东西
这里想说, 在大多数情况下, 人们作出判断的过程还是符合贝叶斯公式的内容的. 防止有人读完这篇笔记再也不相信自己的直觉了, 再举个例子(来源于漫士沉思录)
在这个案例中, 人们会自然而然地考虑这条狗平时是好狗还是坏狗, 即这条狗有贼时叫的概率和有贼不叫的概率还有没贼也叫/没贼不叫的概率
我们可以很自然地设出事件:
那么
表示 居住地有贼的概率(也就是治安), 治安越好, 越小 表示先前已经验证过, 有贼时狗会叫的概率, 直越大表示这条狗越聪明(好) 表示先前已经验证过, 有贼时狗不会叫的概率, 越大表示这条狗越笨 表示先前已经验证过, 没有贼时狗会叫的概率, 越大表示这条狗越爱叫(坏) 表示先前已经验证过, 没有贼时狗不会叫的概率, 越大表示这条狗越不爱叫
要是排列组合所有取值那也太难了(而且没意义), 我们就拿两种情况来解释
治安好, 且狗很爱叫, 那么当狗叫时,
会认为有贼的概率会很小写出公式:
, 此时 很小, 很大, 也很大, 那么 就会很小治安差, 且狗是好狗, 那么当狗叫时,
会认为有贼的概率会很大写出公式, 此时
很大, 很小, 很大, 那么 就会很大
可以看到, 在上述两种情况下,
5 刨坑
贝叶斯公式在人工智能, 以及连续概率中的应用
