Bayes定理

常规Bayes

Bayes是一个根据证据来修改假设成立概率的公式

Try to draw out this diagram

设H为Hypothesis, E为Evidence

P(H)=(无证据前)Hypothesis成立的概率,即先验概率

P(E|H) = 在Hypothesis成立的条件下,满足这个证据的概率

P(E|-H)= 在Hypothesis不成立的条件下,满足这个证据的概率

P(E)= P(E|H)*P(H) + P(E|-H)*P(-H) ,即全概率

P(H|E)=(存在证据后)Hypothesis成立的概率,即后验概率(有了证据后的概率,后验概率)

P(H|E)表示Hypothesis given the evidence,即在evidence的条件下,Hypothesis为真的概率

具体分析P(E|H)和P(E|-H)意义

如果P(E|H)等于P(E|-H)

P(E|H) equals to P(E|-H)

农民爱读书的概率和读书人爱读书的概率相同,那么在求P(H|E)时,这个证据:爱读书Hypothesis:是农民还是读书人没有任何影响。

再比如,男人要吃饭,女人也要吃饭,所以这个证据:吃饭Hypothesis:是男人还是女人没有任何影响

如果P(E|H)和P(E|-H)差距很大

P(E|H) greater than P(E|-H)

如果P(E|H)和P(E|-H)差距很大,那么这个证据会极大地改变你对这个Hypothesis的认知

比如:在所有男生中,男生学计算机的概率P(E|H)=0.6;在所有女生中,女生学计算机的概率P(E|-H)=0.1,那么证据:学计算机就对Hypothesis:是男人还是女人有很大影响

若人群中,是男生的概率为50%,即P(H)=0.5,是女生的概率也为50%,即P(-H)=0.5

那么在人群中,

是男生P(H),且这个男生学计算机的概率,翻译成公式:P(H)* P(E|H)=0.3

是女生P(-H),且这个女生学计算机的概率,翻译成公式:P(-H)*P(E|-H)-0.05

那么P(E)=P(H)* P(E|H)+P(-H)*P(E|-H),即人群中有35%的学计算机的概率

那么想知道一个学计算机的同学,是男生的概率,只要用P(H)*P(E|H) / P(E),即0.3/0.35

结果明显有很大的概率说明这个计算机的同学是男生。

小结

Bayes公式是根据证据来改变对原Hypothesis成立的概率,是基于事实进行的合理地推理

关联性问题

求P(A and B)

P(A and B)?= P(A) * P(B)

如果抛两次筛子,两次都得到“1”的概率是1/6 * 1/6 =1/36,这个是肯定的,因为抛两次筛子,两次的动作是完全独立的。

如果人群中有1/4的人有心脏病,那么请问我和我哥哥同时有心脏病的概率是1/16吗?

答案:不是。如果是任意两个陌生人,他们俩同时有心脏病的概率是1/16,但是,我与哥哥有关联性!我们不是完全独立的。如果我哥哥有心脏病,那我和哥哥同时有心脏病的概率会大于1/16,公式是P(A and B)= P(A) * P(B|A)

公式解释:人群中有心脏病的概率P(A),有心脏病的人是我哥哥的概率P(B|A)

毕设中传感器检测的例子

已知:传感器检测到异常,请问室内是否有人在活动?

分析

分子:运动概率*检测运动条件下传感器触发的概率

分母:运动概率*检测运动条件下传感器触发的概率+ 不运动概率*没检测到运动条件下传感器触发的概率

已知:

室内有人运动概率为50%,则P(H)=0.5

有人条件下,红外传感器触发概率为0.9,超声波传感器触发概率为0.8,RSSI触发概率为0.8

无人条件下,红外传感器触发概率为0.1,超声波传感器触发概率为0.2,RSSI触发概率为0.2

有人条件下,三个传感器触发的概率P(E)为0.9*0.8*0.8=0.576

而全概率,即有人条件下三个传感器触发概率 + 无人条件下三个传感器触发概率 = 0.5*0.576 + 0.5*0.1*0.2*0.2=0.29

则分子为0.288,分母为0.29

则在室内有人的情况下

三个传感器都触发概率为99.31%

只有其中两个P[(Red and Ultra) or (Ultra and RSSI) or (Red and RSSI) | H] = 0.296

三个传感器都不触发的概率为P(!Red and !Ultra and !RSSI | H) = 0.004

如果我们将监测到高频传感器的采样时间窗口设置为T,那么事件A指的是当且仅当在时间T内有人进入到监测的区域并的与传感器信号相交高于设定的阈值时,入侵事件才发生。

那么,在此条件下,我们假设将房间内的人运动模式建模为泊松过程,当且仅当 lambda*T>1 时,有所以有人进入房间的概率就为:

P(A) = 1 - exp(-lambda * T)

其中lambda(λ)表示特定时间窗口中,房间内有人运动的平均速率。如果我们不知道 λ的值,可以根据历史数据或其他相关信息来估算。

此处提供了事件定义和产生概率的问题解释,如果 lambda(λ)以及其他条件已经确定,我们就可以根据定义和条件标准计算条件概率 P(A | Red, Ultra, RSSI) = P(Red, Ultra, RSSI | A) * P(A) / P(Red, Ultra, RSSI)译 中为:在短T时刻,有人进入并触发了三个传感器的方法来入侵的条件概率。

时间窗口T是一个时间单位,并且表示给定的特定时间间隔,例如秒、分钟、小时等。在楼层安防监控问题中,时间窗口T通常是非常短的时间段,例如几秒甚至更短,这样我们可以以较高的时间精度来检测人员进入房间的情况,并保证及时采取必要的行动。 时间窗口T的大小需要根据特定场景来确定。如果T太大,可能无法很好地捕捉到短暂的入侵行为,导致监测漏报。如果T太小,则可能增加误报率。一般而言,T的确切值应该根据相关统计数据以及安全需求手动设置,并在实际应用中进行调整和优化以达到最佳策略。

读书人和农民的例子

场景

已知:小明爱读书,请问他更可能是个读书人,还是一位农民?

分析

问题是求小明是个读书人的概率

根据Bayes公式

分子:(人群中)读书人概率*是读书人条件下爱看书的概率

分母:(人群中)读书人概率*是读书人条件下爱看书的概率+ (人群中)农民概率*是农民条件下爱看书的概率

分子: P(H)(E|H)

分母: P(H)(E|H)+P(-H)P(E|-H) =P(E)

后验概率=分子/分母

P(H|E)=P(H)(E|H)/P(E)

假设:

  1. 人群中读书人概率是20%,即P(H)=0.2
  2. 读书人爱看书的概率是90%,即P(E|H)=0.9,而不读书人爱看书的概率是5%,P(E|-H)=0.05
  3. 分子为P(H)(E|H)=0.18
  4. 分母为P(H)(E|H)+P(-H)P(E|-H)=0.18+0.04=0.22

那么基于这个证据,那么P(H|E)=0.818181,有80%的概率认为,小明是读书人。

是否得新冠的例子

image-20230425111847887

根据证据:核酸结果为阳性判断Hypothesis:得新冠的概率

分子:人群中得新冠的概率*得新冠的人中核酸结果为阳性的概率,即P(H)*P(E|H)

分母:人群中得新冠的概率*得新冠的人中核酸结果为阳性的概率+人群中健康人的概率*得健康人的中核酸结果为阳性的概率

分母即在所有人(健康人+得新冠人)中核酸结果为阳性的概率

如果

P(H)为0.1,P(E|H)为0.99999

P(-H)为0.9,P(E|-H)为0.00001

那么

分子=0.099999

分母=0.099999+0.000009=0.100008

P(H|E)=0.99991

结论:如果根据证据:核酸结果为阳性,可以有近100%概率表明Hypothesis:得了新冠

比例Bayes

视频源:https://www.youtube.com/watch?v=lG4VkPoG3ko

这部分提出了一个新的公式,与常规Bayes公式不同点在于,这个公式中使用的是O(H|E),其中O表示odd,是比例

背景,1000个人里面,有1%得了新冠,即一共10个人得了新冠,这10个人都做了核酸检测,但只有9个人显示阳性。

而另外的990人是健康,他们也都做了核酸检测,但有89有个人显示阳性

这里提出几个概念

1、真阳性(True positive):共9人,得了新冠,且核酸显示阳性

2、假阴性(False negative):共1人,得了新冠,但核酸显示阴性

3、假阳性(False positive):共89人,健康,但核酸显示阳性

4、真阴性(True negative):共901人,健康,且核酸显示阴性

image-20230425114554964

那么,这个例子中,阳性预测值=TP/(TP+FP),表示在结果是阳性里面,真得病的概率P(Have Cancer|Positive Test)=9/(9+89)=1/11

然后,又提出了两个概念

1、灵敏度(Sensitivity)

Sensitivity

对得了新冠的人,检测出90%的阳性,正确率90%

2、特异性(Specificity)

Specificity

对健康人,检测出91%的阴性,正确率91%

所有结果是阳性里面,真得病的概率

P(Have Cancer|Positive Test)=9/(9+89)=1/11,也就是说,这个概率还是很低的,但这与我们想象中的认知相反,我们会认为结果是阳性的人,大部分(至少90%?)是真得了新冠。

毕竟健康中显示为阳性的人数近似于得了新冠的人数,而在灵敏度不高的情况下,会出现这种情况。

随后,视频抛出一个问题

若已知:患病率Prevalence=1%,Sensitivity=90%,Specificity=91%。

请问,在结果为阳性的里面,真得病的概率是多少?

先说结论:

似然比计算公式:O(D|+)=O(D)*Factor=(1:99)*10=10:99,而P(D|+)=10:109,约等于1/11

其中Factor=Sensitivity/(1-Specificity)=0.9/0.09=10

Bayes Factor(似然比)

image-20230425131447552

拥有似然比后,可以更新:update先验概率,从而得到后验概率的近似值,但只适合当先验概率很小的情况,比如小于0.01时

Posterior=(Prior)*(Bayes factor)

若Prior为0.01,factor为10,那么后验概率为0.1

若Prior为0.1,factor为10,那么后验概率为1,显然不合理了

然而,上述是使用概率方式计算,但Bayes Factor更适用于比例计算

下面开始使用比例,O(D|+)

阳性:阴性在test前后,只相差了Bayes Factor(似然比)

image-20230425132604122

使用Bayes Factor(似然比)更新先验概率,得到后验概率

对于先验概率为1%,即1:99的比例,乘以Bayes Factor=10,结果是10:99,对应的概率为1:109约等于1/11,就和上面直接使用概率进行运算结果相似

image-20230425132735985

对于先验概率很大的情况也适合

对于先验概率为10%,即1:9的比例,乘以Bayes Factor=10,结果是10:9,对应的概率为10:19约等于0.53

image-20230425132923056

若Bayes Factor=90,同样也适合

image-20230425133542901

小结下,这里的prevalence,就是Prior先验概率(或用比例),而test会更新这个比例,从而得到后验概率

image-20230425133739097

使用比例的Bayes

image-20230425134009105

比如,用计算机学科男女解释

在上图中,O(D)为人群中男生比例P(+|D)男生中学计算机的概率,P(+|-D)女生中学计算机的概率

那么P(+|D)/P(+|-D)则是Bayes factor,可以认为男生中学计算机的人数是女生中学计算机的人数的factor倍,再乘以人群中男生的比例O(D),即完成了对O(D)更新,从而得到后验比例表示人群中男生学计算机的比例

知道后验比例后,可以转换成后验概率P(D),即可得到人群中男生学计算机的概率,那么随便拉一个同学过程,我们有P(D)的概率说明这个同学是男生。

使用概率的Bayes

usual version of Bayes' rule

usual version of Bayes' rule

比如,还用计算机学科男女解释

在上图中,P(D)为人群中男生概率P(+|D)男生中学计算机的概率

P(-D)为人群中女生概率P(+|-D)女生中学计算机的概率

使用原公式,可以直接求出后验概率

两种Bayes的对比

image-20230425134324940

现在,还是上面生病的例子,假设Prior=0.1,即患病率为10%,Sensitivity=90%,Specificity=91%。

P(+)表示检测结果为阳性,P(D)表示患病率(先验概率),P(D|+)表示在证据:测结果为阳性下患病概率

求P(D|+)

使用常规Bayes

P(+)=P(D)*P(+|D)+P(-D)*P(+|-D)=Prior*Sensitivity+(1-Prior)*(1-Specificity)=0.1*0.9+0.9*0.09

P(D|+)=P(D)*P(+|D)/P(+)=0.09/(0.09+0.9*0.09)=10/19

使用比例Bayes

Factor=P(+|D)/P(+|-D)=Sensitivity/(1-Specificity)=10

O(D|+)=O(D)*Factor=(1:9)*10=10:9

P(D|+)=10/19

说明,两种方式求的结果是相同的

另外,还可以用比例下的Bayes Factor计算多个证据联合对假设的影响,但像之前提到过的,这些证据之前可能不是相互独立而是有关联的

image-20230425134425625