概率论与贝叶斯先验

概率论与贝叶斯先验

概率论基础

概率与直观

本福特定律

本福特定律(本福特法则),又称第一数字定律,是指在实际生活得出的一组数据中,以1为首位数字出现的概率约为总数的三成;是直观想象1/9的三倍。

数字

1

2

3

4

5

6

7

8

9

出现概率

30.1%

17.6%

12.51%

9.7%

7.9%

6.7%

5.8%

5.1%

4.6%

广泛存在于生活中,比如:

  • 阶乘、素数数列、斐波那契数列首位

  • 住宅地址号码

  • 经济数据反欺诈

  • 选举投票反欺诈

条件概率

P(AB)=P(AB)P(B)P(A|B)=\frac{P(AB)}{P(B)}

全概率公式

P(A)=iP(ABi)P(Bi)P(A)=\sum_{i}P(A|B_i)P(B_{i})

贝叶斯(Bayes)公式

P(BiA)=P(BiA)P(A)=P(ABi)P(A)=P(ABi)P(Bi)jP(ABj)P(Bi)P(B_i|A)=\frac{P(B_iA)}{P(A)}=\frac{P(AB_i)}{P(A)}=\frac{P(A|B_i)P(B_i)}{\sum_jP(A|B_j)P(B_i)}

贝叶斯公式一定要熟练的掌握运用。

思考题

8支步枪中有5支已校准过,3支未校准。一名射手用校准过的枪射击,中吧概率为0.8;用未校准过的枪射击,中靶概率为0.3;现从8支枪中随机取一支射击,结果中靶了。求该枪是已校准过的概率。

凡是从结果中算原因,基本就是使用贝叶斯公式。

解:

P(G=1)=58      P(G=0)=38P(A=1G=1)=0.8      P(A=0G=1)=0.2P(A=1G=0)=0.3      P(A=0G=0)=0.7P(G=1A=1)=?P(G=1A=1)=P(A=1G=1)iGP(A=1G=i)P(G=i)=0.8×580.8×58+0.3×38=0.8163\begin{aligned} &P(G=1)=\frac{5}{8}\ \ \ \ \ \ P(G=0)=\frac{3}{8}\\ &P(A=1|G=1)=0.8\ \ \ \ \ \ P(A=0|G=1)=0.2\\ &P(A=1|G=0)=0.3\ \ \ \ \ \ P(A=0|G=0)=0.7\\ &P(G=1|A=1)=?\\ &P(G=1|A=1)=\frac{P(A=1|G=1)}{\sum_{i\in G}P(A=1|G=i)P(G=i)}=\frac{0.8\times \frac{5}{8}}{0.8\times\frac{5}{8}+0.3\times\frac{3}{8}}=0.8163 \end{aligned}

我们后面会聊到贝叶斯网络,里面会讲到朴素贝叶斯,贝叶斯概率和朴素贝叶斯的关系就像是雷锋和雷峰塔的区别,就是JavaScript和Java的区别。朴素贝叶斯是假定条件独立,假定特征均衡,进行分类的非常重要的分类器,曾经也被誉为十大数据挖掘算法之一。而贝叶斯呢?得看上下文,贝叶斯公式是贝叶斯;说模型是用贝叶斯的方法做,那意思就是想加入先验,想把它的参数当作是随机变量。

给定某系统的若干样本x,计算该系统的参数,即

P(θx)=P(xθ)P(θ)P(xc)P(\theta|x)=\frac{P(x|\theta)P(\theta)}{P(xc)}
  • P(θ)P(\theta):没有数据支持下,θ\theta发生的概率,即在获取经验之前的概率:先验概率。

  • P(θx)P(\theta|x):在数据x的支持下,θ\theta发生的概率:后验概率。

  • P(xθ)P(x|\theta):给定某参数θ\theta的概率分布:似然函数。想算算在某个参数给定的时候,换句话,系统给定了的时候,那么说,这个样本x的发生概率,即x1,x2,x3...,xnx_1,x_2,x_3...,x_n发生的联合概率,那么说,像x1,x2,x3...,xnx_1,x_2,x_3...,x_n这样发生的概率,那就是似然概率,不是很理解

  • P(xf)P(xf):没有任何参数影响下样本x的发生概率。不同的参数θ\theta,对于P(x)P(x)没有任何影响。

假设x=(x1,x2,x3,...xm)x=(x_1,x_2,x_3,...x_m)一共m个样本,给定了m个样本x,看哪个参数θ\theta取最大,这不就是这个意思嘛。我们想算算哪个参数可能概率取最大,哪个就最有可能的参数嘛。因为P(x)P(x)和任何参数的取值都无关,所以,我们想取P(θx)P(\theta|x)最大,就是P(xθ)P(θ)P(x|\theta)P(\theta)取最大,跟底下分母的P(x)P(x)无关,可以把分母P(x)P(x)扔掉,即

P(θx)P(xθ)P(θ)P(\theta|x)\propto P(x|\theta)P(\theta)

例如:

  • 在没有任何信息的前提下,猜测某人姓氏:先猜李王张刘......猜对的概率相对较大:先验概率。

  • 若知道某人来自"牛家村",则他姓牛的概率很大:后验概率——但不排除他姓郭、杨等情况。

常见概率分布

常见分布可以完美统一为一类分布。

两点分布(伯努利分布)

0-1分布,Bernoulli distribution

已知随机变量X的分布律为

X

1

0

p

p

1-p

则有

E(X)=1p+0q=pD(X)=E(X2)[E(X)]2=12p+02(1p)p2=pq\begin{aligned} E(X)&=1\cdot p+0\cdot q=p\\ D(X)&=E(X^2)-[E(X)]^2\\ &=1^2\cdot p+0^2\cdot (1-p)-p^2=pq \end{aligned}

二项分布

Binomial Distribution

两点分布做n次试验,那么就变成了二项分布

设随机变量X服从参数为n,pn,p的两点分布,如何求期望和方差?

法一)设XiX_i为第ii次试验中事件A的发生次数,i=1,2,...,ni=1,2,...,n,则

X=i=1nXiX=\sum_{i=1}^{n}X_i

显然,XiX_i相互独立均服从参数为p的0-1分布,

所以

E(X)=E(i=1nXi)=i=1nE(Xi)=npD(X)=D(i=1nXi)=i=1nD(Xi)=np(1p)\begin{aligned} E(X)=E(\sum_{i=1}^n X_i)=\sum_{i=1}^n E(X_i)=np\\ D(X)=D(\sum_{i=1}^n X_i)=\sum_{i=1}^n D(X_i)=np(1-p) \end{aligned}

法二)X的分布律为

P(X=k)=(nk)pk(1p)nk,(k=0,1,2,...,n),P(X=k)=\binom{n}{k}p^k(1-p)^{n-k},(k=0,1,2,...,n),

则有

E(X)=k=0nkP(X=k)=k=0nk(nk)pk(1p)nk=k=0nkn!k!(nk)!pk(1p)nk=k=0nn!(k1)!(nk)!pk(1p)nk\begin{aligned} E(X)&=\sum_{k=0}^{n}k\cdot P(X=k)\\ &=\sum_{k=0}^{n}k\binom{n}{k}p^k(1-p)^{n-k}\\ &=\sum_{k=0}^{n}\frac{kn!}{k!(n-k)!}p^k(1-p)^{n-k}\\ &=\sum_{k=0}^{n}\frac{n!}{(k-1)!(n-k)!}p^k(1-p)^{n-k}\\ \end{aligned}

正态分布

正态分布的前世今生(四)

Sigmod/Logistic函数的引入

统计量

期望/方差/协方差/相关系数

样本方差的有偏与无偏估计

为什么样本方差(sample variance)的分母是 n-1?(魏天闻的回答)

为什么样本方差(sample variance)的分母是 n-1?(马同学的回答)

为什么$\frac{1}{n}\sum{i=1}^n(x^{(i)}-\hat{\mu)}$要小于$\frac{1}{n}\sum{i=1}^n(x^{(i)}-\mu)$?

因为显然$\hat{\mu}\neq\mu$啊。

如果对MSE进行分解,它可以写成bias的平方+估计量的方差,所以它同时衡量了精度(accuracy)和准度(precision)。

独立和不相关

大数定律

中心极限定理

最大似然估计

过拟合

参考资料

本节主要照抄自本课程。

Last updated