概率论与贝叶斯先验
概率论基础
概率与直观
本福特定律
本福特定律(本福特法则),又称第一数字定律,是指在实际生活得出的一组数据中,以1为首位数字出现的概率约为总数的三成;是直观想象1/9的三倍。
广泛存在于生活中,比如:
条件概率
P(A∣B)=P(B)P(AB) 全概率公式
P(A)=i∑P(A∣Bi)P(Bi) 贝叶斯(Bayes)公式
P(Bi∣A)=P(A)P(BiA)=P(A)P(ABi)=∑jP(A∣Bj)P(Bi)P(A∣Bi)P(Bi) 贝叶斯公式一定要熟练的掌握运用。
思考题
8支步枪中有5支已校准过,3支未校准。一名射手用校准过的枪射击,中吧概率为0.8;用未校准过的枪射击,中靶概率为0.3;现从8支枪中随机取一支射击,结果中靶了。求该枪是已校准过的概率。
凡是从结果中算原因,基本就是使用贝叶斯公式。
解:
P(G=1)=85 P(G=0)=83P(A=1∣G=1)=0.8 P(A=0∣G=1)=0.2P(A=1∣G=0)=0.3 P(A=0∣G=0)=0.7P(G=1∣A=1)=?P(G=1∣A=1)=∑i∈GP(A=1∣G=i)P(G=i)P(A=1∣G=1)=0.8×85+0.3×830.8×85=0.8163 我们后面会聊到贝叶斯网络,里面会讲到朴素贝叶斯,贝叶斯概率和朴素贝叶斯的关系就像是雷锋和雷峰塔的区别,就是JavaScript和Java的区别。朴素贝叶斯是假定条件独立,假定特征均衡,进行分类的非常重要的分类器,曾经也被誉为十大数据挖掘算法之一。而贝叶斯呢?得看上下文,贝叶斯公式是贝叶斯;说模型是用贝叶斯的方法做,那意思就是想加入先验,想把它的参数当作是随机变量。
给定某系统的若干样本x,计算该系统的参数,即
P(θ∣x)=P(xc)P(x∣θ)P(θ) P(θ):没有数据支持下,θ发生的概率,即在获取经验之前的概率:先验概率。
P(θ∣x):在数据x的支持下,θ发生的概率:后验概率。
P(x∣θ):给定某参数θ的概率分布:似然函数。想算算在某个参数给定的时候,换句话,系统给定了的时候,那么说,这个样本x的发生概率,即x1,x2,x3...,xn发生的联合概率,那么说,像x1,x2,x3...,xn这样发生的概率,那就是似然概率,不是很理解
P(xf):没有任何参数影响下样本x的发生概率。不同的参数θ,对于P(x)没有任何影响。
假设x=(x1,x2,x3,...xm)一共m个样本,给定了m个样本x,看哪个参数θ取最大,这不就是这个意思嘛。我们想算算哪个参数可能概率取最大,哪个就最有可能的参数嘛。因为P(x)和任何参数的取值都无关,所以,我们想取P(θ∣x)最大,就是P(x∣θ)P(θ)取最大,跟底下分母的P(x)无关,可以把分母P(x)扔掉,即
P(θ∣x)∝P(x∣θ)P(θ) 例如:
在没有任何信息的前提下,猜测某人姓氏:先猜李王张刘......猜对的概率相对较大:先验概率。
若知道某人来自"牛家村",则他姓牛的概率很大:后验概率——但不排除他姓郭、杨等情况。
常见概率分布
常见分布可以完美统一为一类分布。
两点分布(伯努利分布)
0-1分布,Bernoulli distribution
已知随机变量X的分布律为
则有
E(X)D(X)=1⋅p+0⋅q=p=E(X2)−[E(X)]2=12⋅p+02⋅(1−p)−p2=pq 二项分布
Binomial Distribution
两点分布做n次试验,那么就变成了二项分布
设随机变量X服从参数为n,p的两点分布,如何求期望和方差?
(法一)设Xi为第i次试验中事件A的发生次数,i=1,2,...,n,则
X=i=1∑nXi 显然,Xi相互独立均服从参数为p的0-1分布,
所以
E(X)=E(i=1∑nXi)=i=1∑nE(Xi)=npD(X)=D(i=1∑nXi)=i=1∑nD(Xi)=np(1−p) (法二)X的分布律为
P(X=k)=(kn)pk(1−p)n−k,(k=0,1,2,...,n), 则有
E(X)=k=0∑nk⋅P(X=k)=k=0∑nk(kn)pk(1−p)n−k=k=0∑nk!(n−k)!kn!pk(1−p)n−k=k=0∑n(k−1)!(n−k)!n!pk(1−p)n−k 正态分布
正态分布的前世今生(四)
Sigmod/Logistic函数的引入
统计量
期望/方差/协方差/相关系数
样本方差的有偏与无偏估计
为什么样本方差(sample variance)的分母是 n-1?(魏天闻的回答)
为什么样本方差(sample variance)的分母是 n-1?(马同学的回答)
为什么$\frac{1}{n}\sum{i=1}^n(x^{(i)}-\hat{\mu)}$要小于$\frac{1}{n}\sum{i=1}^n(x^{(i)}-\mu)$?
因为显然$\hat{\mu}\neq\mu$啊。
如果对MSE进行分解,它可以写成bias的平方+估计量的方差,所以它同时衡量了精度(accuracy)和准度(precision)。
独立和不相关
大数定律
中心极限定理
最大似然估计
过拟合
参考资料
本节主要照抄自本课程。