machine-learning-notes
  • 封面
  • 目录
  • 前言
  • 个人前言
  • 机器学习前言
    • 什么是机器学习和模式识别
    • 机器学习的应用
    • 机器学习的流程
    • 不同的机器学习算法对相同数据预测效果不同
    • 快速入门机器学习
    • 机器学习需要参考哪些书
    • 机器学习的学习路径
    • 深度学习的学习路径
    • 互联网机器学习特定岗位所需技能
  • 机器学习面试
  • 数学基础
  • 微积分
    • 泰勒展开
    • e的直观认识
    • 傅里叶变换
    • 希尔伯特空间
  • 线性代数
    • 范数
    • 矩阵求导
    • 特征值
    • 奇异值分解
  • 概率与信息论
    • 综述概率论基本定义
    • 概率论与贝叶斯先验
    • 正态分布
    • 贝叶斯概率
    • 概率符号说明
    • 共轭先验
    • 信息论
  • 数值计算与优化
    • 最小二乘法
    • 等式约束的拉格朗日乘子法
    • 凸优化
      • 凸集和凸函数
      • 凸优化问题
  • 梯度下降算法
    • 随机梯度下降SGD
    • 动量法Momentum
    • 牛顿动量Nesterov
    • AdaGrad
    • RMSprop
    • Adadelta
    • Adam
    • Nadam
    • AMSGrad
    • AdasMax
  • 概率图模型
    • 概率图模型概论
    • 概率图简介
  • 编程基础
  • linux
    • linux常用命令
    • shell
      • 输入输出重定向
  • python
    • python简介
    • python语法
      • 基础语法
      • 数据结构
      • 过程控制
      • 函数
      • 类和对象
      • 文件操作
      • 正则表达式
    • python库
      • numpy
      • pandas
      • scipy
      • matplotlib
      • scikit-learn
    • python应用
      • 排序算法
  • 数据结构与算法
    • 数据结构
    • 算法思想
      • 排序
        • 堆排序
        • 归并排序
        • 快速排序
      • 递归
    • 剑指offer
      • 链表
      • 二叉树
      • 数组
      • 字符串
      • 栈和队列
      • 递归
      • 动态规划
      • 其他
    • leetcode
    • 编程语言
      • c++
  • Hadoop
    • Hadoop简介
    • MapReduce
  • Hive
  • Spark
  • TensorFlow
    • TensorFlow1.0
      • TensorFlow基础
      • TensorFlow基础概念解析
      • TensorFlow机器学习基础
      • Tensorflow分布式架构
    • TensorFlow2.0
  • PyTorch
  • 机器学习
  • 机器学习概论
  • 特征工程
  • 感知机
  • k近邻
  • 朴素贝叶斯
  • 线性模型
    • 最大熵模型
    • 指数族分布与广义线性模型
    • 线性回归
      • Ridge回归(岭回归)
      • Lasso回归
    • Logistic回归-对数几率回归
  • 决策树
  • 支持向量机
    • 线性可分支持向量机与硬间隔最大化
    • 线性支持向量机与软间隔最大化
    • 非线性支持向量机与核函数
    • 序列最小最优化算法SMO
    • SVM总结
  • 集成学习
    • Bagging
      • 随机森林
    • Boosting
      • AdaBoost
      • GradientBoosting
        • GBDT
        • XGBoost
          • XGBoost理论
          • XGBoost实践
    • Stacking
  • 降维
    • PCA主成分分析
    • 流形学习
  • EM算法
  • HMM隐马尔科夫模型
  • CRF条件随机场
  • 聚类
    • k均值聚类
    • 高斯混合模型
  • 主题模型
    • LDA隐狄利克雷分布
  • 知识点
    • 损失函数
    • 负采样
  • 机器学习算法总结
  • 深度学习
  • 深度学习概论
  • ANN人工神经网络
  • 知识点
    • Batch Normalization
  • CNN卷积神经网络
  • 深度学习优化算法
  • RNN循环神经网络
  • LSTM长短期记忆网络
  • GRU门控循环单元
  • GNN图神经网络
    • GNN图神经网络综述
    • GCN图卷积网络
      • GCN图卷积网络初步理解
      • GCN图卷积网络的numpy简单实现
      • GCN图卷积网络本质理解
      • GCN图卷积网络全面理解
      • SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS ICLR2017
  • 神经网络架构搜索
    • Weight-Agnostic-Neural-Networks Google2019
  • 强化学习
  • 强化学习概论
  • 马尔科夫决策过程
  • 动态规划
  • 无模型方法一:蒙特卡洛
  • 无模型方法二:时间差分
  • 无模型方法三:多步自举
  • 函数近似和深度网络
  • 策略梯度算法
  • 深度强化学习
  • 基于模型的强化学习
  • 强化学习前景
  • 自然语言处理
  • 自然语言处理概论
  • 自然语言
  • 语言模型和中文分词
  • word2vec
    • word2vec概述
    • word2vec算法原理
    • word2vec源码分析
    • word2vec实践
  • Seq2Seq模型和Attention机制
  • Self-Attention和Transformer
  • 知识图谱
  • 推荐系统
  • 推荐系统概论
  • 基础知识
  • 进阶知识
    • 机器学习
      • Factorization Machines ICDM2010
    • embedding
      • Network Embedding
        • LINE: Large-scale Information Network Embedding
    • 深度学习
      • DeepFM: A Factorization-Machine based Neural Network for CTR Prediction 2017
      • DSSM: Learning Deep Structured Semantic Models for Web Search using Clickthrough Data CIKM2013
    • 图卷积网络
      • Graph Convolutional Neural Networks for Web-Scale Recommender Systems KDD2018
    • 强化学习
      • DRN基于深度强化学习的新闻推荐模型
  • 业界应用
    • YouTube
      • Deep Neural Networks for YouTube Recommendations RecSys2016
    • Alibaba
      • Learning Tree-based Deep Model for Recommender Systems KDD2018
      • Deep Interest Network for Click-Through Rate Prediction KDD2018
      • DSIN:Deep Session Interest Network for Click-Through Rate Prediction IJCAI2019
Powered by GitBook
On this page
  • 概率论与贝叶斯先验
  • 概率论基础
  • 概率与直观
  • 常见概率分布
  • Sigmod/Logistic函数的引入
  • 统计量
  • 期望/方差/协方差/相关系数
  • 样本方差的有偏与无偏估计
  • 独立和不相关
  • 大数定律
  • 中心极限定理
  • 最大似然估计
  • 过拟合
  • 参考资料

Was this helpful?

  1. 概率与信息论

概率论与贝叶斯先验

Previous综述概率论基本定义Next正态分布

Last updated 5 years ago

Was this helpful?

概率论与贝叶斯先验

      • [贝叶斯(Bayes)公式](#贝叶斯(Bayes)公式)

概率论基础

概率与直观

本福特定律

本福特定律(本福特法则),又称第一数字定律,是指在实际生活得出的一组数据中,以1为首位数字出现的概率约为总数的三成;是直观想象1/9的三倍。

数字

1

2

3

4

5

6

7

8

9

出现概率

30.1%

17.6%

12.51%

9.7%

7.9%

6.7%

5.8%

5.1%

4.6%

广泛存在于生活中,比如:

  • 阶乘、素数数列、斐波那契数列首位

  • 住宅地址号码

  • 经济数据反欺诈

  • 选举投票反欺诈

条件概率

P(A∣B)=P(AB)P(B)P(A|B)=\frac{P(AB)}{P(B)}P(A∣B)=P(B)P(AB)​

全概率公式

P(A)=∑iP(A∣Bi)P(Bi)P(A)=\sum_{i}P(A|B_i)P(B_{i})P(A)=i∑​P(A∣Bi​)P(Bi​)

贝叶斯(Bayes)公式

P(Bi∣A)=P(BiA)P(A)=P(ABi)P(A)=P(A∣Bi)P(Bi)∑jP(A∣Bj)P(Bi)P(B_i|A)=\frac{P(B_iA)}{P(A)}=\frac{P(AB_i)}{P(A)}=\frac{P(A|B_i)P(B_i)}{\sum_jP(A|B_j)P(B_i)}P(Bi​∣A)=P(A)P(Bi​A)​=P(A)P(ABi​)​=∑j​P(A∣Bj​)P(Bi​)P(A∣Bi​)P(Bi​)​

贝叶斯公式一定要熟练的掌握运用。

思考题

8支步枪中有5支已校准过,3支未校准。一名射手用校准过的枪射击,中吧概率为0.8;用未校准过的枪射击,中靶概率为0.3;现从8支枪中随机取一支射击,结果中靶了。求该枪是已校准过的概率。

凡是从结果中算原因,基本就是使用贝叶斯公式。

解:

P(G=1)=58      P(G=0)=38P(A=1∣G=1)=0.8      P(A=0∣G=1)=0.2P(A=1∣G=0)=0.3      P(A=0∣G=0)=0.7P(G=1∣A=1)=?P(G=1∣A=1)=P(A=1∣G=1)∑i∈GP(A=1∣G=i)P(G=i)=0.8×580.8×58+0.3×38=0.8163\begin{aligned} &P(G=1)=\frac{5}{8}\ \ \ \ \ \ P(G=0)=\frac{3}{8}\\ &P(A=1|G=1)=0.8\ \ \ \ \ \ P(A=0|G=1)=0.2\\ &P(A=1|G=0)=0.3\ \ \ \ \ \ P(A=0|G=0)=0.7\\ &P(G=1|A=1)=?\\ &P(G=1|A=1)=\frac{P(A=1|G=1)}{\sum_{i\in G}P(A=1|G=i)P(G=i)}=\frac{0.8\times \frac{5}{8}}{0.8\times\frac{5}{8}+0.3\times\frac{3}{8}}=0.8163 \end{aligned}​P(G=1)=85​      P(G=0)=83​P(A=1∣G=1)=0.8      P(A=0∣G=1)=0.2P(A=1∣G=0)=0.3      P(A=0∣G=0)=0.7P(G=1∣A=1)=?P(G=1∣A=1)=∑i∈G​P(A=1∣G=i)P(G=i)P(A=1∣G=1)​=0.8×85​+0.3×83​0.8×85​​=0.8163​

我们后面会聊到贝叶斯网络,里面会讲到朴素贝叶斯,贝叶斯概率和朴素贝叶斯的关系就像是雷锋和雷峰塔的区别,就是JavaScript和Java的区别。朴素贝叶斯是假定条件独立,假定特征均衡,进行分类的非常重要的分类器,曾经也被誉为十大数据挖掘算法之一。而贝叶斯呢?得看上下文,贝叶斯公式是贝叶斯;说模型是用贝叶斯的方法做,那意思就是想加入先验,想把它的参数当作是随机变量。

给定某系统的若干样本x,计算该系统的参数,即

P(θ∣x)=P(x∣θ)P(θ)P(xc)P(\theta|x)=\frac{P(x|\theta)P(\theta)}{P(xc)}P(θ∣x)=P(xc)P(x∣θ)P(θ)​
  • P(θ)P(\theta)P(θ):没有数据支持下,θ\thetaθ发生的概率,即在获取经验之前的概率:先验概率。

  • P(θ∣x)P(\theta|x)P(θ∣x):在数据x的支持下,θ\thetaθ发生的概率:后验概率。

  • P(x∣θ)P(x|\theta)P(x∣θ):给定某参数θ\thetaθ的概率分布:似然函数。想算算在某个参数给定的时候,换句话,系统给定了的时候,那么说,这个样本x的发生概率,即x1,x2,x3...,xnx_1,x_2,x_3...,x_nx1​,x2​,x3​...,xn​发生的联合概率,那么说,像x1,x2,x3...,xnx_1,x_2,x_3...,x_nx1​,x2​,x3​...,xn​这样发生的概率,那就是似然概率,不是很理解

  • P(xf)P(xf)P(xf):没有任何参数影响下样本x的发生概率。不同的参数θ\thetaθ,对于P(x)P(x)P(x)没有任何影响。

假设x=(x1,x2,x3,...xm)x=(x_1,x_2,x_3,...x_m)x=(x1​,x2​,x3​,...xm​)一共m个样本,给定了m个样本x,看哪个参数θ\thetaθ取最大,这不就是这个意思嘛。我们想算算哪个参数可能概率取最大,哪个就最有可能的参数嘛。因为P(x)P(x)P(x)和任何参数的取值都无关,所以,我们想取P(θ∣x)P(\theta|x)P(θ∣x)最大,就是P(x∣θ)P(θ)P(x|\theta)P(\theta)P(x∣θ)P(θ)取最大,跟底下分母的P(x)P(x)P(x)无关,可以把分母P(x)P(x)P(x)扔掉,即

P(θ∣x)∝P(x∣θ)P(θ)P(\theta|x)\propto P(x|\theta)P(\theta)P(θ∣x)∝P(x∣θ)P(θ)

例如:

  • 在没有任何信息的前提下,猜测某人姓氏:先猜李王张刘......猜对的概率相对较大:先验概率。

  • 若知道某人来自"牛家村",则他姓牛的概率很大:后验概率——但不排除他姓郭、杨等情况。

常见概率分布

常见分布可以完美统一为一类分布。

两点分布(伯努利分布)

0-1分布,Bernoulli distribution

已知随机变量X的分布律为

X

1

0

p

p

1-p

则有

E(X)=1⋅p+0⋅q=pD(X)=E(X2)−[E(X)]2=12⋅p+02⋅(1−p)−p2=pq\begin{aligned} E(X)&=1\cdot p+0\cdot q=p\\ D(X)&=E(X^2)-[E(X)]^2\\ &=1^2\cdot p+0^2\cdot (1-p)-p^2=pq \end{aligned}E(X)D(X)​=1⋅p+0⋅q=p=E(X2)−[E(X)]2=12⋅p+02⋅(1−p)−p2=pq​

二项分布

Binomial Distribution

两点分布做n次试验,那么就变成了二项分布

设随机变量X服从参数为n,pn,pn,p的两点分布,如何求期望和方差?

(法一)设XiX_iXi​为第iii次试验中事件A的发生次数,i=1,2,...,ni=1,2,...,ni=1,2,...,n,则

X=∑i=1nXiX=\sum_{i=1}^{n}X_iX=i=1∑n​Xi​

显然,XiX_iXi​相互独立均服从参数为p的0-1分布,

所以

E(X)=E(∑i=1nXi)=∑i=1nE(Xi)=npD(X)=D(∑i=1nXi)=∑i=1nD(Xi)=np(1−p)\begin{aligned} E(X)=E(\sum_{i=1}^n X_i)=\sum_{i=1}^n E(X_i)=np\\ D(X)=D(\sum_{i=1}^n X_i)=\sum_{i=1}^n D(X_i)=np(1-p) \end{aligned}E(X)=E(i=1∑n​Xi​)=i=1∑n​E(Xi​)=npD(X)=D(i=1∑n​Xi​)=i=1∑n​D(Xi​)=np(1−p)​

(法二)X的分布律为

P(X=k)=(nk)pk(1−p)n−k,(k=0,1,2,...,n),P(X=k)=\binom{n}{k}p^k(1-p)^{n-k},(k=0,1,2,...,n),P(X=k)=(kn​)pk(1−p)n−k,(k=0,1,2,...,n),

则有

E(X)=∑k=0nk⋅P(X=k)=∑k=0nk(nk)pk(1−p)n−k=∑k=0nkn!k!(n−k)!pk(1−p)n−k=∑k=0nn!(k−1)!(n−k)!pk(1−p)n−k\begin{aligned} E(X)&=\sum_{k=0}^{n}k\cdot P(X=k)\\ &=\sum_{k=0}^{n}k\binom{n}{k}p^k(1-p)^{n-k}\\ &=\sum_{k=0}^{n}\frac{kn!}{k!(n-k)!}p^k(1-p)^{n-k}\\ &=\sum_{k=0}^{n}\frac{n!}{(k-1)!(n-k)!}p^k(1-p)^{n-k}\\ \end{aligned}E(X)​=k=0∑n​k⋅P(X=k)=k=0∑n​k(kn​)pk(1−p)n−k=k=0∑n​k!(n−k)!kn!​pk(1−p)n−k=k=0∑n​(k−1)!(n−k)!n!​pk(1−p)n−k​

正态分布

Sigmod/Logistic函数的引入

统计量

期望/方差/协方差/相关系数

样本方差的有偏与无偏估计

为什么$\frac{1}{n}\sum{i=1}^n(x^{(i)}-\hat{\mu)}$要小于$\frac{1}{n}\sum{i=1}^n(x^{(i)}-\mu)$?

因为显然$\hat{\mu}\neq\mu$啊。

如果对MSE进行分解,它可以写成bias的平方+估计量的方差,所以它同时衡量了精度(accuracy)和准度(precision)。

独立和不相关

大数定律

中心极限定理

最大似然估计

过拟合

参考资料

本节主要照抄自本课程。

conditional_probability
conditional_probability

(魏天闻的回答)

(马同学的回答)

正态分布的前世今生(四)
为什么样本方差(sample variance)的分母是 n-1?
为什么样本方差(sample variance)的分母是 n-1?
小象学院-邹博老师-机器学习-第二课
返回上层目录
概率论基础
概率与直观
本福特定律
条件概率
全概率公式
常见概率分布
Sigmod/Logistic函数的引入
统计量
期望/方差/协方差/相关系数
独立和不相关
大数定律
中心极限定理
最大似然估计
过拟合
返回顶层目录
方差有偏估计