machine-learning-notes
  • 封面
  • 目录
  • 前言
  • 个人前言
  • 机器学习前言
    • 什么是机器学习和模式识别
    • 机器学习的应用
    • 机器学习的流程
    • 不同的机器学习算法对相同数据预测效果不同
    • 快速入门机器学习
    • 机器学习需要参考哪些书
    • 机器学习的学习路径
    • 深度学习的学习路径
    • 互联网机器学习特定岗位所需技能
  • 机器学习面试
  • 数学基础
  • 微积分
    • 泰勒展开
    • e的直观认识
    • 傅里叶变换
    • 希尔伯特空间
  • 线性代数
    • 范数
    • 矩阵求导
    • 特征值
    • 奇异值分解
  • 概率与信息论
    • 综述概率论基本定义
    • 概率论与贝叶斯先验
    • 正态分布
    • 贝叶斯概率
    • 概率符号说明
    • 共轭先验
    • 信息论
  • 数值计算与优化
    • 最小二乘法
    • 等式约束的拉格朗日乘子法
    • 凸优化
      • 凸集和凸函数
      • 凸优化问题
  • 梯度下降算法
    • 随机梯度下降SGD
    • 动量法Momentum
    • 牛顿动量Nesterov
    • AdaGrad
    • RMSprop
    • Adadelta
    • Adam
    • Nadam
    • AMSGrad
    • AdasMax
  • 概率图模型
    • 概率图模型概论
    • 概率图简介
  • 编程基础
  • linux
    • linux常用命令
    • shell
      • 输入输出重定向
  • python
    • python简介
    • python语法
      • 基础语法
      • 数据结构
      • 过程控制
      • 函数
      • 类和对象
      • 文件操作
      • 正则表达式
    • python库
      • numpy
      • pandas
      • scipy
      • matplotlib
      • scikit-learn
    • python应用
      • 排序算法
  • 数据结构与算法
    • 数据结构
    • 算法思想
      • 排序
        • 堆排序
        • 归并排序
        • 快速排序
      • 递归
    • 剑指offer
      • 链表
      • 二叉树
      • 数组
      • 字符串
      • 栈和队列
      • 递归
      • 动态规划
      • 其他
    • leetcode
    • 编程语言
      • c++
  • Hadoop
    • Hadoop简介
    • MapReduce
  • Hive
  • Spark
  • TensorFlow
    • TensorFlow1.0
      • TensorFlow基础
      • TensorFlow基础概念解析
      • TensorFlow机器学习基础
      • Tensorflow分布式架构
    • TensorFlow2.0
  • PyTorch
  • 机器学习
  • 机器学习概论
  • 特征工程
  • 感知机
  • k近邻
  • 朴素贝叶斯
  • 线性模型
    • 最大熵模型
    • 指数族分布与广义线性模型
    • 线性回归
      • Ridge回归(岭回归)
      • Lasso回归
    • Logistic回归-对数几率回归
  • 决策树
  • 支持向量机
    • 线性可分支持向量机与硬间隔最大化
    • 线性支持向量机与软间隔最大化
    • 非线性支持向量机与核函数
    • 序列最小最优化算法SMO
    • SVM总结
  • 集成学习
    • Bagging
      • 随机森林
    • Boosting
      • AdaBoost
      • GradientBoosting
        • GBDT
        • XGBoost
          • XGBoost理论
          • XGBoost实践
    • Stacking
  • 降维
    • PCA主成分分析
    • 流形学习
  • EM算法
  • HMM隐马尔科夫模型
  • CRF条件随机场
  • 聚类
    • k均值聚类
    • 高斯混合模型
  • 主题模型
    • LDA隐狄利克雷分布
  • 知识点
    • 损失函数
    • 负采样
  • 机器学习算法总结
  • 深度学习
  • 深度学习概论
  • ANN人工神经网络
  • 知识点
    • Batch Normalization
  • CNN卷积神经网络
  • 深度学习优化算法
  • RNN循环神经网络
  • LSTM长短期记忆网络
  • GRU门控循环单元
  • GNN图神经网络
    • GNN图神经网络综述
    • GCN图卷积网络
      • GCN图卷积网络初步理解
      • GCN图卷积网络的numpy简单实现
      • GCN图卷积网络本质理解
      • GCN图卷积网络全面理解
      • SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS ICLR2017
  • 神经网络架构搜索
    • Weight-Agnostic-Neural-Networks Google2019
  • 强化学习
  • 强化学习概论
  • 马尔科夫决策过程
  • 动态规划
  • 无模型方法一:蒙特卡洛
  • 无模型方法二:时间差分
  • 无模型方法三:多步自举
  • 函数近似和深度网络
  • 策略梯度算法
  • 深度强化学习
  • 基于模型的强化学习
  • 强化学习前景
  • 自然语言处理
  • 自然语言处理概论
  • 自然语言
  • 语言模型和中文分词
  • word2vec
    • word2vec概述
    • word2vec算法原理
    • word2vec源码分析
    • word2vec实践
  • Seq2Seq模型和Attention机制
  • Self-Attention和Transformer
  • 知识图谱
  • 推荐系统
  • 推荐系统概论
  • 基础知识
  • 进阶知识
    • 机器学习
      • Factorization Machines ICDM2010
    • embedding
      • Network Embedding
        • LINE: Large-scale Information Network Embedding
    • 深度学习
      • DeepFM: A Factorization-Machine based Neural Network for CTR Prediction 2017
      • DSSM: Learning Deep Structured Semantic Models for Web Search using Clickthrough Data CIKM2013
    • 图卷积网络
      • Graph Convolutional Neural Networks for Web-Scale Recommender Systems KDD2018
    • 强化学习
      • DRN基于深度强化学习的新闻推荐模型
  • 业界应用
    • YouTube
      • Deep Neural Networks for YouTube Recommendations RecSys2016
    • Alibaba
      • Learning Tree-based Deep Model for Recommender Systems KDD2018
      • Deep Interest Network for Click-Through Rate Prediction KDD2018
      • DSIN:Deep Session Interest Network for Click-Through Rate Prediction IJCAI2019
Powered by GitBook
On this page
  • 概率图模型
  • 概率图模型综述
  • 概率图模型分类
  • 有向图(贝叶斯网络)
  • 无向图(马尔科夫随机场)
  • 概率图模型角度看机器学习
  • 待整合
  • 参考资料

Was this helpful?

  1. 概率图模型

概率图模型概论

Previous概率图模型Next概率图简介

Last updated 5 years ago

Was this helpful?

概率图模型

=================================

《深度学习》P49

概率图模型,简单说就是用graph来表示各参数的关系,用图的一些理论来简化公式上的推导吧。简单的说,就是概率图将原本公式表达的一长串列式,可视化了(多么火的词啊)!你用windows肯定比用dos在某些方面更加直观啊。

图模型是用图的方式表示概率推理 ,将概率模型可视化,方便展示变量之间的关系。概率图模型能利用复杂分布中的结构来紧凑表示它。

机器学习里能和深度学习有来有回的现在也就只有概率图了,而且作为一个优雅的模型,工程化上可解释性好太多。像lixin liu所说的这两个很早就已经结合起来了,比如stack RBM得到的deep belief network (DBN) 或者是deep boltzmann machine (DBM)等。 最近这两者的结合做的deep generative model,比如variational auto encoder效果也很不错。 题主可以看一下MIT的deep learning书中part 3从Chap 16 - 20的内容,介绍的都是如何把概率图模型的方法应用在deep learning上。作者:Xinran He链接:

Graphical Model到现在还是Machine Learning一个大支啊。。。每年NIPS和ICML关于他的文章还是很多的。。。必须系统学一下。。。比如现在火爆的Deep Learning,就是最早Hinton老爷子基于Restricted Boltzman Machine 搞得,这个RBM本质就是Random Markov Field。。。Graphical Model的一个大类。。。

还是Eric Xing老师的课有深度,是Jordan讲义的再扩展,里面还有Jun Zhu老师的研究成果。Koller的书应该是PGM的方法综述,也没啥具体的例子,一开始看也会是云里雾里的。PGM在互联网的实用价值其实不高,单一个CRF、LDA、KF HMM、或者它们之间组合的模型,应用在CV或者NLP就有一堆的论文了,还可以做非参数改造。真的要求解,又还得优化、统计不能少。做实验也不简单。—— 把Jun Zhu老师的Max-margin Nonparametric Bayes看懂,再做做实验试试,这可不是朝夕之功啊。反正,题主要为了兴趣就慢慢看,为了工作就去实习吧,为了发论文还是去水CNN、RNN、LSTM吧。作者:li zhengyang链接:

建议阅读PRML第八章:概率图模型

看PRML第8章就足够了(其实做ML的把这本圣经吃透也足够了(喜欢theory的再去看看Mohri的FML),实际上更多人这本书都看不下去就去翻其他乱七八糟的教材),完了读读Jordan的进个阶,然后根据自己的兴趣读最新论文。

作者:Untitled链接:

强推PRML相关章节,读了之后真是醍醐灌顶,感觉很棒,印象最深的一章了。 当然答主没读过其他概率图模型相关的资料,所以仅供参考~

《深度学习》goodfellow的第16章。讲的就是概率图模型。

机器学习的算法经常会涉及在非常多的随机变量上的概率分布。通常,这些概率分布涉及的直接相互作用都是介于非常少的变量之间的。使用单个函数来描述整个联合概率分布是非常低效的(无论是计算上还是统计上)。

概率图模型综述

在概率图模型中, 每个节点表示一个随机变量(或一组随机变量),边表示这些变量之间的概率关系。概率图分为有向图和无向图。有向图主要是贝叶斯网络,无向图主要是马尔科夫随机场。

贝叶斯网络由Judea Pearl 教授发明于上世界80年代,这项工作获得了2011年图灵奖。

概率图模型的应用有:

先说说PGM的重要性。概率图模型大致可以分为两种:

  • 有向图模型directed graphical model(又称贝叶斯网络)。贝叶斯网络由Judea Pearl教授发明于上世界80年代,这项工作获得了2011年图灵奖。

  • 有向图模型undirected graphical model(又称马尔可夫随机场)。马尔可夫随机场最早被物理学家用于对原子进行建模,其中的代表作Ising model获得过诺贝尔奖。

图灵奖+诺贝尔奖,PGM的重要性可见一斑。另外,PGM是将人工智能(AI)的研究热点从传统AI(如逻辑、推理、知识表示)转向机器学习的重要工作(其他起到这一作用的工作有支持向量机、决策树、boosting等)。

概率图模型在实际中(包括工业界)的应用非常广泛与成功。这里举几个例子。隐马尔可夫模型(HMM)是语音识别的支柱模型;高斯混合模型(GMM)及其变种K-means是数据聚类的最基本模型;条件随机场(CRF)广泛应用于自然语言处理(如词性标注,命名实体识别);Ising模型获得过诺贝尔奖;话题模型在工业界大量使用(如腾讯的推荐系统),等等。

PGM优雅的理论:机器学习的一个核心任务是从观测到的数据中挖掘隐含的知识,而概率图模型是实现这一任务的一种很优雅elegant,条理化principled的手段。PGM巧妙地结合了图论和概率论。从图论的角度,PGM是一个图,包含结点与边。结点可以分为两类:隐含结点和观测结点。边可以是有向的或者是无向的。从概率论的角度,PGM是一个概率分布,图中的结点对应于随机变量,边对应于随机变量的dependency或者correlation关系。

PGM实现方法:给定一个实际问题,我们通常会观测到一些数据,并且希望能够挖掘出隐含在数据中的知识。怎么用PGM实现呢?我们构建一个图,用观测结点表示观测到的数据,用隐含结点表示潜在的知识,用边来描述知识与数据的相互关系,最后获得一个概率分布。给定概率分布之后,通过进行两个任务:inference (给定观测结点,推断隐含结点的后验分布)和learning(学习这个概率分布的参数),来获取知识。PGM的强大之处在于,不管数据和知识多复杂,我们的处理手段是一样的:建一个图,定义一个概率分布,进行inference和learning。这对于描述复杂的实际问题,构建大型的人工智能系统来说,是非常重要的。

概率图模型分类

有向图(贝叶斯网络)

无向图(马尔科夫随机场)

概率图模型角度看机器学习

PGM 的原理经过若干大牛的归纳后已经并不那么复杂,看看怎么建模,怎么 Learn,怎么 Inference,就能掌握原理的精髓。但是,PGM 可以把这几年机器学习的主流发展方向串起来,会讲很多正在流行的模型,这为这门不是那么系统的学科搭了一个框架,又讲可以讲理论,又可以讲在图像、语音的应用,实在是对入门同学的福音。当你开始看PGM的时候,你就快接触到 State-of-the-art Machine Learning了。 Machine Learning 又发展了这么多年,出现了这么多研究,是时候大家再写写书,想想办法把东西总结总结了,书名总不能还叫 Machine Learning 吧,所以换个框架,从 PGM 写起,真是极好的。

要是你已经工作了,我觉得还是不要拿宝贵的时间系统学了,从你工作中用到的一个图模型入手,看论文,一点一点走遍图模型,一个模型一个模型地拓扑展开。工作中会用到的模型基本上都是全息的,比如你学个条件随机场,你就得跟隐马对比吧,那你就要分别知道马尔科夫随机场跟贝叶斯网络,然后你就会想知道马尔科夫随机场(条件随机场)跟贝叶斯网络(隐马)有啥区别。要想知道区别在哪你就得知道贝叶斯网络独立性怎么判断、马尔科夫随机场独立性怎么判断、贝叶斯怎么inference、马尔科夫怎么inference、贝叶斯怎么优化、马尔科夫怎么优化,要知道贝叶斯怎么优化你还得知道EM,而EM书上一般都是从最大熵讲的。。。然后你就知道这些都是啥东西了,他们之间是什么关系,这样你就知道概率图模型里都有些啥了,心里就有个谱。我也在用这种方式学,我觉得这个思路比无中生有开始讲要流畅得多。

推荐bayesian network and machine learning这本书

待整合

估计题主已经用不到啦,这个回答写给后来人:

Koller 那本废话好多,看半天还没看到正题,要看很久很久才能对 PGM 的全貌有一个了解……

如果题主需要学习 CRF 或者序列标注模型的话,我推荐一个教程:

这份教程只有 90 页,虽然内容主要针对 CRF (以及相关的 HMM 等模型),但是却回顾了 PGM 里的重要概念以及建模、训练、推断的全部套路,由此可以掌握 PGM 的方法论,别的 PGM 模型也能分分钟上手。

我认为 这个问题应该通过“对比式”回答更有说服力,通常来讲,一个模型可以通过三种角度来看待:

  • 线性代数的角度;

  • 贝叶斯概率的角度;

  • 神经网络的角度;

拿pca举个例子,起初大家都是通过特征值特征向量入手来认识,其他的模型也可以通过类似的线性代数思想来认识,但这样却带来一个问题,你学习不同的模型貌似每个都是一个全新的学习过程,一个新的开始; 但如果换个角度呢?通过概率的方法ppca来重新认识PCA,同时,也可以通过概率的视角去研究其他模型,比如HMM, GMM等。神奇的事情发生了,这些不同模型如果统一采用概率模型( pgm)来研究貌似可以共享一些方法或者学习经验,比如变分推断,置信传播等,是不是有了大一统的感觉?这种大一统的感觉对你认识一个模型,尤其是认识一类模型,解决learning, inference这类问题会有质的提升。当然,大部分菜鸡仅通过线性代数的视角也可以认识并解决某个问题,但所站的高度却不同。再引申,神经网络更是一种超级“渐近”大一统的模型,比如pca基本等价naive autoencoder。如此看来,看官发现没有,要想成为牛人,现在的趋势是,对同一个模型可能要从这三个视角来认识,也就是学习量实则是三倍!这也是为何AI人才的培养周期特别长的原因。

所以,概率图模型(PGM)是否有必要系统地学习,取决于你是否想成为行业大牛。

概率图模型是图论与概率方法的结合产物,2000年代中期它们都曾在机器学习研究人员中风靡一时。当年我在研究生院的时候(2005-2011),变分法、Gibbs抽样和置信传播算法被深深植入在每位CMU研究生的大脑中,并为我们提供了思考机器学习问题的一个极好的心理框架。我所知道大部分关于图模型的知识都是来自于Carlos Guestrin和Jonathan Huang。Carlos Guestrin现在是GraphLab公司(现改名为Dato)的CEO,这家公司生产大规模的产品用于图像的机器学习。Jonathan Huang现在是Google的高级研究员。

下面的视频尽管是GraphLab的概述,但它也完美地阐述了“图形化思维”,以及现代数据科学家如何得心应手地使用它。Carlos是一个优秀的讲师,他的演讲不局限于公司的产品,更多的是提供下一代机器学习系统的思路。

Dato CEO,Carlos Guestrin教授

参考资料

  • [深度学习]Goodfellow,第三章,概率与信息论

本文参考了此书。

"概率图模型综述"一章部分参考了此问题的回答。

Koller 在 Coursera 的课不错,涵盖了她那本书的基础部分。不过要是说看书的话,我推荐 Jordan 的 An Introduction to Probabilistic Graphical Models(没有出版,不过可以搜到,在此就不贴链接了)。Koller 的书起点太高,过于 formal;相比起来 Jordan 的更直观易懂一些。

Daphne Koller -- Probabilistic graphical model PGM权威著作 Christopher M.Bishop -- Pattern recognition and Machine learning 入门 Kevin P.Murphy -- Machine learning a Probabilistic Perspective 可以参考

推荐bayesian network and machine learning这本书

Eric Xing老师的课有深度,是Jordan讲义的再扩展,里面还有Jun Zhu老师的研究成果。

很有必要,我再次推荐周志华《机器学习》中的概率图模型有专门一章。

建议重点搞懂下面几个模型:

\2. CRF 模型

\3. LDA 模型

能把这几个模型看下来,学会了,恭喜你,入门了

要是你还在念书,最好系统学,按部就班看Koller公开课,战线比较长,但是她的时间线真的很扎实,接触别的的图模型心里更有底气:。公开课有一点不好就是隔一段时间反刍起来特别不方便,这时就可以祭出她那本凶器,整门公开课其实就是这本书的目录加摘要,讲的顺序和里面用得例子是一模一样的,可以当做是完整版的教案:

概率图模型的计算方法介绍()

初学者推荐Michael I. Jordan的An Introduction to Probabilistic Graphical Models,大概100页,网上可以下到电子版

[1] Probabilistic Graphical Models Principles and Techniques. Daphne Koller,Nir Friedman (太厚了) [2] Pattern Recognition and Machine Learning. Chapter 8 [3]

\1. HMM

返回顶层目录
概率图模型简介
概率图模型(PGM)有必要系统地学习一下吗?
https://www.zhihu.com/question/48845169/answer/113157452
https://www.zhihu.com/question/23255632/answer/105892071来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
https://blog.csdn.net/sherrylml/article/details/51488949
Graphical Models, Exponential Families, and Variational Inference
https://www.zhihu.com/question/264634540/answer/300281971来源:知乎
《机器学习》笔记-概率图模型(14)
终极入门 马尔可夫网络 (Markov Networks)——概率图模型
贝叶斯网与链式法则的理解
Coursera - Free Online Courses From Top Universities
http://www.amazon.cn/Probabilistic-Graphical-Models-Principles-and-Techniques-Koller-Daphne/dp/0262013193/ref=sr_1_1?ie=UTF8&qid=1452571603&sr=8-1&keywords=Probabilistic+Graphical+Models%3A+Principles+and+Techniques
概率图模型(PGM)有必要系统地学习一下吗?
[1011.4088] An Introduction to Conditional Random Fieldsarxiv.org
https://www.csdn.net/article/2015-04-30/2824600
视频和PPT下载
概率图模型(PGM)有必要系统地学习一下吗?
知乎-可否帮我找一本概率图模型的英文教材?
http://www.cis.upenn.edu/~mkearns/papers/barbados/jordan-tut.pdf
http://www.cnblogs.com/bhlsheji/p/4875551.html
隐马尔科夫模型 | 我爱自然语言处理
graphical-models
pgm-use
PGM_ML