machine-learning-notes
  • 封面
  • 目录
  • 前言
  • 个人前言
  • 机器学习前言
    • 什么是机器学习和模式识别
    • 机器学习的应用
    • 机器学习的流程
    • 不同的机器学习算法对相同数据预测效果不同
    • 快速入门机器学习
    • 机器学习需要参考哪些书
    • 机器学习的学习路径
    • 深度学习的学习路径
    • 互联网机器学习特定岗位所需技能
  • 机器学习面试
  • 数学基础
  • 微积分
    • 泰勒展开
    • e的直观认识
    • 傅里叶变换
    • 希尔伯特空间
  • 线性代数
    • 范数
    • 矩阵求导
    • 特征值
    • 奇异值分解
  • 概率与信息论
    • 综述概率论基本定义
    • 概率论与贝叶斯先验
    • 正态分布
    • 贝叶斯概率
    • 概率符号说明
    • 共轭先验
    • 信息论
  • 数值计算与优化
    • 最小二乘法
    • 等式约束的拉格朗日乘子法
    • 凸优化
      • 凸集和凸函数
      • 凸优化问题
  • 梯度下降算法
    • 随机梯度下降SGD
    • 动量法Momentum
    • 牛顿动量Nesterov
    • AdaGrad
    • RMSprop
    • Adadelta
    • Adam
    • Nadam
    • AMSGrad
    • AdasMax
  • 概率图模型
    • 概率图模型概论
    • 概率图简介
  • 编程基础
  • linux
    • linux常用命令
    • shell
      • 输入输出重定向
  • python
    • python简介
    • python语法
      • 基础语法
      • 数据结构
      • 过程控制
      • 函数
      • 类和对象
      • 文件操作
      • 正则表达式
    • python库
      • numpy
      • pandas
      • scipy
      • matplotlib
      • scikit-learn
    • python应用
      • 排序算法
  • 数据结构与算法
    • 数据结构
    • 算法思想
      • 排序
        • 堆排序
        • 归并排序
        • 快速排序
      • 递归
    • 剑指offer
      • 链表
      • 二叉树
      • 数组
      • 字符串
      • 栈和队列
      • 递归
      • 动态规划
      • 其他
    • leetcode
    • 编程语言
      • c++
  • Hadoop
    • Hadoop简介
    • MapReduce
  • Hive
  • Spark
  • TensorFlow
    • TensorFlow1.0
      • TensorFlow基础
      • TensorFlow基础概念解析
      • TensorFlow机器学习基础
      • Tensorflow分布式架构
    • TensorFlow2.0
  • PyTorch
  • 机器学习
  • 机器学习概论
  • 特征工程
  • 感知机
  • k近邻
  • 朴素贝叶斯
  • 线性模型
    • 最大熵模型
    • 指数族分布与广义线性模型
    • 线性回归
      • Ridge回归(岭回归)
      • Lasso回归
    • Logistic回归-对数几率回归
  • 决策树
  • 支持向量机
    • 线性可分支持向量机与硬间隔最大化
    • 线性支持向量机与软间隔最大化
    • 非线性支持向量机与核函数
    • 序列最小最优化算法SMO
    • SVM总结
  • 集成学习
    • Bagging
      • 随机森林
    • Boosting
      • AdaBoost
      • GradientBoosting
        • GBDT
        • XGBoost
          • XGBoost理论
          • XGBoost实践
    • Stacking
  • 降维
    • PCA主成分分析
    • 流形学习
  • EM算法
  • HMM隐马尔科夫模型
  • CRF条件随机场
  • 聚类
    • k均值聚类
    • 高斯混合模型
  • 主题模型
    • LDA隐狄利克雷分布
  • 知识点
    • 损失函数
    • 负采样
  • 机器学习算法总结
  • 深度学习
  • 深度学习概论
  • ANN人工神经网络
  • 知识点
    • Batch Normalization
  • CNN卷积神经网络
  • 深度学习优化算法
  • RNN循环神经网络
  • LSTM长短期记忆网络
  • GRU门控循环单元
  • GNN图神经网络
    • GNN图神经网络综述
    • GCN图卷积网络
      • GCN图卷积网络初步理解
      • GCN图卷积网络的numpy简单实现
      • GCN图卷积网络本质理解
      • GCN图卷积网络全面理解
      • SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS ICLR2017
  • 神经网络架构搜索
    • Weight-Agnostic-Neural-Networks Google2019
  • 强化学习
  • 强化学习概论
  • 马尔科夫决策过程
  • 动态规划
  • 无模型方法一:蒙特卡洛
  • 无模型方法二:时间差分
  • 无模型方法三:多步自举
  • 函数近似和深度网络
  • 策略梯度算法
  • 深度强化学习
  • 基于模型的强化学习
  • 强化学习前景
  • 自然语言处理
  • 自然语言处理概论
  • 自然语言
  • 语言模型和中文分词
  • word2vec
    • word2vec概述
    • word2vec算法原理
    • word2vec源码分析
    • word2vec实践
  • Seq2Seq模型和Attention机制
  • Self-Attention和Transformer
  • 知识图谱
  • 推荐系统
  • 推荐系统概论
  • 基础知识
  • 进阶知识
    • 机器学习
      • Factorization Machines ICDM2010
    • embedding
      • Network Embedding
        • LINE: Large-scale Information Network Embedding
    • 深度学习
      • DeepFM: A Factorization-Machine based Neural Network for CTR Prediction 2017
      • DSSM: Learning Deep Structured Semantic Models for Web Search using Clickthrough Data CIKM2013
    • 图卷积网络
      • Graph Convolutional Neural Networks for Web-Scale Recommender Systems KDD2018
    • 强化学习
      • DRN基于深度强化学习的新闻推荐模型
  • 业界应用
    • YouTube
      • Deep Neural Networks for YouTube Recommendations RecSys2016
    • Alibaba
      • Learning Tree-based Deep Model for Recommender Systems KDD2018
      • Deep Interest Network for Click-Through Rate Prediction KDD2018
      • DSIN:Deep Session Interest Network for Click-Through Rate Prediction IJCAI2019
Powered by GitBook
On this page
  • 线性回归
  • 分类与回归的概念和区别
  • 回归的含义与由来
  • 回归问题的应用场景
  • 分类问题的应用场景
  • 分类和回归的区别
  • 如何选择模型
  • 线性回归解法思路
  • 选择线性模型
  • 模型如何匹配数据(损失函数)
  • 求损失函数参数
  • 总结
  • Ridge回归(岭回归)
  • Lasso回归
  • Linear least squares, Lasso,ridge regression有何本质区别?
  • 参考资料

Was this helpful?

  1. 线性模型

线性回归

Previous指数族分布与广义线性模型NextRidge回归(岭回归)

Last updated 5 years ago

Was this helpful?

线性回归

    • [模型如何匹配数据(损失函数)](#模型如何匹配数据(损失函数))

分类与回归的概念和区别

回归的含义与由来

回归(regression),单词分解re(不断的)+gress(走)。世界 能够产生万事万物,其背后有一条不变的规律,而这个规律我们是看不到的,只能通过观察到数据样本去推测这个规律,这个过程就叫做回归,从数据不断的向规则走:regress。

“回归”一词最初是在1886年由英国人类学家高尔顿(Francis Galton)在论文《Regression towards mediocrity in hereditary stature》中使用的,他仅仅使用“回归”来说明:相比于父代身高,子代身高会回归趋向平均身高。之后该术语之后被其他人所采用,含义和最初的已有出入,现在作为一个通常的统计方法。

“回归”最初的具体含义请点击下面的链接查看:

回归问题的应用场景

回归问题通常是用来预测一个值,如预测房价、未来的天气情况等等,例如一个产品的实际价格为500元,通过回归分析预测值为499元,我们认为这是一个比较好的回归分析。一个比较常见的回归算法是线性回归算法(LR)。另外,回归分析用在神经网络上,其最上层是不需要加上softmax函数的,而是直接对前一层累加即可。回归是对真实值的一种逼近预测。

分类问题的应用场景

分类问题是用于将事物打上一个标签,通常结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗,分类通常是建立在回归之上,分类的最后一层通常要使用softmax函数进行判断其所属类别。分类并没有逼近的概念,最终正确结果只有一个,错误的就是错误的,不会有相近的概念。最常见的分类方法是逻辑回归,或者叫逻辑分类。

分类和回归的区别

一句话概括:输出是离散还是连续,离散即为分类,连续即为回归。

若我们欲预测的是离散值,例如"好瓜"、"坏瓜",此类学习任务称为 "分类"。

若欲预测的是连续值,例如西瓜的成熟度0.95 ,0.37,此类学习任务称为"回归"。

——周志华所著的《机器学习》

在说分类与回归的区别之前,先说下分类与回归的相同之处:都属于“监督学习(supervised learning)”,从数学的角度来说,监督学习是一个映射,它存在输入空间和输出空间,分别对应机器学习里常说的样本和标记。

说到这来,就可以开始说分类和回归的区别了:如果标记是离散值,则你面对的是一个分类问题,而如果标记是连续值,则你面对的是一个回归问题。

这就是分类问题和回归问题的区别所在,仅仅通过判断输出值是离散的还是连续的就可以确定;

一个简单的例子就是:

  • 通过人物照片来判断一个人是不是胖子?(这是一个分类问题:是胖子或不是胖子)

  • 通过人物照片来判断一个人有多重?(这是一个回归问题:杨幂看起来是42.5Kg)

因为不能把分类标签当回归问题的输出来解决,所以分类和回归的损失函数也不一样,分类的损失函数一般用交叉熵这种,而回归的损失函数一般用类似平方误差这种。

总的来说两个问题本质上都是一致的,就是模型的拟合(匹配)。 但是分类问题的y值(也称为label), 更离散化一些. 而且,同一个y值可能对应着一大批的x,这些x是具有一定范围的。

所以分类问题更多的是 (一定区域的一些x) 对应着 (一个y)。而回归问题的模型更倾向于(很小区域内的x,或者一般是一个x) 对应着 (一个y)。

分类问题与回归问题是监督学习问题,区别在于学习函数的预测输出是类别还是值。但是分类基本上都是用“回归模型”解决的,只是假设的模型不同(损失函数不一样),因为不能把分类标签当回归问题的输出来解决。分类和回归的区别在于输出变量的类型。定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。

如何选择模型

下面一幅图可以告诉实际应用中我们如何选择合适的模型。

线性回归解法思路

回归分析常用于分析两个变量X和Y 之间的关系。 比如X=房子大小和Y=房价之间的关系,X=(公园人流量,公园门票票价)与Y=(公园收入)之间的关系等等。

那么你的数据点在图上可以这么看:

选择线性模型

现在你想找到 房子大小和房价的关系, 也就是一个函数$f(x) = y$. 能够很好的表示这两个变量之间的关系。

于是你需要大概评估一下这个房子大小和房价大概是一个什么关系.

是线性的关系吗,还是非线性的关系?

当然在这个问题里面,线性的关系更符合这两者的关系。于是我们选择一个合适的线性模型, 最常用的是

f(x)=ax+bf(x) = ax+bf(x)=ax+b

然后用这个线性的模型去匹配这些数据点。

模型如何匹配数据(损失函数)

有了数据点和你臆想出来的线性模型,怎么进行匹配,也就是怎么用这根线最好地描述些数据点的关系?

需要最好地描述点,我们又需要一个关于“好”的定义。你也可以想出很多关于“好”的定义。下面有两个:

这两个定义都是将模型与数据点之间的距离差之和做为衡量匹配好坏的标准。 误差越小, 匹配程度越大。

但是总的来说,我们想要找到的模型,最后是想要使$f(x)$最大程度地与$y$相似,所以我们想要尽量地减少$f(x)$与$y$之间的差值。所以在这里用第二个图的“好的定义” 来评估这根线的匹配程度是很合理的。于是我们有了误差公式!!!!!

cost(a,b)=∑i=1N(axi+b−yi)2cost(a, b)=\sum_{i=1}^{N}(ax_i+b-y_i)^2cost(a,b)=i=1∑N​(axi​+b−yi​)2

这个公式,说的是,可以通过调整不同的a和b的值,就能使误差不断变化,而当你找到这个公式的最小值时,你就能得到最好的a,b。而这对$(a,b)$就是能最好描述你数据关系的模型参数。

求损失函数参数

梯度下降法求损失函数参数

怎么找cost(a,b)的最小?cost(a,b)的图像其实像一个碗 一样,有一个最低点。 找这个最低点的办法就是,先随便找一个点(e.g. a=3, b = 2), 然后沿着这个碗下降的方向找,最后就能找到碗的最低点。

怎么找(某一点)碗下降的方向?答案是,找那一点导数的反方向。拿参数a举个例子,a与cost关系如下图:

只要将任意一个a,沿着使cost导数的反方向慢慢移动,那么最终有一天a值就会到达使cost最小的那一点。于是你可以不断地移动a、b向着最低点前进。

当然在进行移动的时候也需要考虑,每次移动的速度,也就是α的值,这个值也叫做"学习率"。学习率的增大可以加速参数逼近最优的情况,但是如果在快要到达函数的底端的时候,需要减小学习率,以免出现cost不断增大或者不停摆动的情况(如下图, J(a,b)就是cost(a,b))。 所以说,当出现以上两种情况时候,我们应该果断选取一个较小的学习率,以保证cost能减少到一个稳定的值(我们称为收敛converge).

最小二乘法求损失函数参数

这时候,有的人会问,为什么要让$a$不停地往下跑呢?而且还需要设定学习率,多麻烦,直接让找导数为0点(最小极值),不就可以了吗?嗯。。。也可以。。。但是各有优缺。

与梯度下降法(gradient descent)平行的一种方法为正规方程(Normal Equation,也即最小二乘法),它采用线性代数中非迭代的方法,见下图:

我们想要找到使cost function最小的θ,就是找到使得导数取0时的参数θ: 该参数可由图中红框公式获得:

具体来说:X是m×(n+1)的矩阵,y是m×1的矩阵。

上图中为什么x要加上一列1呢?因为经常设置$X^{(i)}_0=1$;

我们已知,对于有m个样本,每个拥有n个feature的一个训练集,有X是m×(n+1)的矩阵,$X^TX$是(n+1)×(n+1)的方阵,那么对于参数θ的计算就出现了一个问题,如果$|X^TX|=0$,即$X^TX$不可求逆矩阵怎么办?这时可以进行冗余feature的删除(m<=n的情况,feature过多):

梯度下降法和最小二乘法的区别

下面比较一下Gradient Descent与Normal Equation求损失函数的区别:

总结

总结一下,回归问题的解决方法是:

  1. 假定一个模型;

  2. 定义什么叫做最好的匹配(构造误差函数);

  3. 用这个模型去匹配已有的数据点(训练集)。

需要进一步讨论的问题:

  • 如果参数(a,b)更多了该怎么办?

  • 如果最合适的匹配模型并不是线性的怎么办?——选用一个非线性模型,比如$y = ax^2 + bx + c$。

  • 如果误差(cost)与a,b(模型参数)的关系不是像碗一样的,而是凹凸不平的该怎么办? ——这时候你就得注意你得到的cost的最低点(局部的最低)可能因初始点的不同而不同。而这些最低点你需要进行比较,以确定是不是全局的最低。

这篇文章大概的意图是能想让大家了解, 机器学习中最基本的两类问题(线性回归和分类)中的之一:线性回归。 能让大家有个清晰的思想,对于这两类问题都有以下几个步骤,

  • 如何选取一个 合理的模型(线性的,or 非线性的(e.g. 阶跃函数, 高斯函数))

  • 制造一个"美好"的 误差函数 (可以评估拟合程度,而且还是convex函数)

  • 采取一切可能的技术(e.g. 导数下降法,解极值方程法) 求出最好的模型参数

谈谈回归和分类的区别:

总的来说两个问题本质上都是一致的,就是模型的拟合(匹配)。 但是分类问题的y值(也称为label), 更离散化一些. 而且,同一个y值可能对应着一大批的x,这些x是具有一定范围的。

所以分类问题更多的是 (一定区域的一些x) 对应着 (一个y)。而回归问题的模型更倾向于(很小区域内的x,或者一般是一个x) 对应着 (一个y)。

分类问题与回归问题是监督学习问题,区别在于学习函数的预测输出是类别还是值。但是分类基本上都是用“回归模型”解决的,只是假设的模型不同(损失函数不一样),因为不能把分类标签当回归问题的输出来解决。分类和回归的区别在于输出变量的类型。定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。

在把一个问题建模的时候一定要考虑好需求,让你的模型更好的与现实问题相对应。

Ridge回归(岭回归)

岭回归本质上是针对线性回归问题引入了L2范数正则,通过缩减回归系数避免过拟合问题,最先用来处理特征数多于样本数的情况(高维小样本问题),现在也用于在估计中加入偏差,从而得到更好的估计,加了正则化后的代价函数如下:

β^Ridge=arg minβ{∑i=1n(yi−β0−∑j=1dxijβj)2+λ∑j=1dβj2}\hat{\beta}^{Ridge}=\text{arg }\mathop{min}_{\beta}\left\{\sum_{i=1}^n(y_i-\beta_0-\sum_{j=1}^dx_{ij}\beta_j)^2+\lambda\sum_{j=1}^d\beta_j^2\right\}β^​Ridge=arg minβ​{i=1∑n​(yi​−β0​−j=1∑d​xij​βj​)2+λj=1∑d​βj2​}

其中,$\hat\beta$表示估计的回归系数,n表示样本个数,d表示回归系数个数,$y_i$表示第i个样本实际输出值,$\beta_j$表示第j个回归系数,λ为正则化参数。当λ=0,表示不添加正则,则很容易导致原来代价函数为0,预测值与实际值完全贴合即出现了所谓的过你和问题,当λ过大,会导致$\beta_j$系数变小,但不会为0,减小了模型复杂度,原代价函数值较大,出现欠拟合。在实际开发中,通常使用交叉验证集多次循环迭代确定最佳λ值。

β^Ridge=(XTx+λI)−1XTy\hat{\beta}^{Ridge}=\left(X^Tx+\lambda I\right)^{-1}X^Tyβ^​Ridge=(XTx+λI)−1XTy

带正则化的代价函数采用最小二乘法或者正规方程可以得到上述回归结果,可以发现:经过L2范数罚项后,不仅仅压缩了系数,而且可使得原先不可能逆的矩阵一定可逆(XTX+λI一定可逆,这叫伪逆),这也是L2正则的好处之一。

Lasso回归

Lasso回归本质上是针对线性回归问题引入了L1范数正则,通过缩减回归系数避免过拟合问题,其不同于L2范数,其可以将某些系数缩减为0即所谓的具备稀疏性(稀疏性的好处是简化计算、容易理解模型、减少存储空间、不容易出现过拟合等等),加了正则化后的代价函数如下:

β^lasso=arg minβ{∑i=1n(yi−β0−∑j=1dxijβj)2+λ∑j=1d∣βj∣}\hat{\beta}^{lasso}=\text{arg }\mathop{min}_{\beta}\left\{\sum_{i=1}^n(y_i-\beta_0-\sum_{j=1}^dx_{ij}\beta_j)^2+\lambda\sum_{j=1}^d|\beta_j|\right\}β^​lasso=arg minβ​{i=1∑n​(yi​−β0​−j=1∑d​xij​βj​)2+λj=1∑d​∣βj​∣}

其中,参数函数和岭回归中相同。L1范数罚有一个问题:由于|x|函数在0处不可导,故而直接使用最小二乘法、梯度下降法等方法均失效,但是由于其为第一类间断点中的可去间断点,可以通过补充该点的定义解决,通常,对于线性回归中的lasso回归可以采用近似的前向逐步回归替代。

Linear least squares, Lasso,ridge regression有何本质区别?

参考资料

"分类与回归的概念和区别"这一节开头少部分参考了此知乎问答。

"分类与回归的概念和区别"这一节主要参考这个资料。

"最小二乘法求损失函数参数"这一小节参考了此资料。

"Ridge回归(岭回归)"和“Lasso回归”这两个小节参考了此资料。

Why are regression problems called “regression” problems?
So Why Is It Called "Regression," Anyway?
历史的角度来看,Robert Tibshirani的Lasso到底是不是革命性的创新?
https://www.zhihu.com/question/38121173/answer/403986652
https://www.zhihu.com/question/38121173/answer/75158776
https://www.zhihu.com/question/38121173/answer/166238142
分类与回归区别是什么?
机器学习 --- 1. 线性回归与分类, 解决与区别
Stanford机器学习---第二讲. 多变量线性回归 Linear Regression with multiple variable
史上最全面的正则化技术总结与分析--part2
返回上层目录
分类与回归的概念和区别
回归的由来
回归问题的应用场景
分类问题的应用场景
分类和回归的区别
如何选择模型
线性回归解法思路
选择线性模型
求损失函数参数
梯度下降法求损失函数参数
最小二乘法求损失函数参数
梯度下降法和最小二乘法的区别
总结
Ridge回归(岭回归)
Lasso回归
返回顶层目录
model-select
regression-house-price-prediction
regression-house-price-prediction-2
regression-house-price-prediction-3
regression-house-price-prediction-4
regression-house-price-prediction-5
regression-house-price-prediction-6
regression-house-price-prediction-7
regression-house-price-prediction-8
regression-house-price-prediction-9
regression-house-price-prediction-10
regression-house-price-prediction-12
regression-house-price-prediction-11