machine-learning-notes
  • 封面
  • 目录
  • 前言
  • 个人前言
  • 机器学习前言
    • 什么是机器学习和模式识别
    • 机器学习的应用
    • 机器学习的流程
    • 不同的机器学习算法对相同数据预测效果不同
    • 快速入门机器学习
    • 机器学习需要参考哪些书
    • 机器学习的学习路径
    • 深度学习的学习路径
    • 互联网机器学习特定岗位所需技能
  • 机器学习面试
  • 数学基础
  • 微积分
    • 泰勒展开
    • e的直观认识
    • 傅里叶变换
    • 希尔伯特空间
  • 线性代数
    • 范数
    • 矩阵求导
    • 特征值
    • 奇异值分解
  • 概率与信息论
    • 综述概率论基本定义
    • 概率论与贝叶斯先验
    • 正态分布
    • 贝叶斯概率
    • 概率符号说明
    • 共轭先验
    • 信息论
  • 数值计算与优化
    • 最小二乘法
    • 等式约束的拉格朗日乘子法
    • 凸优化
      • 凸集和凸函数
      • 凸优化问题
  • 梯度下降算法
    • 随机梯度下降SGD
    • 动量法Momentum
    • 牛顿动量Nesterov
    • AdaGrad
    • RMSprop
    • Adadelta
    • Adam
    • Nadam
    • AMSGrad
    • AdasMax
  • 概率图模型
    • 概率图模型概论
    • 概率图简介
  • 编程基础
  • linux
    • linux常用命令
    • shell
      • 输入输出重定向
  • python
    • python简介
    • python语法
      • 基础语法
      • 数据结构
      • 过程控制
      • 函数
      • 类和对象
      • 文件操作
      • 正则表达式
    • python库
      • numpy
      • pandas
      • scipy
      • matplotlib
      • scikit-learn
    • python应用
      • 排序算法
  • 数据结构与算法
    • 数据结构
    • 算法思想
      • 排序
        • 堆排序
        • 归并排序
        • 快速排序
      • 递归
    • 剑指offer
      • 链表
      • 二叉树
      • 数组
      • 字符串
      • 栈和队列
      • 递归
      • 动态规划
      • 其他
    • leetcode
    • 编程语言
      • c++
  • Hadoop
    • Hadoop简介
    • MapReduce
  • Hive
  • Spark
  • TensorFlow
    • TensorFlow1.0
      • TensorFlow基础
      • TensorFlow基础概念解析
      • TensorFlow机器学习基础
      • Tensorflow分布式架构
    • TensorFlow2.0
  • PyTorch
  • 机器学习
  • 机器学习概论
  • 特征工程
  • 感知机
  • k近邻
  • 朴素贝叶斯
  • 线性模型
    • 最大熵模型
    • 指数族分布与广义线性模型
    • 线性回归
      • Ridge回归(岭回归)
      • Lasso回归
    • Logistic回归-对数几率回归
  • 决策树
  • 支持向量机
    • 线性可分支持向量机与硬间隔最大化
    • 线性支持向量机与软间隔最大化
    • 非线性支持向量机与核函数
    • 序列最小最优化算法SMO
    • SVM总结
  • 集成学习
    • Bagging
      • 随机森林
    • Boosting
      • AdaBoost
      • GradientBoosting
        • GBDT
        • XGBoost
          • XGBoost理论
          • XGBoost实践
    • Stacking
  • 降维
    • PCA主成分分析
    • 流形学习
  • EM算法
  • HMM隐马尔科夫模型
  • CRF条件随机场
  • 聚类
    • k均值聚类
    • 高斯混合模型
  • 主题模型
    • LDA隐狄利克雷分布
  • 知识点
    • 损失函数
    • 负采样
  • 机器学习算法总结
  • 深度学习
  • 深度学习概论
  • ANN人工神经网络
  • 知识点
    • Batch Normalization
  • CNN卷积神经网络
  • 深度学习优化算法
  • RNN循环神经网络
  • LSTM长短期记忆网络
  • GRU门控循环单元
  • GNN图神经网络
    • GNN图神经网络综述
    • GCN图卷积网络
      • GCN图卷积网络初步理解
      • GCN图卷积网络的numpy简单实现
      • GCN图卷积网络本质理解
      • GCN图卷积网络全面理解
      • SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS ICLR2017
  • 神经网络架构搜索
    • Weight-Agnostic-Neural-Networks Google2019
  • 强化学习
  • 强化学习概论
  • 马尔科夫决策过程
  • 动态规划
  • 无模型方法一:蒙特卡洛
  • 无模型方法二:时间差分
  • 无模型方法三:多步自举
  • 函数近似和深度网络
  • 策略梯度算法
  • 深度强化学习
  • 基于模型的强化学习
  • 强化学习前景
  • 自然语言处理
  • 自然语言处理概论
  • 自然语言
  • 语言模型和中文分词
  • word2vec
    • word2vec概述
    • word2vec算法原理
    • word2vec源码分析
    • word2vec实践
  • Seq2Seq模型和Attention机制
  • Self-Attention和Transformer
  • 知识图谱
  • 推荐系统
  • 推荐系统概论
  • 基础知识
  • 进阶知识
    • 机器学习
      • Factorization Machines ICDM2010
    • embedding
      • Network Embedding
        • LINE: Large-scale Information Network Embedding
    • 深度学习
      • DeepFM: A Factorization-Machine based Neural Network for CTR Prediction 2017
      • DSSM: Learning Deep Structured Semantic Models for Web Search using Clickthrough Data CIKM2013
    • 图卷积网络
      • Graph Convolutional Neural Networks for Web-Scale Recommender Systems KDD2018
    • 强化学习
      • DRN基于深度强化学习的新闻推荐模型
  • 业界应用
    • YouTube
      • Deep Neural Networks for YouTube Recommendations RecSys2016
    • Alibaba
      • Learning Tree-based Deep Model for Recommender Systems KDD2018
      • Deep Interest Network for Click-Through Rate Prediction KDD2018
      • DSIN:Deep Session Interest Network for Click-Through Rate Prediction IJCAI2019
Powered by GitBook
On this page
  • 自然语言处理概论
  • 什么是自然语言处理
  • 自然语言处理的核心技术与应用
  • 自然语言的一些重要术语
  • 语言学的发展史
  • 逻辑
  • 命题逻辑
  • 通用能力
  • 典型代表
  • 模糊逻辑
  • 词的不确定性
  • 稀疏数据
  • 同意不同形
  • NLP的发展
  • 推荐书籍
  • 参考资料

Was this helpful?

自然语言处理概论

Previous自然语言处理Next自然语言

Last updated 5 years ago

Was this helpful?

自然语言处理概论

什么是自然语言处理

为了和计算机语言(如C语言,Python语言)区别,我们对于人类的语言称之为自然语言。

自然语言处理是AI最重要的一个分支。目前自然语言处理主要依赖于机器学习技术。

自然语言处理的核心技术与应用

自然语言处理的核心技术:

  • 语言建模

  • 文本切分

  • 词性标注

  • 句法解析

  • 名字识别

  • 词意区分

  • 语义角色标注

自然语言处理应用:

  • 垃圾分类

  • 机器翻译

  • 信息检索

  • 问答系统

  • 对话系统

  • 信息抽取

  • 段落总结

  • 情感分析

  • 实体(地点人名时间)识别

自然语言的一些重要术语

句法分析和语义:

语义:

用逻辑来表示语义

语言学的发展史

逻辑

著名的三段论:

1、所有人都会死

2、苏格拉底是人

3、所以苏格拉底会死

莱布尼兹的定律

1、a=a

2、a=b, and b=c, then a=c

3、a=not(not a)

4、a is b equals not-b not-a

语言的推理都是基于符号的系统的,这也是早期人工智能的基础。

是否可以把所有数学建立于简单的逻辑之上?

18世纪希望用集合论作为基础来描述数学。但是根据罗素悖论不行。

罗素悖论:村里的理发师宣称:我只给村里不给自己理发的人理发。这句话是有问题的,对于理发师自己,他如果给自己理发,那他就违反了他说的话,如果他不给自己理发,那他就应该给自己理发,但是这样他又给自己理发了,但是也违反了他说的话。

罗素悖论描述的是。自己索引自己是集合论里边的重大缺点。

维特斯坦:语言只是语言游戏,语言是大脑中某个模型的表述。语言会刺激大脑中图形的出现,我们使用语言时,只是在交换这些图形。我看见了一个图形,我告诉你后,你的大脑中应当也会出现一个图形。

命题逻辑

Chomsky在1950s年代写了一本书叫《句法结构》(Syntactic Structures),第一次以数学的方式理解语言。他认为人类之所以能理解语言,是大脑有对应的不同语言结构。比如像猩猩就不能理解人类语言,所以我们必须要把人类的语言结构再造出来才能人工智能来理解人类语言。

但目前我们并没有这样做,只是讲复杂的人类任务映射成函数关系,通过找概率最大的结果来逼近。

通用能力

人类学习了简单的句子之后,就可以再造出来自己的句子,这就是说人类有一个通用的语言结构。

典型代表

看见这句话:我今天看见树上有一只鸟。脑子中就会想到一只小鸟,而不是鸵鸟,企鹅。这就是集合的典型代表,类似的,我们会取集合中的平均值来代表这个集合。

模糊逻辑

冷热,好坏,多少等这些形容词可以用模糊逻辑去衡量。

词的不确定性

词的不确定性有很多层次:

  • 词意:苹果(电脑,手机还是水果?)

  • 词性标注:host(主人、主持)

  • 句法结构:I saw a man with a telescope(who has the telescope?)

  • 指用:Join dropped the goblet onto the glass table and it broke.(which broke?奖杯还是玻璃桌子)

于是处理方法从逻辑上的真理变成了概率模型。

稀疏数据

有用的数据并没有那么多。

比如单词以E开头的最多:

![zipf's-law](pic/zipf's-law.png)

![zipf's-law1](pic/zipf's-law1.png)

同意不同形

  • 这个老师上课非常好,得到了同学们的肯定

  • 给这个老师的课点赞,疯狂打call

  • 好课,6666666666

She gave the book to Tom vs. She gave Tom the book

Some kids popped by vs. A few children visited

Is that window still open? vs. Please close the window

NLP的发展

我们抽取了三篇论文讲述词向量的发展,一脉相承,从经典到前沿。

经典篇:《Efficient Estimation of Word Representations in Vector Space》

word2vec是将词汇向量化,这样我们就可以进行定量的分析,分析词与词之间的关系,这是one-hot encoding做不到的。Google的Tomas Mikolov 在2013年发表的这篇论文给自然语言处理领域带来了新的巨大变革,提出的两个模型CBOW (Continuous Bag-of-Words Model)和Skip-gram (Continuous Skip-gram Model),创造性的用预测的方式解决自然语言处理的问题,而不是传统的词频的方法。奠定了后续NLP处理的基石。并将NLP的研究热度推升到了一个新的高度。

经典篇:《Neural Machine Translation by Jointly Learning to Align and Translate》

Attention机制最初由图像处理领域提出,后来被引入到NLP领域用于解决机器翻译的问题,使得机器翻译的效果得到了显著的提升。attention是近几年NLP领域最重要的亮点之一,后续的Transformer和Bert都是基于attention机制。

经典篇:《Transformer: attention is all you need》

这是谷歌与多伦多大学等高校合作发表的论文,提出了一种新的网络框架Transformer,是一种新的编码解码器,与LSTM地位相当。

Transformer是完全基于注意力机制(attention mechanism)的网络框架,使得机器翻译的效果进一步提升,为Bert的提出奠定了基础。该论文2017年发表后引用已经达到1280,GitHub上面第三方复现的star2300余次。可以说是近年NLP界最有影响力的工作,NLP研究人员必看!

推荐书籍

这两本书是自然语言处理中比较重要的两本教科书。

  • Foundations of Statistical Natural Language Processing by Christopher D. Manning and Hinricn Schutze

  • Speech and Language Processing by Daniel Jurafsky & James H. Martin

参考资料

本文来自改视频课程。

01第一课:自然语言与数学之美 秦曾昌 小象学院
返回顶层目录
返回上层目录
什么是自然语言处理
自然语言处理的核心技术与应用
自然语言的一些重要术语
语言学的发展史
逻辑
命题逻辑
通用能力
典型代表
模糊逻辑
词的不确定性
稀疏数据
同意不同形
NLP的发展
推荐书籍
words
syntax-parse
semantics
Syntactic-Structures
fuzzy-set-theory
sparse-data