machine-learning-notes
  • 封面
  • 目录
  • 前言
  • 个人前言
  • 机器学习前言
    • 什么是机器学习和模式识别
    • 机器学习的应用
    • 机器学习的流程
    • 不同的机器学习算法对相同数据预测效果不同
    • 快速入门机器学习
    • 机器学习需要参考哪些书
    • 机器学习的学习路径
    • 深度学习的学习路径
    • 互联网机器学习特定岗位所需技能
  • 机器学习面试
  • 数学基础
  • 微积分
    • 泰勒展开
    • e的直观认识
    • 傅里叶变换
    • 希尔伯特空间
  • 线性代数
    • 范数
    • 矩阵求导
    • 特征值
    • 奇异值分解
  • 概率与信息论
    • 综述概率论基本定义
    • 概率论与贝叶斯先验
    • 正态分布
    • 贝叶斯概率
    • 概率符号说明
    • 共轭先验
    • 信息论
  • 数值计算与优化
    • 最小二乘法
    • 等式约束的拉格朗日乘子法
    • 凸优化
      • 凸集和凸函数
      • 凸优化问题
  • 梯度下降算法
    • 随机梯度下降SGD
    • 动量法Momentum
    • 牛顿动量Nesterov
    • AdaGrad
    • RMSprop
    • Adadelta
    • Adam
    • Nadam
    • AMSGrad
    • AdasMax
  • 概率图模型
    • 概率图模型概论
    • 概率图简介
  • 编程基础
  • linux
    • linux常用命令
    • shell
      • 输入输出重定向
  • python
    • python简介
    • python语法
      • 基础语法
      • 数据结构
      • 过程控制
      • 函数
      • 类和对象
      • 文件操作
      • 正则表达式
    • python库
      • numpy
      • pandas
      • scipy
      • matplotlib
      • scikit-learn
    • python应用
      • 排序算法
  • 数据结构与算法
    • 数据结构
    • 算法思想
      • 排序
        • 堆排序
        • 归并排序
        • 快速排序
      • 递归
    • 剑指offer
      • 链表
      • 二叉树
      • 数组
      • 字符串
      • 栈和队列
      • 递归
      • 动态规划
      • 其他
    • leetcode
    • 编程语言
      • c++
  • Hadoop
    • Hadoop简介
    • MapReduce
  • Hive
  • Spark
  • TensorFlow
    • TensorFlow1.0
      • TensorFlow基础
      • TensorFlow基础概念解析
      • TensorFlow机器学习基础
      • Tensorflow分布式架构
    • TensorFlow2.0
  • PyTorch
  • 机器学习
  • 机器学习概论
  • 特征工程
  • 感知机
  • k近邻
  • 朴素贝叶斯
  • 线性模型
    • 最大熵模型
    • 指数族分布与广义线性模型
    • 线性回归
      • Ridge回归(岭回归)
      • Lasso回归
    • Logistic回归-对数几率回归
  • 决策树
  • 支持向量机
    • 线性可分支持向量机与硬间隔最大化
    • 线性支持向量机与软间隔最大化
    • 非线性支持向量机与核函数
    • 序列最小最优化算法SMO
    • SVM总结
  • 集成学习
    • Bagging
      • 随机森林
    • Boosting
      • AdaBoost
      • GradientBoosting
        • GBDT
        • XGBoost
          • XGBoost理论
          • XGBoost实践
    • Stacking
  • 降维
    • PCA主成分分析
    • 流形学习
  • EM算法
  • HMM隐马尔科夫模型
  • CRF条件随机场
  • 聚类
    • k均值聚类
    • 高斯混合模型
  • 主题模型
    • LDA隐狄利克雷分布
  • 知识点
    • 损失函数
    • 负采样
  • 机器学习算法总结
  • 深度学习
  • 深度学习概论
  • ANN人工神经网络
  • 知识点
    • Batch Normalization
  • CNN卷积神经网络
  • 深度学习优化算法
  • RNN循环神经网络
  • LSTM长短期记忆网络
  • GRU门控循环单元
  • GNN图神经网络
    • GNN图神经网络综述
    • GCN图卷积网络
      • GCN图卷积网络初步理解
      • GCN图卷积网络的numpy简单实现
      • GCN图卷积网络本质理解
      • GCN图卷积网络全面理解
      • SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS ICLR2017
  • 神经网络架构搜索
    • Weight-Agnostic-Neural-Networks Google2019
  • 强化学习
  • 强化学习概论
  • 马尔科夫决策过程
  • 动态规划
  • 无模型方法一:蒙特卡洛
  • 无模型方法二:时间差分
  • 无模型方法三:多步自举
  • 函数近似和深度网络
  • 策略梯度算法
  • 深度强化学习
  • 基于模型的强化学习
  • 强化学习前景
  • 自然语言处理
  • 自然语言处理概论
  • 自然语言
  • 语言模型和中文分词
  • word2vec
    • word2vec概述
    • word2vec算法原理
    • word2vec源码分析
    • word2vec实践
  • Seq2Seq模型和Attention机制
  • Self-Attention和Transformer
  • 知识图谱
  • 推荐系统
  • 推荐系统概论
  • 基础知识
  • 进阶知识
    • 机器学习
      • Factorization Machines ICDM2010
    • embedding
      • Network Embedding
        • LINE: Large-scale Information Network Embedding
    • 深度学习
      • DeepFM: A Factorization-Machine based Neural Network for CTR Prediction 2017
      • DSSM: Learning Deep Structured Semantic Models for Web Search using Clickthrough Data CIKM2013
    • 图卷积网络
      • Graph Convolutional Neural Networks for Web-Scale Recommender Systems KDD2018
    • 强化学习
      • DRN基于深度强化学习的新闻推荐模型
  • 业界应用
    • YouTube
      • Deep Neural Networks for YouTube Recommendations RecSys2016
    • Alibaba
      • Learning Tree-based Deep Model for Recommender Systems KDD2018
      • Deep Interest Network for Click-Through Rate Prediction KDD2018
      • DSIN:Deep Session Interest Network for Click-Through Rate Prediction IJCAI2019
Powered by GitBook
On this page
  • 用于大规模推荐系统的图卷积神经网络
  • 前言
  • 模型结构
  • 模型训练
  • Importance-based neighborhoods
  • Stacking convolutions
  • Loss function
  • 参考资料

Was this helpful?

  1. 进阶知识
  2. 图卷积网络

Graph Convolutional Neural Networks for Web-Scale Recommender Systems KDD2018

Previous图卷积网络Next强化学习

Last updated 5 years ago

Was this helpful?

用于大规模推荐系统的图卷积神经网络

论文:Graph Convolutional Neural Networks for Web-Scale Recommender Systems 作者:Rex Ying, Ruining He, Kaifeng Chen, Pong Eksombatchai 来源:KDD 2018

前言

这篇文章是Pinterest将GCN成功应用在大规模真实场景的论文,唯一可惜的是没有公开源码。

论文包含了理论创新和实际落地实现中的一些工程优化。这里对算法理论这块做一下简单记录。

这篇文章虽然说是GCN算法,但是全文看下来其实和卷积并没有很大的关系。GCN算法大多数都是端到端的计算,需要在整个graph上训练。这样的话很难将算法扩展应用到实际的大规模工业应用上。

所以文章提出了一个局部卷积的概念,不在全局的graph上优化算法,而是给特定的节点形成一个包含有限领域节点的子图,在子图上构造局部卷积,然后不同节点共享同样的局部卷积参数,也许正是因为要共享参数,所以作者把这个叫做卷积吧。

模型结构

下图是论文提出来的卷积模型结构

整个算法中,局部卷积算法'CONVOLVE'应该是最核心的部分。

这个CONVOLVE是逐点优化的算法,所以输入是当前计算的节点u的embedding,以及它所对应的领域节点的embedding。而具体的卷积操作其实就是一些全联接构造成的映射。

分析一下上图的后面三行伪代码。

第一行里面的hν指的是领域节点v的embedding,这里感觉作者没写清楚,我刚开始也没看明白,后来看了图才看明白。

一个CONVOLVE模块(流程图中的那三行伪代码)就是如下图这样的一个模块:

先是对节点的领域节点经过Q映射后,再利用weight-pooling函数γ让输出的维度和输入保持一致,生成所有领域节点统一的embedding向量$h_{N(A)}$。

第二行的伪代码描述的是节点embedding的更新,直接把上一层或者初始的embedding和领域节点embedding一起concate起来,再加上一层全联接就可以生成新的节点embedding。第三行的代码只是对输出的节点embedding做了L2归一化,让训练更稳定。

这一个CONVOLVE里的参数,比如Q,q,W,w这些都是共享的,每个节点都一样。所以把这个叫卷积吧。。

模型训练

现在最核心的算法模块有了,需要先构造输入,输入是按节点迭代,那么每次输入CONVOLVE的就是当前节点,和选择出来的领域。那么领域怎么选?

Importance-based neighborhoods

作者为了统一每个节点的领域个数,已经进一步引入每个领域节点对当前节点的重要性,采用了随机游走的策略来生成节点的领域。并且通过计算随机游走对顶点的访问次数的 𝐿1 归一化值。来定义领域节点的重要性,按对定点的访问次数排序后取top-T个节点作为当前节点的领域。

在分析代码流程图的时候,里面的weight-pooling函数的weight方式并没有提到,其实就是这里这里随机游走产生的这个L1归一化值。

其实到这里这个算法也勉强能用了,不过作者为了让这个算法更像卷积,进一步将CONVOLVE模块进行了stack。

Stacking convolutions

思路比较简单,就是把CONVOLVE输出的embedding,再传入一个CONVOLVE,类似多层全联接一样,连起来。代码写起来可能会比较麻烦了,因为不同节点的领域不一样,那么堆叠到第二层的时候,输入CONVOLVE的节点就是上一层CONVOLVE的minibatch的节点的领域的领域。有点拗口。具体流程图如下:

1-7行的循环:获得集合M中从源节点出发,path为1到K的节点集合

8-14循环:获得每一层的embed

5-17行:更新embedding

具体分两部分。

第一部分,首先把每一层里节点的领域都计算好。(流程图里smpling neighborhoods of minibatch nodes下的代码)

第二部分就是循环计算每一层的CONVOLVE,把上一层CONVOLVE的输出作为下一层CONVOLVE的输入。

算法的最后是把最后一层CONVOLVE的输出再经过G1和G2做全联接映射后输出最终的节点embedding。

这里需要注意的是,前面我说过一个CONVOLVE的参数都是共享,这里的共享指的是同一层的CONVOLVE。对应不同层之间的CONVOLVE不共享参数。

能发现,这整个网络结构确实很像一个多层卷积网络,输入是节点和节点领域embedding,输出是新的节点embedding。

这个针对不同任务已经完全能够迁移作为backbone。

Loss function

模型训练的目标是让有标记的(query, item)pair对的embedding更接近。

作者定义的损失函数是hinge loss:

JG(zqzi)=Enk∼Pn(q)max{0,zqznegk−zq⋅zi+Δ}\mathcal{J}_{\mathcal{G}}(z_qz_i)=\mathbb{E}_{n_k\sim P_n(q)}\text{max}\left\{0,z_qz_{\text{neg}_k}-z_q\cdot z_i+\Delta\right\}JG​(zq​zi​)=Enk​∼Pn​(q)​max{0,zq​znegk​​−zq​⋅zi​+Δ}

参考资料

本文参考了这几篇文章。

PDF:

是世界上最大的图片社交分享网站。网站允许用户创建和管理主题图片集合,例如事件、兴趣和爱好。

文章后面还写了一些实际实现工程中的加速优化,这里就不说了。大家可以直接去看原文,或者这里看这哥们。

Graph Convolutional Neural Networks for Web-Scale Recommender Systems
Pinterest
翻译的文章
【GCN】: Graph Convolutional Neural Networks for Web-Scale Recommender Systems
翻译:Graph Convolutional Neural Networks for Web-Scale Recommender Systems
【Read3】Pinterest使用的推荐系统
返回上层目录
前言
模型结构
模型训练
Importance-based neighborhoods
Stacking convolutions
Loss function
返回顶层目录
gcn-ws-rs-paper-title
Pinterest
gcn-ws-rs-paper-model
gcn-ws-rs-paper-local-conv
gcn-ws-rs-paper-local-conv-desc
gcn-ws-rs-paper-model-tranning