强化学习
reinforcement-learning
为什么要将强化学习用在推荐系统上
作为一个千亿级数据量的从业者,我讲讲我认为推荐系统中最重要的几点,可能与其他回答都略有不同
不同规模下的工程架构:特征从百到百万到百亿,不同级别的工程架构相差极大
对目标的选定:如何选择你的目标,决定了怎么做画像、特征,改变一个目标非常的伤筋动骨,而且也无法说清目标的制定是否科学
对长期目标的学习:短期的目标可以是一跳(用户的单次成本,付费或者消费),但长期的目标一定是用户付出的长期成本(长期消费,用户粘性),怎么去学习,是非常困难的事情。很多公司、学校都在进行这方面的研究(1、2、3),可以参考
这几个点很难绕过,未来几年也会成为各家推荐的差异点。核心技术说实话大家都非常清楚,Wide & Deep已经应用的非常广泛,这剩余的核心问题就看谁能够解决的足够快、跑的足够前面了。
参考文献
"为什么要将强化学习用在推荐系统上"一节参考了此回答。
===
[1] Dulac-Arnold G, Evans R, van Hasselt H, et al. Deep reinforcement learning in large discrete action spaces[J]. arXiv preprint arXiv:1512.07679, 2015.
[2] Liebman E, Saar-Tsechansky M, Stone P. Dj-mc: A reinforcement-learning agent for music playlist recommendation[C]//Proceedings of the 2015 International Conference on Autonomous Agents and Multiagent Systems. International Foundation for Autonomous Agents and Multiagent Systems, 2015: 591-599.
[3] Zheng G, Zhang F, Zheng Z, et al. DRN: A Deep Reinforcement Learning Framework for News Recommendation[C]//Proceedings of the 2018 World Wide Web Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2018: 167-176.
[4] Lixin Zou, Long Xia, Zhuoye Ding, Jiaxing Song, Weidong Liu, Dawei Yin: Reinforcement Learning to Optimize Long-term User Engagement in Recommender Systems[C]KDD 2019
清华大学和京东发表于 KDD 2019 的全新强化学习框架 FeedRec
[5] Youtube RL Recommendation: Top-k Off-Policy Correction for a REINFORCE Recommender System , Google, WSDM, 2019
Last updated