为什么wide&deep模型用ftrl和adagrad两种优化方法

  统计/机器学习 推荐系统 人工神经网络    浏览次数:4459        分享
1


在论文里,wide部分使用ftrl优化,deep部分使用adagrad优化,请问这样设计的动机是什么。

 

nobodyoo1   2019-07-11 18:08



   1个回答 
0


1.一片google论文说wide模型可能有billion的feature,FTRL+L1norm可以让参数w稀疏,并提供不错的结果。稀疏性应该是一个动机。

2. 可能Google的FTRL的实现适合稀疏数据,而Adagrad每个参数都要记录learning rate,内存消耗太大。

3. 论文里说wide负责memorize/overfitting,deep负责generalization。一个可能的动机是FTRL更容易overtting。

稀疏应该是主要原因。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2019-07-17 20:03



  相关讨论

推荐系统中常用的表示相似或者距离的方法有哪些?

推荐系统里的ALS是什么意思?

余弦相似和内积的意义?

推荐系统算法里的cold start是什么意思?

怎么给推荐结果增加多样性和随机性?

pointwise和pairwise推荐排序算法的区别是什么?

两个向量的余弦距离大于1?

Jaccard相似或者Jaccard距离是怎么计算的?

协同过滤的数据预处理问题

怎么理解推荐系统中的NDCG?

  随便看看

对连续特征一定要进行分箱处理吗?

推荐系统中的召回(recall)是什么意思?

线性可分是什么意思?

单一变量下的异常检测该怎么做?

如何检验两个样本是同分布的?