为什么wide&deep模型用ftrl和adagrad两种优化方法

  统计/机器学习 推荐系统 人工神经网络    浏览次数:106        分享
0


在论文里,wide部分使用ftrl优化,deep部分使用adagrad优化,请问这样设计的动机是什么。

 

nobodyoo1   2019-07-11 18:08



   1个回答 
0


1.一片google论文说wide模型可能有billion的feature,FTRL+L1norm可以让参数w稀疏,并提供不错的结果。稀疏性应该是一个动机。

2. 可能Google的FTRL的实现适合稀疏数据,而Adagrad每个参数都要记录learning rate,内存消耗太大。

3. 论文里说wide负责memorize/overfitting,deep负责generalization。一个可能的动机是FTRL更容易overtting。

稀疏应该是主要原因。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2019-07-17 20:03



  相关主题

怎么构造商品向量embedding来做推荐系统?   2回答

余弦相似和内积的意义?   1回答

推荐系统中常用的表示相似或者距离的方法有哪些?   1回答

推荐系统算法里的cold start是什么意思?   2回答

推荐系统里的ALS是什么意思?   2回答

两个向量的余弦距离大于1?   1回答

Jaccard相似或者Jaccard距离是怎么计算的?   1回答

协同过滤的数据预处理问题   4回答

推荐系统有哪些常用的评价标准   4回答

怎么理解推荐系统中的NDCG?   1回答

推荐系统中的召回(recall)是什么意思?   1回答

余弦相似的定义是什么?怎么计算?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!