不同mini-batch的LSTM_cell之间的隐藏状态(hidden state)和记忆单元(memory cell)的确定

  统计/机器学习 深度学习 自然语言处理    浏览次数:2376        分享
0

当我们在一个mini-batch上训练参数并转到另一个mini-batch时,如何得到新batch的c^<0>和a^<0> ?


我的意思是,当处理第一个batch时,可以将c^<0>和a^<0>初始化为零,当完成该batch的训练时,将得到c^<t>和a^<t>。而在下一个batch中,是应该重新初始化c^<0>和a^<0>为0,还是将它们分配为上一批中的c^<t>和a^<t> ?

 

Azia   2020-07-04 16:49



   1个回答 
1

hidden state是要清零(初始化, 清零是一种简单的初始化)的,换了batch意味着新的数据。

你可以这么想,当你测试的时候,hidden state是不是要初始化?

真正在batch之间不断学习的是各个层的参数(模型), hidden state是对数据的一种表示,数据不同hidden state肯定不同。

SofaSofa数据科学社区DS面试题库 DS面经

anlijuncn   2020-07-27 11:40



  相关讨论

收集了一批网站的html源码,想对html进行特征提取,或者分类,请问有什么比较好的方法推荐?

请问汉字CNN识别,怎么做标签呢?

python随机打乱文本

hidden size

可以把多个文档、段落向量直接加和求平均来获得新的表示向量吗?

text CNN的输入训练样本有什么要求?

怎么判断一句中文话语是否通顺

文本处理中的tf是什么意思?如何计算?

自然语言处理中的Tf-idf是什么意思

nlp里的stemming是什么意思?

  随便看看

keras里sparse_categorical_crossentropy和categorical_crossentropy什么不同?

seaborn如何显示图?

为啥Xgboost比GradientBoost好那么多?

python里怎么表示科学计数法?

软聚类,硬聚类?