不同mini-batch的LSTM_cell之间的隐藏状态(hidden state)和记忆单元(memory cell)的确定

  统计/机器学习 深度学习 自然语言处理    浏览次数:1934        分享
0

当我们在一个mini-batch上训练参数并转到另一个mini-batch时,如何得到新batch的c^<0>和a^<0> ?


我的意思是,当处理第一个batch时,可以将c^<0>和a^<0>初始化为零,当完成该batch的训练时,将得到c^<t>和a^<t>。而在下一个batch中,是应该重新初始化c^<0>和a^<0>为0,还是将它们分配为上一批中的c^<t>和a^<t> ?

 

Azia   2020-07-04 16:49



   1个回答 
1

hidden state是要清零(初始化, 清零是一种简单的初始化)的,换了batch意味着新的数据。

你可以这么想,当你测试的时候,hidden state是不是要初始化?

真正在batch之间不断学习的是各个层的参数(模型), hidden state是对数据的一种表示,数据不同hidden state肯定不同。

SofaSofa数据科学社区DS面试题库 DS面经

anlijuncn   2020-07-27 11:40



  相关主题

请问汉字CNN识别,怎么做标签呢?   3回答

收集了一批网站的html源码,想对html进行特征提取,或者分类,请问有什么比较好的方法推荐?   2回答

hidden size   1回答

python随机打乱文本   3回答

可以把多个文档、段落向量直接加和求平均来获得新的表示向量吗?   1回答

text CNN的输入训练样本有什么要求?   1回答

教程中的利用Word2Vec判断是否是白话   1回答

文本处理中stop word什么意思   2回答

nlp里的stemming是什么意思?   2回答

怎么判断一句中文话语是否通顺   1回答

文本处理中的tf是什么意思?如何计算?   1回答

jieba分词中最大正向匹配法是什么?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!