不同mini-batch的LSTM_cell之间的隐藏状态(hidden state)和记忆单元(memory cell)的确定-SofaSofa

当我们在一个mini-batch上训练参数并转到另一个mini-batch时，如何得到新batch的c^<0>和a^<0> ?

我的意思是，当处理第一个batch时，可以将c^<0>和a^<0>初始化为零，当完成该batch的训练时，将得到c^<t>和a^<t>。而在下一个batch中，是应该重新初始化c^<0>和a^<0>为0，还是将它们分配为上一批中的c^<t>和a^<t> ?

Azia 2020-07-04 16:49

hidden state是要清零（初始化，清零是一种简单的初始化）的，换了batch意味着新的数据。

你可以这么想，当你测试的时候，hidden state是不是要初始化？

真正在batch之间不断学习的是各个层的参数（模型）， hidden state是对数据的一种表示，数据不同hidden state肯定不同。

anlijuncn 2020-07-27 11:40

不同mini-batch的LSTM_cell之间的隐藏状态(hidden state)和记忆单元(memory cell)的确定