当我们在一个mini-batch上训练参数并转到另一个mini-batch时,如何得到新batch的c^<0>和a^<0> ?
我的意思是,当处理第一个batch时,可以将c^<0>和a^<0>初始化为零,当完成该batch的训练时,将得到c^<t>和a^<t>。而在下一个batch中,是应该重新初始化c^<0>和a^<0>为0,还是将它们分配为上一批中的c^<t>和a^<t> ?
1个回答
hidden state是要清零(初始化, 清零是一种简单的初始化)的,换了batch意味着新的数据。
你可以这么想,当你测试的时候,hidden state是不是要初始化?
真正在batch之间不断学习的是各个层的参数(模型), hidden state是对数据的一种表示,数据不同hidden state肯定不同。
SofaSofa数据科学社区DS面试题库 DS面经 相关主题
收集了一批网站的html源码,想对html进行特征提取,或者分类,请问有什么比较好的方法推荐?
1回答
hidden size
1回答
python随机打乱文本
3回答
我们谢绝在回答前讲“生动”的故事。
我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。
我们谢绝答非所问。
我们谢绝自己不会、硬要回答。
我们感激每一个用户在编写答案时的努力与付出!