多层RNN的隐藏层的输入是什么

问题描述

这个 question 使大部分内容都非常清楚。只有一部分我还不知道答案......在 this 论文的 fig1 中,深层的输入是相同的输入(即 x[t])还是来自上一层?

一个非常简单的表述问题的方法是论文的图 1,红线是穿过每一层还是前一层的输出

我认为所有层在时间 t 的输入是 x[t] 因为如果它是前一层的输出并且 x[t] 与 h[t] 的维度不同,那么你需要所有隐藏 GRU 单元接受 t 输入的不同维度(即第一层将接受隐藏状态和输入,但所有后续层将接受来自 t-1 的相应隐藏状态以及来自前一个的隐藏状态层)。

但话又说回来,在我的一个班级中,助教有一个解决方案,假设 x[t] 和 h[t] 是相同的维度,因此对于后续层,他传递了前面层的输入......这只是没有看起来通常是这样。

可能 tensorflow 和 pytorch 源代码会提供明确的答案?

解决方法

Pytorch解决了这个问题。肯定是时间 t 的输入,因为所有层都具有相同的输入维度。

我还没有找到暗示这一点的 tensorflow 的特定文档,但我假设它是一样的。