如何通过将两个相同的深度模型与不同的输入合并为同一数据集而获得的模型进行预测？

我正在研究动态手势识别。我有两种类型的输入：裁剪的手图像（例如，输入1）和一组运动图像（输入2）。

输入1：只有一只手的超小型图像，每个视频序列的帧数= 20

输入2：标准尺寸（1080 * 1920 * 3）的运动图像，每个视频序列的帧数= 4

使用的模型：LSTM

当我在单个输入上训练模型（让手裁剪图像）时，然后在测试集中，我只给手裁剪图像。类似地，对于运动图像。问题：

我编写的代码如下所示：

我正在第一次制作视频和合并概念，所以请多多包涵。另外，我已经阅读了有关quora和StackOverflow的许多答案，但仍然不确定如何解决这个疑问。预先感谢。

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）