为什么 CNN 架构必须将视频分成更小的视频片段来提取 CNN 特征？

同时应用深度卷积神经网络 (CNN) 来深入了解视频表示。当前的 CNN 架构缺乏对整个视频进行建模的能力，它通常将整个视频分成几个短片段（即剪辑），然后对每个片段分别提取 CNN 特征，最后将多个片段特征聚合成一个集成表示。

我无法理解 CNN 架构的局限性，为什么使用 CNN 可以处理小视频剪辑但不能处理完整视频？

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）