为什么 CNN 架构必须将视频分成更小的视频片段来提取 CNN 特征?

问题描述

同时应用深度卷积神经网络 (CNN) 来深入了解视频表示。当前的 CNN 架构缺乏对整个视频进行建模的能力,它通常将整个视频分成几个短片段(即剪辑),然后对每个片段分别提取 CNN 特征,最后将多个片段特征聚合成一个集成表示。

我无法理解 CNN 架构的局限性,为什么使用 CNN 可以处理小视频剪辑但不能处理完整视频?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)