python – 为什么Keras LSTM在CPU上比GPU快三倍？

我使用this notebook from Kaggle来运行LSTM神经网络.

我开始训练神经网络,我发现它太慢了.它几乎比CPU训练慢三倍.

> CPU性能：每个时期8分钟;
> GPU性能：每个时期26分钟.

在此之后我决定在this question on Stackoverflow找到答案并且我应用了CuDNNLSTM(仅在GPU上运行)而不是LSTM.

因此,GPU性能每个时期仅变为1分钟,模型的准确度降低3％.

问题：

1)有人知道为什么GPU在经典LSTM层中的工作速度比CPU慢吗？我不明白为什么会这样.

2)为什么当我使用CuDNNLSTM代替LSTM时,训练变得更快,模型的准确性会降低？

P.S：

我的CPU：Intel Core i7-7700处理器(8M高速缓存,高达4.20 GHz)

我的GPU：nVidia GeForce GTX 1050 Ti(4 GB)

解决方法:

猜测它只是一个不同的,更好的实现,如果实现不同,你不应该期望相同的结果.

通常,在GPU上有效地实现算法很困难并且获得最大性能需要特定于体系结构的实现.因此,如果针对Nvidia GPU的特定实现与GPU的一般实现相比具有增强的性能,那就不足为奇了.同样也不足为奇的是,Nvidia会为加速他们的GPU代码而不是一个致力于一般CNN实施的团队吸收更多资源.

另一种可能性是后端使用的数据类型已从双精度浮点数变为单半精度或甚至半精度浮点数.较小的数据类型意味着您可以以准确性为代价更快地处理更多数字.对于NN应用,这通常是可接受的,因为没有单个数量需要对网络特别准确以产生可接受的结果.

相关文章